
OECD認為,爬蟲可以促進 AI 發展、降低資料偏誤(bias)、幫助本地語言與小眾資料集的取得,所以在法律規制上,應著重「產業可操作性」而非一味擴張法律禁令。
OECD 在今年 2 月發表了一份報告(Intellectual Property Issues in Artificial Intelligence Trained on Scraped Data),探討爬蟲程式如何在促進 AI 創新與保障智慧財產權之間達到平衡。在 OECD 的報告中,明確指出爬蟲程式是大語言模型(LLMs)預訓練不可或缺的資料來源。
「資料」是人工智慧發展的基石。根據規模定律(scaling law),資料量越龐大且多元,模型在訓練與泛化上的能力就越好。而大家都知道,資料規模有限,是台灣打造自主大語言模型長期以來的結構性困境。因此「爬蟲程式」成為許多台灣新創、學術單位彌補資料量不足的重要工具。
然而,在七法 Lawsnote 案的判決中,新北地方法院將「爬蟲程式」認定為觸犯刑法第 359 條。這一紙判決,可能敲響了台灣 AI 產業發展的警鐘。
台灣新創史上的罕見重判
2025 年 6 月 26 日,新北地方法院的一份新聞稿震驚了台灣新創圈:台灣產業不多見的法律科技新創,七法(Lawsnote)股份有限公司,遭法院認定違反著作權法以及刑法「無故取得他人電腦電磁紀錄罪」,創辦人郭榮彥被判 4 年有期徒刑,並需連帶賠償逾億元。
七法 Lawsnote 不僅是台灣少數推動法律科技的新創公司,同時也是台灣法律AI領域的先行者之一,曾入選人工智慧科技基金會(AIF)「2024 年 AI 生態系暨台灣 AI 新創地圖」。
這個判決震撼台灣新創圈,不僅因為法官量刑罕見地重。更讓人意外的是,法官在本案中的法律見解。其中,法官在論罪時,針對「無故取得他人電腦電磁紀錄罪」之構成要件所做的法律解釋,尤其值得 AI 產業關注。
爬蟲程式構成刑事犯罪?
根據判決書,法官在認定七法 Lawsnote 使用爬蟲程式爬取複製資料,致觸犯刑法第 359 條「無故取得他人電腦電磁紀錄罪」部分,主要考量以下三個構成要件:
- 是否有使用爬蟲程式取得資料?
- 是否「無故」?
- 是否導致他人損害?
在以上的構成要件中,爬蟲取得資料是否「導致他人損害」屬於著作權法要處理的問題,非本文討論的範疇。我們所關注的是,究竟使用爬蟲程式,是否屬於「無故」?
在七法 Lawsnote 案的判決中,法官直白認為,不論資料網站的使用規範中是否明文禁止爬蟲,核心仍在於「是否取得著作權人書面授權」。只要未經同意擅自重製,即屬違反使用規範,並構成無故取得他人電腦電磁紀錄罪。

相信任何對資訊產業稍有了解的人,都會有一個共同的疑問:若按照以上法律見解,那麼小至經營媒體監測業務的平台,如潤利艾克曼、大數軟體、Qsearch 等,大至任何涉及搜索引擎的平台,如 Google、Yahoo、或 OpenAI,顯然並未取得「著作權人書面授權」,所以統統屬於「無故」,都涉嫌觸犯刑法「無故取得他人電腦電磁紀錄罪」。
是台灣獨有或是國際趨勢?
在美國,針對爬蟲程式是否構成刑事犯罪的討論,主要圍繞在其是否違反《電腦詐欺與濫用防治法》(Computer Fraud and Abuse Act, CFAA)。就結論來說,美國聯邦法院並不認為爬蟲程式違反 CFAA、構成犯罪行為。
CFAA 在爬蟲案件中的核心爭點,與我國刑法第 359 條一樣,在於如何定義「授權」(authorized)一詞。由於 CFAA 未提出明確定義,所以何謂「授權」或「無故」,需由各地巡迴法院逐步形成共識。
自 2017 年以來,美國法院對爬蟲程式是否違反 CFAA 的討論,傾向回到 CFAA 的立法目的,即該行為是否真正構成傳統意義上的「駭客行為」,以及資料是否受技術性保護。
在 hiQ Labs, Inc. v. LinkedIn Corp. 案中,法院裁定,LinkedIn 無法阻止 hiQ Labs 爬取 LinkedIn 公開的個人資料,因為這些資料是公開且未受到密碼保護。在 Sandvig v. Sessions 案中,法院認為爬取公開網站的行為屬於美國第一修正案(言論自由)的範圍,且與人類瀏覽網頁在技術上並無實質區別,因此除非爬蟲規避了技術性代碼屏障,否則不應適用 CFAA。
OECD 的報告則指出,若從著作權角度加以分析,大多數國家的著作權體系(尤其是美、歐、日)在設計之初,並未針對大規模自動化爬蟲行為提供明確規範。OECD認為,爬蟲可以促進 AI 發展、降低資料偏誤(bias)、幫助本地語言與小眾資料集的取得,所以在法律規制上,應著重「產業可操作性」而非一味擴張法律禁令。
七法 Lawsnote 案對台灣 AI 產業的深遠影響
正如 OECD 所述,爬蟲技術是生成式 AI 的資料供應鏈起點。更重要的是,資料新鮮度對於生成式 AI 尤為關鍵,爬蟲技術允許企業持續更新語料庫,縮短模型「知識時滯(knowledge cutoff)」。
目前全球生成式 AI 生態逐漸分裂成兩個陣營:第一,是已擁有大規模語料、掌握自有搜索引擎或版權資料的一線巨頭;第二,則是仰賴公開資料進行訓練的新創與中小企業。在這樣的結構下,若爬蟲技術被限制,勢必加速資料壟斷,讓生成式 AI 高度集中在少數超級平台手中。
台灣在生成式 AI 的發展上,長期受限於本土資料規模不足、資料品質差、缺乏公開資料等問題,導致台灣在開發基礎模型上困難重重。現在,台灣的 AI 新創們在努力創新,加速追趕海外同業的同時,隨著七法 Lawsnote 案判決的誕生,又有一個新的枷鎖要關注:你的資料取得方式,是否可能構成犯罪?
七法 Lawsnote 案判決所帶來的法律不確定性,恐將導致台灣的 AI 發展停滯,難以突破僅能以他國的開源模型進行微調的現況。
如何在法律規範與 AI 產業發展上尋求平衡?
產業發展並非法官的責任,期待台灣的刑事庭法官在審判時考量判決對產業的影響,是不切實際的。而為台灣 AI 產業的長期發展創造良好環境,是立法者與政府的責任。
以爬蟲技術為例,立法者或許可以參考美國,考慮如何讓刑法第 359 條的規制行為更加明確,例如明確「突破技術性屏障」作為是否構成「無故」的要素之一、或是納入 Robots Exclusion Standard (robots.txt)作為判斷的依據等。
OECD 在報告中則建議,應優先透過多元利害關係人共同制定「自律型資料蒐集行為準則」(Data Scraping Code of Conduct),並鼓勵發展「標準化技術工具」(如資料存取控制、opt-out 協議、資料來源透明標註),搭配「標準合約條款」(Standard Contract Terms)作為管理基礎,處理爬蟲與著作權保護之間的衝突,同時提升 AI 開發者對訓練資料來源的揭露義務,以促進產業合理運作。
除此以外,OECD 同樣建議各國政府,應避免單純依賴訴訟與刑事手段解決爭議,確保在保障智慧財產權與支持生成式 AI 發展之間取得平衡。期望我國政府與法界能夠以此為戒,共同為台灣 AI 產業的發展創造良好的環境。
衍伸閱讀: