Anthropic 天價賠款?大模型「盜版」有十萬種花樣

作者 | 發布日期 2025 年 08 月 20 日 7:50 | 分類 AI 人工智慧 , Big Data , 數位內容 line share Linkedin share follow us in feedly line share
Loading...
Anthropic 天價賠款?大模型「盜版」有十萬種花樣

AI 大模型的祕笈是什麼?答案可能很簡單:巨量「盜版」。

這幾乎是公開的祕密。2023年《紐約時報》一紙訴狀將OpenAI和微軟告上法庭,拉開版權戰爭序幕。很快戰火燒遍矽谷,Meta因Llama模型涉嫌用盜版書籍面臨集體訴訟;Anthropic同樣因Claude訓練資料庫被告,短時間幾乎所有一級玩家都被送上被告席。

這場大模型與版權方的核心爭議是:未經授權,大量受版權保護作品不告而取訓練AI,究竟是合法「改革性使用」,還是「侵權盜用」?

眾多懸而未決的案件,進展最快是Anthropic案,6月里程碑式裁決,法院提出極其重要的參考意見:模型訓練本身,因能創造功能完全不同的新事物,有高度改革性,可能不構成侵權,但取得資料的方法,如果涉及盜版網站或未經授權複製品,就幾乎無法用「合理使用」豁免。

據此計算Anthropic或面臨7,500億美元天價賠款。這判決讓所有AI公司捏了一把冷汗,大模型廠商「先污染,後治理」的野蠻生長,或許要到盡頭了。

大模型的N種「盜取」資料途徑

為了滿足無止境的資料需求,各大模型廠商都走出充滿爭議甚至堪稱腦洞大開的路,每種都遊走在法律邊緣。

從公開抓取到蓄意清洗

這是AI資料庫積累最原始普遍的方式。AI公司用強大網路爬蟲,撒下涵蓋全球網路的巨網,全不區分撈捕新聞網站、部落格、學術論壇、社群媒體公開內容,構建初期訓練資料庫。如OpenAI構建WebText資料庫時,就抓取社群媒體Reddit使用者PO出的數百萬個連結,間接將大量受版權保護內容納入囊中,《紐約時報》文章就在其中。

除了抓取,更致命的是清洗。

《紐約時報》和Daily News等媒體訴狀指出,OpenAI抓取新聞時,主動系統性移除版權聲明、作者署名、頁腳等關鍵版權資訊(CMI),被判定為取得資料的性質發生根本性轉變:從可能無意「順手牽羊」升級為有明確規避意圖的「資料清洗」。

格式轉換:從影片和書抓取文字

高品質公開文本日益枯竭,廠商目光轉向其他格式載體,以科技轉成供模型訓練的純文本,這方法更隱蔽。

典型之一是OpenAI「妙用」語音辨識工具Whisper。據說OpenAI用Whisper轉錄超過百萬小時YouTube影片,無論深度訪談、專業課程還是紀錄片解說,將最核心的「語言資產」未經創作者許可下悄然取出,直接餵給GPT-4,巧妙繞過影片版權。

Anthropic也用戲劇性手法,意識到直接使用盜版書庫的巨大法律風險後,Anthropic專門聘請前Google圖書掃描負責人Tom Turvey,啟動成本高昂、操作複雜的「物理世界洗白計畫」:

  • 第一步,批量採購:斥資從圖書經銷商和零售商處,購買數百萬本紙書,不乏二手書。
  • 第二步,物理轉化:將書運至服務商,機器拆掉裝訂、裁切書頁,然後逐頁掃描,產生含圖片和可機讀文本的PDF檔。
  • 第三步,銷毀原件:掃描完後,原件直接丟棄。此舉目的是法律論證是「格式轉換」,而非創造「額外副本」,規避侵權指控。
  • 第四步,資料建庫:為數位化圖書建立詳細書目資料庫,並分詞、清理等複雜預處理,最終形成來源看似合法的高品質訓練資料庫。

但這些正好證明:第一,AI公司充分知道高品質資料的版權價值;第二,取得合法資料成本,遠比想像驚人。

影子圖書館

爭分奪秒的競賽和巨大性能壓力下,部分公司選擇最高效也最高風險的捷徑:直接擁抱盜版資源。

Meta訓練開源模型Llama時,遭指使用「影子圖書館」(如Library Genesis、Books3)等非法盜書資料。無獨有偶,Anthropic文件也顯示,聯合創辦人創立初期,就下載有近20萬本書的盜版庫Books3,對資源是盜版心知肚明。

平台藉隱私協定取得資料

與上述幾種「硬核」盜版不同,巨頭展示更具平台特色的「陽謀」,不靠外部抓取或盜版,而是用龐大使用者生態系,以服務條款「合法」將用戶資料化為己用。

Google隱私政策就明確顯示可能使用用戶公開訊息訓練AI模型,普通使用者Google Docs協作文件,Google地圖評論,或Blogger發表文章,都可能納入Google AI訓練池,構建起競爭對手難逾越的資料護城河。

這些五花八門、遊走法律邊緣的抓資料方式,顯示AI發展的圈地階段,大模型都想以最低成本、最快速度取得最大量資料,來源是否合法都是次要。但版權方抓狂提告徹底打破默契,攻擊焦點精確瞄準最脆弱的一環:資料原始路徑。

更昂貴的AI時代來了

AI版權戰爭的真正轉捩點,是訴訟焦點的變化:不再糾纏AI「如何用」資料,而是直擊「從何取得」。最初雙方法律攻防主要圍繞AI「使用」資料性質。

AI公司認為自己並非傳統意義的複製,而是學習,模型內化資料模式、語法和知識,就像學生閱讀海量書籍以形成自己的寫作風格,目的是創造全新的東西,是高度改革性用法。版權方則反駁,AI商業化產品會直接與原作形成市場競爭,取代使用者的新聞和書籍閱讀需求,損害核心商業利益。

然而這兩個戰場,版權方都打得異常艱難。膠著狀態下,版權方策略發生決定性轉向,找到更根本致命的攻擊點:資料來源合法性。

法院階段性審理,也發出微妙且影響深遠的訊號:一方面初步裁決AI輸出內容和訓練行為,因改革性或許不構成直接侵權,某種程度為大模型發展留下空間,避免技術創新被扼殺;另一方面,法院對「來源合法性」劃出明確紅線,嚴厲限制取用盜版資源的行為。

面對如雪片般飛來的訴訟,大模型廠商的激進派也逐漸轉向保守派。代表就是蘋果,一開始就將使用者隱私和規則置於最重要位置,寧願AI競賽起步較晚,也要有明確授權(如與圖庫Shutterstock合作)和用自有資料庫以避免法律風險。

激進派的Meta和早期OpenAI信奉「移動快,打破規則」的矽谷教條,將潛在法律訴訟視為可計算和承受的商業成本。但現在訴訟纏身,OpenAI迅速轉成積極的資料「購買者」,斥資與美聯社、金融時報等數十家媒體簽署許可協定;Anthropic則上演從盜版書庫到斥資購買、掃描、銷毀實體書的「勞力洗白」。

這些都代表「資料免費」的黃金時代一去不復返,資料將成為AI公司財報明確且高價的成本項。

從整個行業觀之,手握優質內容的出版商、新聞機構,或從被動受害者轉成AI產業鏈上游有大量籌碼、強大議價權的關鍵參與者,反過來又會加劇業界競爭壁壘,有強大現金流和頂尖法務團隊的科技巨頭比AI新創的優勢更強。

AI業的競爭已從單純演算法和算力競賽,擴展到資料供應鏈管理、商業談判和法務力的全面戰爭。當充滿爭議的盜版捷徑慢慢一條條堵死,更昂貴的AI時代已經來臨。

(本文由 品玩 授權轉載;首圖來源:shutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》