Anthropic 天價賠款？大模型「盜版」有十萬種花樣

作者品玩 | 發布日期 2025 年 08 月 20 日 7:50 | 分類 AI 人工智慧 , Big Data , 數位內容

Loading...

Anthropic 天價賠款？大模型「盜版」有十萬種花樣

AI 大模型的祕笈是什麼？答案可能很簡單：巨量「盜版」。

這幾乎是公開的祕密。2023年《紐約時報》一紙訴狀將OpenAI和微軟告上法庭，拉開版權戰爭序幕。很快戰火燒遍矽谷，Meta因Llama模型涉嫌用盜版書籍面臨集體訴訟；Anthropic同樣因Claude訓練資料庫被告，短時間幾乎所有一級玩家都被送上被告席。

這場大模型與版權方的核心爭議是：未經授權，大量受版權保護作品不告而取訓練AI，究竟是合法「改革性使用」，還是「侵權盜用」？

眾多懸而未決的案件，進展最快是Anthropic案，6月里程碑式裁決，法院提出極其重要的參考意見：模型訓練本身，因能創造功能完全不同的新事物，有高度改革性，可能不構成侵權，但取得資料的方法，如果涉及盜版網站或未經授權複製品，就幾乎無法用「合理使用」豁免。

據此計算Anthropic或面臨7,500億美元天價賠款。這判決讓所有AI公司捏了一把冷汗，大模型廠商「先污染，後治理」的野蠻生長，或許要到盡頭了。

大模型的N種「盜取」資料途徑

為了滿足無止境的資料需求，各大模型廠商都走出充滿爭議甚至堪稱腦洞大開的路，每種都遊走在法律邊緣。

從公開抓取到蓄意清洗

這是AI資料庫積累最原始普遍的方式。AI公司用強大網路爬蟲，撒下涵蓋全球網路的巨網，全不區分撈捕新聞網站、部落格、學術論壇、社群媒體公開內容，構建初期訓練資料庫。如OpenAI構建WebText資料庫時，就抓取社群媒體Reddit使用者PO出的數百萬個連結，間接將大量受版權保護內容納入囊中，《紐約時報》文章就在其中。

除了抓取，更致命的是清洗。

《紐約時報》和Daily News等媒體訴狀指出，OpenAI抓取新聞時，主動系統性移除版權聲明、作者署名、頁腳等關鍵版權資訊（CMI），被判定為取得資料的性質發生根本性轉變：從可能無意「順手牽羊」升級為有明確規避意圖的「資料清洗」。

格式轉換：從影片和書抓取文字

高品質公開文本日益枯竭，廠商目光轉向其他格式載體，以科技轉成供模型訓練的純文本，這方法更隱蔽。

典型之一是OpenAI「妙用」語音辨識工具Whisper。據說OpenAI用Whisper轉錄超過百萬小時YouTube影片，無論深度訪談、專業課程還是紀錄片解說，將最核心的「語言資產」未經創作者許可下悄然取出，直接餵給GPT-4，巧妙繞過影片版權。

Anthropic也用戲劇性手法，意識到直接使用盜版書庫的巨大法律風險後，Anthropic專門聘請前Google圖書掃描負責人Tom Turvey，啟動成本高昂、操作複雜的「物理世界洗白計畫」：

第一步，批量採購：斥資從圖書經銷商和零售商處，購買數百萬本紙書，不乏二手書。
第二步，物理轉化：將書運至服務商，機器拆掉裝訂、裁切書頁，然後逐頁掃描，產生含圖片和可機讀文本的PDF檔。
第三步，銷毀原件：掃描完後，原件直接丟棄。此舉目的是法律論證是「格式轉換」，而非創造「額外副本」，規避侵權指控。
第四步，資料建庫：為數位化圖書建立詳細書目資料庫，並分詞、清理等複雜預處理，最終形成來源看似合法的高品質訓練資料庫。

但這些正好證明：第一，AI公司充分知道高品質資料的版權價值；第二，取得合法資料成本，遠比想像驚人。

影子圖書館

爭分奪秒的競賽和巨大性能壓力下，部分公司選擇最高效也最高風險的捷徑：直接擁抱盜版資源。

Meta訓練開源模型Llama時，遭指使用「影子圖書館」（如Library Genesis、Books3）等非法盜書資料。無獨有偶，Anthropic文件也顯示，聯合創辦人創立初期，就下載有近20萬本書的盜版庫Books3，對資源是盜版心知肚明。

平台藉隱私協定取得資料

與上述幾種「硬核」盜版不同，巨頭展示更具平台特色的「陽謀」，不靠外部抓取或盜版，而是用龐大使用者生態系，以服務條款「合法」將用戶資料化為己用。

Google隱私政策就明確顯示可能使用用戶公開訊息訓練AI模型，普通使用者Google Docs協作文件，Google地圖評論，或Blogger發表文章，都可能納入Google AI訓練池，構建起競爭對手難逾越的資料護城河。

這些五花八門、遊走法律邊緣的抓資料方式，顯示AI發展的圈地階段，大模型都想以最低成本、最快速度取得最大量資料，來源是否合法都是次要。但版權方抓狂提告徹底打破默契，攻擊焦點精確瞄準最脆弱的一環：資料原始路徑。

更昂貴的AI時代來了

AI版權戰爭的真正轉捩點，是訴訟焦點的變化：不再糾纏AI「如何用」資料，而是直擊「從何取得」。最初雙方法律攻防主要圍繞AI「使用」資料性質。

AI公司認為自己並非傳統意義的複製，而是學習，模型內化資料模式、語法和知識，就像學生閱讀海量書籍以形成自己的寫作風格，目的是創造全新的東西，是高度改革性用法。版權方則反駁，AI商業化產品會直接與原作形成市場競爭，取代使用者的新聞和書籍閱讀需求，損害核心商業利益。

然而這兩個戰場，版權方都打得異常艱難。膠著狀態下，版權方策略發生決定性轉向，找到更根本致命的攻擊點：資料來源合法性。

法院階段性審理，也發出微妙且影響深遠的訊號：一方面初步裁決AI輸出內容和訓練行為，因改革性或許不構成直接侵權，某種程度為大模型發展留下空間，避免技術創新被扼殺；另一方面，法院對「來源合法性」劃出明確紅線，嚴厲限制取用盜版資源的行為。

面對如雪片般飛來的訴訟，大模型廠商的激進派也逐漸轉向保守派。代表就是蘋果，一開始就將使用者隱私和規則置於最重要位置，寧願AI競賽起步較晚，也要有明確授權（如與圖庫Shutterstock合作）和用自有資料庫以避免法律風險。

激進派的Meta和早期OpenAI信奉「移動快，打破規則」的矽谷教條，將潛在法律訴訟視為可計算和承受的商業成本。但現在訴訟纏身，OpenAI迅速轉成積極的資料「購買者」，斥資與美聯社、金融時報等數十家媒體簽署許可協定；Anthropic則上演從盜版書庫到斥資購買、掃描、銷毀實體書的「勞力洗白」。

這些都代表「資料免費」的黃金時代一去不復返，資料將成為AI公司財報明確且高價的成本項。

從整個行業觀之，手握優質內容的出版商、新聞機構，或從被動受害者轉成AI產業鏈上游有大量籌碼、強大議價權的關鍵參與者，反過來又會加劇業界競爭壁壘，有強大現金流和頂尖法務團隊的科技巨頭比AI新創的優勢更強。

AI業的競爭已從單純演算法和算力競賽，擴展到資料供應鏈管理、商業談判和法務力的全面戰爭。當充滿爭議的盜版捷徑慢慢一條條堵死，更昂貴的AI時代已經來臨。

（本文由品玩授權轉載；首圖來源：shutterstock）

延伸閱讀：

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

科技新報粉絲團

訂閱免費電子報

關鍵字: AI 模型 , Anthropic , LLMs , Meta , OpenAI , 版權爭議 , 盜版