在生成式人工智慧快速崛起的當下,AI 大模型訓練所使用的原始文字優質資料來源顯的相當的重要,不過也這也牽涉了不少著作權爭議。近日,加州北部地方法院針對AI公司 Anthropic 所捲入的著作權官司做出了可能與一般人認知不同的裁定:確認合法購買的書籍可用於AI訓練,屬於美國著作權法中的「公平使用」(Fair Use)原則。
美國法院判決 AI 企業不需獲得原作者許可,即可使用合法獲得的書籍來訓練人工智慧
此案始於2024年8月,由三位美國作家記者兼作家:安德莉亞·巴茲(Andrea Bartz)、查爾斯·格雷伯(Charles Graeber)以及柯克·強森(Kirk Johnson)共同提起訴訟。他們指控 Anthropic 使用如 LibGen、Books3 等知名盜版網站的數據庫,甚至直接將紙本書籍掃描數位化,以訓練其AI語言模型Claude,構成嚴重的侵犯著作權。
根據外媒報導,Anthropic 承認曾下載數百萬本書籍的數據,並進行訓練使用。其中部分來源為購買後自行掃描的紙本書籍,亦有大量來自上述非法網路資源。然而,Anthropic 強調其訓練行為具備「變形性」(transformative purpose),即並非單純複製,而是用於創造全新作品,符合法律上對「公平使用」的要件。
法院三項關鍵裁定:界定AI訓練資料的合法性邊界
此次案件由加州北部地區聯邦地方法院的威廉·阿爾薩普(William Alsup)法官主審,他在判決書中針對三大爭議焦點做出詳細裁定,為AI業界提供了法律適用的關鍵指引。
一、使用紙本書掃描數據進行AI訓練屬於「公平使用」
阿爾薩普法官首先指出,將AI訓練視為「複製行為」並不成立。AI模型訓練的實質行為,是學習大量文字之間的統計關聯性,而非儲存或再現具體內容。
對於原告提出的「AI訓練可能導致類似風格作品大量產生,影響原作市場」一說,法官予以駁回。他援引具體論述:「這種觀點就如同認為教導孩子寫作會增加競爭作家的數量,因此有損作者利益。著作權法的目的不在於消除競爭,而是促進創造與知識進步。」
法官進一步指出,AI模型輸出的內容若未直接複製原作,則不構成剽竊或侵權。
二、合法購買並掃描書籍供內部訓練亦屬「公平使用」
關於Anthropic購書後自行裁剪、掃描並數位化儲存用於內部研究的行為,法院亦認定此舉具備「變形性」目的,符合公平使用條件。
法官強調,該公司已擁有書籍所有權,且數位化後的書籍僅供內部AI訓練與研究,不涉及外部發行或銷售。「這是格式轉換的行為,而非對著作權的侵害。目的在於空間管理與搜尋便利,並未構成對著作人發行權或衍生著作權的侵犯。」
這一裁定可望為許多同樣進行內部資料整理與數位轉換的研究單位提供範例依據。
三、使用盜版數據訓練AI不屬於「公平使用」
最具爭議的部分,來自Anthropic承認曾使用如Books3與LibGen等盜版來源,收集超過700萬本書籍作為訓練素材。雖然該公司在訴訟中聲稱承認這一行為帶有「惡意」,但同時強調其目的仍具創造性。
然而,法院對此並不接受。法官明確指出,使用非法下載的內容構建中央資料庫,不具「變形性」,且實質上是「付費書籍的替代品」,嚴重違反著作權法。
此外,即便Anthropic後來購買了部分書籍,也無法抵消初期的侵權行為。法官語重心長地指出:「若學術研究可以作為非法複製的免罪符,那麼整個出版市場將不復存在。」
該判決亦批評Anthropic未及時刪除非法來源資料,顯示其使用目的已超出合理範圍。
AI公司能合法使用何種資料?法院給出具體標準
此次判決標誌著AI模型訓練領域中,資料使用合法性的劃分首次獲得清晰司法定義。總結來看,阿爾薩普法官的判決為以下幾點建立了明確界線:
-
✅ 合法購買、內部使用、具「變形性」目的的數據屬於公平使用。
-
❌ 從非法網站取得的內容,即便用於研究,也不構成公平使用。
-
✅ 數位化為用途合理的格式轉換,未構成發行或再製。
-
❌ 儲存、再利用盜版資料,構成重複性侵權。
The Verge 引述 Anthropic 對判決的官方回應指出:「我們對法院認可AI訓練的變形性質表示欣慰。Claude模型的訓練目的從來不是複製或替代原著,而是激發創造力、促進科學進步。」然而,盜版使用的部分仍將繼續進行審理,法院將就損害賠償金額作出進一步裁定。雖然後續購書可望減輕其法律責任,但並不足以全然抵消早前的侵權行為。