Google 發佈可讓 AI 訓練所需資料量減少一萬倍的優化方法

在人工智慧（AI）技術不斷推進參數量規模（Scaling law）的當下，訓練大型語言模型（LLM）所需的龐大資料量與高昂成本，長期以來一直是技術落地與快速迭代的最大瓶頸。Google 近日公布一項突破性研究成果，聲稱其研發的新型資料篩選與標註流程，能在維持模型精度的同時，將訓練所需的高忠實度（high-fidelity）資料量削減至原本的萬分之一。

從數百億參數到資料瓶頸：LLM訓練的困境

隨著 AI 模型規模持續擴大，最新一代 LLM 的參數量已達數百億甚至數千億級別。雖然規模擴張帶來了推理能力與多任務適應性的提升，但同時也帶來了資料需求的爆炸性增長。傳統上，要讓模型在複雜且具文化背景差異的任務中表現穩定，需要大量人工精確標註的訓練資料。

以廣告安全審查為例，如何從龐大的廣告庫中識別出不安全或違反政策的內容，不僅涉及語義判斷，還需考慮文化語境與地區規範差異。這類高複雜度任務往往需要「高忠實度」的訓練數據──也就是由專業人士審核並標註的數據。然而，專業標註的時間成本與金錢成本極高，且隨著政策更新或新型態內容出現，模型可能需要完全重新訓練，進一步拉高成本。

Google的新策略：資料選擇的閉環式優化

面對這一挑戰，Google 將「在不降低標註品質的前提下，大幅減少所需訓練資料量」列為首要目標，並提出了一套全新的資料篩選循環流程（curation process）。

這一流程以人類專業知識為核心，結合模型自身的初步分類能力，採取「先粗後精」的閉環式優化方式：

少樣本啟動
以零樣本或少樣本（few-shot）方式，先讓模型根據既有標籤（例如「安全廣告」與「不安全廣告」）進行初步分類。
識別邊界樣本
模型在大多數案例中能做出明確判斷，但會出現一部分「邊界樣本」，即模型判斷模糊或可能出錯的案例。
專家標註邊界樣本
這些邊界樣本被送交人類專家進行精確標註。由於標註範圍僅限於高不確定性案例，所需的人工標註量遠低於全量數據。
模型再訓練與循環迭代
將專家標註結果重新用於模型微調，並重複上述流程，直到性能提升趨於穩定。

這種方法的關鍵在於將專家資源集中投入在最具爭議性、最能影響模型判斷的案例，避免在大量容易分類的樣本上浪費人力。

實驗數據：從10萬筆到500筆的跨越

Google 在實驗中使用了兩個不同規模的 LLM：參數量 18 億的 Gemini Nano-1 與 32.5 億的 Gemini Nano-2，針對不同複雜度的廣告安全分類任務進行測試。每個任務的資料集約包含 10 萬筆廣告，其中約 95% 被標記為無害。

透過新流程，Google 將需要專家標註的數據量從 10 萬筆 驟降至 500 筆以內，同時實現以下成果：

Gemini Nano-1（小型模型）
在資料大幅減少的情況下，性能與使用全量數據訓練的結果幾乎持平。
Gemini Nano-2（大型模型）
當訓練數據量削減至原本的 1/1000 到 1/10000 時，準確率反而提升了 55%～65%。

這一結果顯示，對於特定任務而言，「精挑細選的少量高品質資料」可能比「海量但品質參差的資料」更具價值。

標註品質的關鍵：Kappa > 0.8

Google 強調，這一方法的成功並非僅依賴資料選擇策略，高品質標註本身是不可或缺的基礎。在這些廣告安全審查任務中，若要讓模型表現超過眾包工作者（crowd workers）標註的水準，必須確保標註一致度（以 Kappa 值 衡量）超過 0.8。這意味著專家之間的判斷須高度一致，才能成為有效訓練資料。

透過結合 LLM 對大範圍內容的初步分類能力與專家對高難度案例的精確判斷，Google 認為能夠更靈活地運用高忠實度標註資料，突破資料瓶頸。

對產業的啟示：資料效率時代的到來

Google 的研究為 AI 模型訓練帶來了兩項重要啟示：

效率優先於規模
在特定情境下，優化資料選擇與標註流程，比一味追求資料量更能帶來性能提升。
專家與模型的協作價值
LLM 能快速處理與篩選大範圍資料，但在高不確定性案例中，仍需仰賴人類專業知識。這種人機協作模式，或將成為未來 AI 訓練的標準方法論。

在廣告安全、醫療診斷、內容審查等高風險應用領域，這種方法尤其具吸引力，因為它能顯著降低數據採集與標註成本，並縮短模型迭代週期。

面對 AI 技術與應用場景的快速變化，Google 的這項成果顯示，未來的競爭不僅是比拼模型規模與運算能力，更是資料管理與標註策略的較量。當資料效率成為新一輪技術革新的關鍵詞，誰能以更少的資料達到更高的性能，誰就有機會在 AI 競賽中脫穎而出。

Source

Tags: ai Google LLM

Google 發佈可讓 AI 訓練所需資料量減少一萬倍的優化方法

您也許會喜歡：

網站搜尋

廣告