東京 AI 實驗室 Sakana AI 於 6 月 22 日正式發表「Sakana Fugu」,一個以多代理協作為核心的 AI 編排系統,號稱能透過動態調度多個模型的集體智慧,在編碼、科學推理等標竿測試中達到與 Anthropic 最強模型 Fable 5 和 Mythos Preview 同等甚至超越的水準,且完全不受出口管制限制。
日本 AI 新創團隊發表 Sakana Fugu 模型
不是更大的模型,而是更好的經理
Fugu 的核心概念不同於傳統 AI 發展路徑。過去幾年,AI 的進步主要來自於暴力擴張:打造越來越大的單體模型,餵養越來越多的訓練資料。但 Sakana AI 從創立之初就堅持一個核心信念:最強大的 AI 系統不會是孤立的巨石,而是協作生態系統。
Fugu 本身是一個語言模型,但它被訓練用來「呼叫」一個代理池(agent pool)中的其他 LLM,包括呼叫自己的副本進行遞迴運算。面對一個任務時,Fugu 會自主決定:要使用哪個模型、是否需要拆解任務為規劃和執行兩個階段、要不要讓另一個代理驗證答案、以及如何將結果組合成最終輸出。對開發者來說,這一切只透過一個 OpenAI 相容的 API 呈現,你呼叫一個模型,背後有一整個團隊在運作。
這項技術建立在 Sakana AI 兩篇 ICLR 2026 論文之上:TRINITY(探索思考者、工作者與驗證者之間的演化協作)和 Conductor(使用強化學習發現代理間的通訊與協作策略)。關鍵在於,系統不只是在管線中串聯數個代理,而是學習如何建立管線本身。遞迴深度成為一個可在推理時動態調整的參數,意味著使用者可以在品質與成本之間自由取捨,完全不需要重新訓練模型。
效能標竿對比
Sakana AI 公布的評測數據顯示,Fugu Ultra 在業界最嚴格的工程、科學與推理標竿測試中,與 Anthropic 的 Fable 5 和 Mythos Preview 站上同一水準。以下是重點成績:
- SWE-Bench Pro(軟體工程):Fugu Ultra 73.7,超越 Opus 4.8(69.2)與 GPT-5.5(58.6)
- LiveCodeBench v6(程式碼生成):Fugu Ultra 93.2,領先 Gemini 3.1 Pro(88.5)
- GPQA-D(科學推理):Fugu Ultra 95.5,與 Fugu 標準版並列最高
- Humanity’s Last Exam(綜合知識):Fugu Ultra 50.0,接近 Opus 4.8(49.8)
- TerminalBench 2.1(終端機操作):Fugu Ultra 82.1,領先 Opus 4.8(74.6)
兩種版本:Fugu 與 Fugu Ultra
Sakana Fugu 推出兩個版本。標準版 Fugu 針對低延遲與日常使用最佳化,適合程式碼審查、聊天機器人等互動場景,也允許企業基於合規需求將特定代理排除在池外。Fugu Ultra 則針對複雜的多步驟任務提供最高品質的輸出,適合 AI 研究、論文重現、網路安全分析、專利與文獻調查等高強度工作負載。
兩個版本皆透過統一的 OpenAI 相容 API 提供存取,開發者只需更換 API endpoint 即可切換,不需要改寫任何程式碼。值得注意的技術細節是,Fugu 可以遞迴呼叫自己,它會讀取自己的輸出,判斷協作策略是否不夠好,然後啟動修正流程。遞迴深度成為一個推理時可調的旋鈕,完全不需要重新訓練。
如果你想要的話,使用者可以直接在 Codex 編輯器中切換到 Fugu Ultra 作為模型後端。Sakana AI 也在官方公告中提到,Fugu 在 AutoResearch 實驗中表現出色,AI 代理自主在單張 H100 GPU 上進行 14 小時、123 次訓練實驗,最終 Fugu Ultra 在所有種子中取得了最佳的平均驗證分數,超越三個前沿模型基線。
Sakana Fugu 官網
結語
Sakana Fugu 的出現代表了 AI 發展路徑的一種典範轉移:不是繼續堆疊更大更貴的單體模型,而是用一個較小的模型學會如何聰明地調度現有資源。當 Anthropic 的最強模型因為出口管制無法在全球範圍內自由使用時,一家東京實驗室用「編排」取代了「蠻力」,在競賽中找到了自己的切入點。對於受到 GPU 出口限制或無法取得特定 API 存取權的國家與企業來說,這種「模型路由器」的思維提供了一條繞過地緣政治障礙的出路。



