三個臭皮匠勝過一個諸葛亮？日本 Sakana Fugu 調度 Claude、GPT、Gemini 協作，號稱超越 Fable 5

近日由「Attention Is All You Need」共同作者 Llion Jones 創辦的東京 AI 新創公司 Sakana AI 發表了號稱能和 Claude Fable 5 和 Mythos Preview 能力相當的 Sakana Fugu。簡單來說 Sakana Fugu 並不是一個新的基礎模型，而是一個「學會了如何調度其他模型」的「多模型調度系統」方案。在使用者提問時，背後的 Fugu 系統會自動決定要直接回答、還是組隊呼叫 Claude、GPT、Gemini 等多個頂級模型協作完成任務。Sakana Fugu 本身是一個經過訓練的語言模型，專門學習何時該委派任務、如何讓不同模型互相驗證、以及怎樣把多個模型的輸出整合成一個更可靠的答案。使用者感受到的介面與一般聊天 API 完全相同，但背後是一個由多個專家模型組成的協作團隊。

為什麼需要一個「模型調度器」？

Sakana AI 的核心論點是：單一模型再強，都有盲點。GPT 擅長結構化推理，Claude 在長上下文和細膩語言處理上有優勢，Gemini 在某些知識檢索任務表現突出。既然每個模型各有擅場，真正的最強表現應該來自「集體智慧」，也就是知道在什麼時候用哪個模型、如何分工、以及如何整合各自的優勢。

過去要做到這一點，開發者得自己搭建多模型調度框架：管理多組 API 金鑰、設計路由邏輯、寫驗證流程、處理失敗重試。Fugu 把這些複雜度全部封裝在一個 API 背後。使用者呼叫一個端點，Fugu 內部自動處理模型選擇、任務委派、結果驗證和最終合成。

這套方法的學術基礎來自 Sakana AI 在 ICLR 2026 發表的兩篇論文：TRINITY（進化型 LLM 協調器）和 Conductor（用強化學習讓模型學會在自然語言中協調多個 Agent）。TRINITY 讓系統自動為不同模型分配 Thinker（思考）、Worker（執行）、Verifier（驗證）三種角色；Conductor 則透過強化學習，讓模型自己發現最有效率的 Agent 溝通模式。[3]

Fugu vs Fugu Ultra：兩個版本怎麼選

Sakana Fugu 提供兩個版本，共用同一個 API 端點：

Fugu：適合日常使用，兼顧效能與低延遲。適用於聊天機器人、程式碼審查、互動式服務等場景。計費方式為動態費率，根據背後使用的最高階模型收費，不會疊加多個模型的費用。
Fugu Ultra：為複雜、多步驟任務優化，協調更深層的模型池來處理高難度問題。適用於深度程式碼開發、科學推理、多步驟分析等場景。採固定費率計費。

兩者都支援讓使用者選擇排除特定供應商或模型，以滿足資料隱私、合規或組織政策需求。

定價：比你想的更有彈性，但也不便宜

Fugu Ultra 的 API 定價如下（以每百萬 token 計算）：

輸入：$5（約 NT$163）
輸出：$30（約 NT$975）
快取輸入：$0.50（約 NT$16）
上下文超過 272K token 時：輸入 $10（約 NT$325）、輸出 $45（約 NT$1,463）
上下文窗口：100 萬 token
最大輸出：12.8 萬 token

一個關鍵細節：Fugu Ultra 的計費包含「編排 token」（orchestration tokens），也就是內部模型之間互相溝通所消耗的 token。這些 token 的費率與標準輸入輸出相同，但不會出現在你最終收到的回應中。換句話說，你看不到的內部協作也在計費。

Sakana 同時提供訂閱制方案，適合個人使用者：

Standard：$20/月（約 NT$650），基本額度
Pro：$100/月（約 NT$3,250），10 倍用量
Max：$200/月（約 NT$6,500），20 倍用量

官方限時優惠：在 2026 年 7 月 31 日前訂閱，第二個月免費。Fugu Ultra 也可透過 OpenRouter 使用，費率相同。

Benchmark 表現：官方數字亮眼，但尚未經第三方驗證

根據 Sakana 官方公布的數據，Fugu Ultra 在多項基準測試中表現優異：

SWE-Bench Pro（軟體工程能力）：Fugu Ultra 73.7%，領先 Claude Opus 4.8 的 69.2%、GPT-5.5 的 58.6%、Gemini 3.1 Pro 的 54.2%
GPQA-D（科學推理）：95.5 分
LiveCodeBench v6（即時程式碼能力）：93.2 分
TerminalBench 2.1（終端機操作能力）：82.1 分

Sakana 官方宣稱 Fugu Ultra 與 Anthropic 的 Fable 5 和 Mythos Preview「並駕齊驅」，但有一個重要前提：由於美國出口管制，Fable 5 和 Mythos 目前無法公開使用，也因此無法被納入 Fugu 的模型池中。Sakana 將此定位為 Fugu 的核心賣點之一，當任何單一供應商限制存取時，Fugu 可以自動繞過，改用其他模型繼續運作。

需強調的是，以上所有 benchmark 數據均為 Sakana 自行公布，尚未經第三方獨立實驗室驗證。Reddit 上 r/ClaudeAI 社群的分析也提醒讀者，在獨立評測出爐前，應將這些數字視為「廠商自述」的行銷話術。

社群實測：省時省錢，但品質不一定贏

Benchmark 畢竟是實驗室數據，真正的開發者更關心的是實際使用體驗。在 X/Twitter 平台上的開發者們也進行了有趣的實測比較：

實測一：Crossy Road 遊戲開發

使用者 @markksantos 給了相同的提示詞「用 Three.js 建一個高品質的 Crossy Road 遊戲」，分別用 Fugu Ultra 和 Claude Opus 4.8 測試：

Fugu Ultra：使用約 8.9 萬 token，花費 $7.32（約 NT$238），耗時 22 分鐘。問題：方向操控反轉、鏡頭不穩、無音效
Claude Opus 4.8：使用約 94 萬 token，花費 $37.85（約 NT$1,230），耗時 79 分鐘。問題：兩次陷入重試迴圈、角色位置錯誤

SAKANA FUGU ULTRA vs. CLAUDE OPUS 4.8 RESULTS

Prompt: “build a really high quality single html file crossy road game with three.js”

Sakana Fugu Ultra:
– Tokens Used: ~89k ($7.32)
– Time Elapsed: 22 minutes
– Issues: inverted directional turn, wonky camera, no sfx, not… pic.twitter.com/2riS4pEds4

— Mark Santos (@markksantos) June 22, 2026

結論：Opus 在成品品質和設計上勝出，但 Fugu 在速度和成本上大幅領先。Token 用量差距超過 10 倍，時間差距近 4 倍。

實測二：即時交易平台開發

使用者 @atomic_chat_hq 用相同提示詞要求四個模型建立一個完整的即時交易面板（含前後端、8 檔標的即時行情、深色主題 UI）：

Fugu Ultra：22,225 token，$0.51（約 NT$17），介面最精緻、功能最完整
Claude Opus 4.8：15,802 token，$0.31（約 NT$10）
GPT-5.5：11,474 token，$0.26（約 NT$8）
GLM 5.2：13,677 token，$0.03（約 NT$1），品質與 Fugu 非常接近

Sakana Fugu surprisingly performed near GLM 5.2 level but 17× more expensive!

We gave the same prompt to 4 models: build a complete live Trader Desk with both frontend and backend components, real-time market data fetched from external APIs for 8 symbols, and a custom dark-theme… https://t.co/CpFJT7ofy9 pic.twitter.com/SIfLwi8KYa

— atomic.chat (@atomic_chat_hq) June 22, 2026

Fugu 在這個測試中產出了最精緻的成品，但 GLM 5.2 以不到其 1/17 的價格達成了幾乎相同的水準。

Sakana Fugu 定位與局限：適合誰、不適合誰

從上述資料可以歸納出 Fugu 的適用場景與限制：

適合的場景：

複雜、多步驟的程式碼開發與審查任務，需要規劃、執行、驗證的完整流程
需要跨模型集體智慧來提升準確度的推理任務
不希望被單一模型供應商鎖定，需要彈性的模型池策略
預算充足、追求最佳品質的專業開發團隊

可能不適合的場景：

簡單的對話或輕量任務，調度開銷反而成為浪費
對成本極度敏感的使用者，中國模型如 GLM 5.2 在部分任務的性價比遠超 Fugu
需要完全透明的推理過程的合規場景，Fugu 的內部調度邏輯不對外開放
需要最低延遲的即時應用

簡單說 Fugu 有以下三個潛在風險：第一，簡單任務的調度開銷純屬浪費；第二，如果多個頂級供應商同時限制存取，模型池會縮小、品質也會下降，「路由」不等於「主權」；第三，隱藏的編排層讓使用者無法得知哪些 Agent 參與了決策、它們各自看到了什麼資料，對需要稽核的工作是個問題。

結語

Sakana Fugu 代表的是 AI 產業中一個與「暴力擴展」截然不同的路線。當多數公司還在投入數十億美元訓練更大的單一模型時，Sakana 選擇讓一個相對小的模型學會如何調度其他強者。這個策略在 Anthropic 的 Fable 5 和 Mythos 因出口管制無法使用的當下，確實有其吸引力。

但實測也顯示，Fugu 的「省」是有條件的。在簡單任務上，中國模型 GLM 5.2 以 1/17 的價格達到相近品質；在複雜任務上，Claude Opus 4.8 的成品品質仍然更勝一籌。Fugu 的價值在於提供一個「不輸太多、但更安全」的選項，特別是對於不想被單一供應商綁定的企業使用者。

Tags: ai Sakana AI Sakana Fugu

三個臭皮匠勝過一個諸葛亮？日本 Sakana Fugu 調度 Claude、GPT、Gemini 協作，號稱超越 Fable 5

您也許會喜歡：

網站搜尋

廣告