近日由「Attention Is All You Need」共同作者 Llion Jones 創辦的東京 AI 新創公司 Sakana AI 發表了號稱能和 Claude Fable 5 和 Mythos Preview 能力相當的 Sakana Fugu。簡單來說 Sakana Fugu 並不是一個新的基礎模型,而是一個「學會了如何調度其他模型」的「多模型調度系統」方案。在使用者提問時,背後的 Fugu 系統會自動決定要直接回答、還是組隊呼叫 Claude、GPT、Gemini 等多個頂級模型協作完成任務。Sakana Fugu 本身是一個經過訓練的語言模型,專門學習何時該委派任務、如何讓不同模型互相驗證、以及怎樣把多個模型的輸出整合成一個更可靠的答案。使用者感受到的介面與一般聊天 API 完全相同,但背後是一個由多個專家模型組成的協作團隊。
為什麼需要一個「模型調度器」?
Sakana AI 的核心論點是:單一模型再強,都有盲點。GPT 擅長結構化推理,Claude 在長上下文和細膩語言處理上有優勢,Gemini 在某些知識檢索任務表現突出。既然每個模型各有擅場,真正的最強表現應該來自「集體智慧」,也就是知道在什麼時候用哪個模型、如何分工、以及如何整合各自的優勢。
過去要做到這一點,開發者得自己搭建多模型調度框架:管理多組 API 金鑰、設計路由邏輯、寫驗證流程、處理失敗重試。Fugu 把這些複雜度全部封裝在一個 API 背後。使用者呼叫一個端點,Fugu 內部自動處理模型選擇、任務委派、結果驗證和最終合成。
這套方法的學術基礎來自 Sakana AI 在 ICLR 2026 發表的兩篇論文:TRINITY(進化型 LLM 協調器)和 Conductor(用強化學習讓模型學會在自然語言中協調多個 Agent)。TRINITY 讓系統自動為不同模型分配 Thinker(思考)、Worker(執行)、Verifier(驗證)三種角色;Conductor 則透過強化學習,讓模型自己發現最有效率的 Agent 溝通模式。[3]
Fugu vs Fugu Ultra:兩個版本怎麼選
Sakana Fugu 提供兩個版本,共用同一個 API 端點:
- Fugu:適合日常使用,兼顧效能與低延遲。適用於聊天機器人、程式碼審查、互動式服務等場景。計費方式為動態費率,根據背後使用的最高階模型收費,不會疊加多個模型的費用。
- Fugu Ultra:為複雜、多步驟任務優化,協調更深層的模型池來處理高難度問題。適用於深度程式碼開發、科學推理、多步驟分析等場景。採固定費率計費。
兩者都支援讓使用者選擇排除特定供應商或模型,以滿足資料隱私、合規或組織政策需求。
定價:比你想的更有彈性,但也不便宜
Fugu Ultra 的 API 定價如下(以每百萬 token 計算):
- 輸入:$5(約 NT$163)
- 輸出:$30(約 NT$975)
- 快取輸入:$0.50(約 NT$16)
- 上下文超過 272K token 時:輸入 $10(約 NT$325)、輸出 $45(約 NT$1,463)
- 上下文窗口:100 萬 token
- 最大輸出:12.8 萬 token
一個關鍵細節:Fugu Ultra 的計費包含「編排 token」(orchestration tokens),也就是內部模型之間互相溝通所消耗的 token。這些 token 的費率與標準輸入輸出相同,但不會出現在你最終收到的回應中。換句話說,你看不到的內部協作也在計費。
Sakana 同時提供訂閱制方案,適合個人使用者:
- Standard:$20/月(約 NT$650),基本額度
- Pro:$100/月(約 NT$3,250),10 倍用量
- Max:$200/月(約 NT$6,500),20 倍用量
官方限時優惠:在 2026 年 7 月 31 日前訂閱,第二個月免費。Fugu Ultra 也可透過 OpenRouter 使用,費率相同。
Benchmark 表現:官方數字亮眼,但尚未經第三方驗證
根據 Sakana 官方公布的數據,Fugu Ultra 在多項基準測試中表現優異:
- SWE-Bench Pro(軟體工程能力):Fugu Ultra 73.7%,領先 Claude Opus 4.8 的 69.2%、GPT-5.5 的 58.6%、Gemini 3.1 Pro 的 54.2%
- GPQA-D(科學推理):95.5 分
- LiveCodeBench v6(即時程式碼能力):93.2 分
- TerminalBench 2.1(終端機操作能力):82.1 分
Sakana 官方宣稱 Fugu Ultra 與 Anthropic 的 Fable 5 和 Mythos Preview「並駕齊驅」,但有一個重要前提:由於美國出口管制,Fable 5 和 Mythos 目前無法公開使用,也因此無法被納入 Fugu 的模型池中。Sakana 將此定位為 Fugu 的核心賣點之一,當任何單一供應商限制存取時,Fugu 可以自動繞過,改用其他模型繼續運作。
需強調的是,以上所有 benchmark 數據均為 Sakana 自行公布,尚未經第三方獨立實驗室驗證。Reddit 上 r/ClaudeAI 社群的分析也提醒讀者,在獨立評測出爐前,應將這些數字視為「廠商自述」的行銷話術。
社群實測:省時省錢,但品質不一定贏
Benchmark 畢竟是實驗室數據,真正的開發者更關心的是實際使用體驗。在 X/Twitter 平台上的開發者們也進行了有趣的實測比較:
實測一:Crossy Road 遊戲開發
使用者 @markksantos 給了相同的提示詞「用 Three.js 建一個高品質的 Crossy Road 遊戲」,分別用 Fugu Ultra 和 Claude Opus 4.8 測試:
- Fugu Ultra:使用約 8.9 萬 token,花費 $7.32(約 NT$238),耗時 22 分鐘。問題:方向操控反轉、鏡頭不穩、無音效
- Claude Opus 4.8:使用約 94 萬 token,花費 $37.85(約 NT$1,230),耗時 79 分鐘。問題:兩次陷入重試迴圈、角色位置錯誤
SAKANA FUGU ULTRA vs. CLAUDE OPUS 4.8 RESULTS
Prompt: “build a really high quality single html file crossy road game with three.js”
Sakana Fugu Ultra:
– Tokens Used: ~89k ($7.32)
– Time Elapsed: 22 minutes
– Issues: inverted directional turn, wonky camera, no sfx, not… pic.twitter.com/2riS4pEds4— Mark Santos (@markksantos) June 22, 2026
結論:Opus 在成品品質和設計上勝出,但 Fugu 在速度和成本上大幅領先。Token 用量差距超過 10 倍,時間差距近 4 倍。
實測二:即時交易平台開發
使用者 @atomic_chat_hq 用相同提示詞要求四個模型建立一個完整的即時交易面板(含前後端、8 檔標的即時行情、深色主題 UI):
- Fugu Ultra:22,225 token,$0.51(約 NT$17),介面最精緻、功能最完整
- Claude Opus 4.8:15,802 token,$0.31(約 NT$10)
- GPT-5.5:11,474 token,$0.26(約 NT$8)
- GLM 5.2:13,677 token,$0.03(約 NT$1),品質與 Fugu 非常接近
Sakana Fugu surprisingly performed near GLM 5.2 level but 17× more expensive!
We gave the same prompt to 4 models: build a complete live Trader Desk with both frontend and backend components, real-time market data fetched from external APIs for 8 symbols, and a custom dark-theme… https://t.co/CpFJT7ofy9 pic.twitter.com/SIfLwi8KYa
— atomic.chat (@atomic_chat_hq) June 22, 2026
Fugu 在這個測試中產出了最精緻的成品,但 GLM 5.2 以不到其 1/17 的價格達成了幾乎相同的水準。
Sakana Fugu 定位與局限:適合誰、不適合誰
從上述資料可以歸納出 Fugu 的適用場景與限制:
適合的場景:
- 複雜、多步驟的程式碼開發與審查任務,需要規劃、執行、驗證的完整流程
- 需要跨模型集體智慧來提升準確度的推理任務
- 不希望被單一模型供應商鎖定,需要彈性的模型池策略
- 預算充足、追求最佳品質的專業開發團隊
可能不適合的場景:
- 簡單的對話或輕量任務,調度開銷反而成為浪費
- 對成本極度敏感的使用者,中國模型如 GLM 5.2 在部分任務的性價比遠超 Fugu
- 需要完全透明的推理過程的合規場景,Fugu 的內部調度邏輯不對外開放
- 需要最低延遲的即時應用
簡單說 Fugu 有以下三個潛在風險:第一,簡單任務的調度開銷純屬浪費;第二,如果多個頂級供應商同時限制存取,模型池會縮小、品質也會下降,「路由」不等於「主權」;第三,隱藏的編排層讓使用者無法得知哪些 Agent 參與了決策、它們各自看到了什麼資料,對需要稽核的工作是個問題。
結語
Sakana Fugu 代表的是 AI 產業中一個與「暴力擴展」截然不同的路線。當多數公司還在投入數十億美元訓練更大的單一模型時,Sakana 選擇讓一個相對小的模型學會如何調度其他強者。這個策略在 Anthropic 的 Fable 5 和 Mythos 因出口管制無法使用的當下,確實有其吸引力。
但實測也顯示,Fugu 的「省」是有條件的。在簡單任務上,中國模型 GLM 5.2 以 1/17 的價格達到相近品質;在複雜任務上,Claude Opus 4.8 的成品品質仍然更勝一籌。Fugu 的價值在於提供一個「不輸太多、但更安全」的選項,特別是對於不想被單一供應商綁定的企業使用者。




