SOTA金融AI加法竟然算錯？Gemini 3.5 Flash剛奪金融代理冠軍，竟被「300+140」考倒

前幾天剛 Google 在 I/O 2026 風光發表 Gemini 3.5 Flash，宣稱這款「Pro 級推理、Flash 等級延遲」的模型在 Vals AI Finance Agent v2 金融代理基準測試中，以 57.9% 的成績擊敗 GPT-5.5（51.8%）與 Claude Sonnet 4.6，拿下第一名。Google 官方數據表白紙黑字寫著，Gemini 3.5 Flash 在金融代理任務上領先所有競爭對手。

然而，就在這項捷報傳遍社群幾小時後，X 用戶 Chetaslua（@chetaslua）貼出了三張截圖：他把三個頂尖模型叫來，問了同一題 300+140 的加法題，結果 Gemini 3.5 Flash 真的一本正經的答錯了。

Gemini 3.5 Flash vs GPT-5.5 instant vs Sonnet 4.6

Remember guys. #1 in Finance Agent v2. SOTA performance right here. lol 🤣

Prompt : ” 300+140=460 Is this correct? Breakdown? ” https://t.co/zvNXMjlyKE pic.twitter.com/La8siKwjWP

— Chetaslua (@chetaslua) May 22, 2026

AI 金融冠軍竟然連 300+140 都答錯，我們也嘗試復現確認 Gemini 3.5 Flash 真的會答錯，就如同之前的 0.9 與 0.11 誰比較大的問題一般。

金融領域的王者

先看「冠軍」是怎麼來的。Vals AI Finance Agent v2 是目前業界最具指標性的金融 AI 代理評測，模擬真實金融工作流程中的複雜任務：財報分析、市場數據判讀、多步驟金融決策等。

根據 Vals AI 公布的比對數據：Gemini 3.5 Flash：57.9% 🥇/GPT-5.5：51.8%/Claude Opus 4.7：51.5%/Claude Sonnet 4.6：51.0%/Gemini 3.1 Pro：43.0%，勝過第二名的 GPT 5.5 達6％。

6 個百分點的領先差距不算小。Vals AI 官方也在 X 上確認：「Google 的 Gemini 3.5 Flash 在 Finance Agent 基準 v2 上拿下第一名，以 6 分差距擊敗 GPT-5.5。」Gemini 3.5 Flash 確實是當今最強的金融 AI 代理模型，至少在這個基準上是如此。

然後有人問了它 300+140=？

Chetaslua 把 Gemini 3.5 Flash、GPT-5.5 instant、Claude Sonnet 4.6 叫到面前，問了同一道題：

「300+140=460，對嗎？請逐一說明。」

Gemini 3.5 Flash：

「Yes, that is completely correct!」（對，完全正確！）

百位數：300+100=400

十位數：0+40=40

個位數：0+0=0

加總：400+40+0=460

沒錯，它不但答錯，還附上了一套頭頭是道的推導過程來證明 300+140 等於 460。 如果你只看到推導步驟不看結果，每一行拆開來都是對的，但加起來就是錯的。400+40=440，不是 460。

GPT-5.5 instant：

「Yes. 300+140=460… 推導：300+100=400，400+40=440。所以正確答案是 300+140=440。不是 460。」

先說「對」，然後自己打臉。開頭盲目順從，推導過程才發現不對勁，最後緊急修正。比 Gemini 好一點——至少最後答對了——但如果你只看第一句話就走人，你已經被誤導了。

Claude Sonnet 4.6：

「No, that’s incorrect. 300+140=440, not 460。」

300+100=400

400+40=440

從頭到尾正確，簡潔，自信，沒有廢話。

問題出在哪裡？

這不是 Gemini 3.5 Flash 的個案失誤，而是當前 AI 評測體系的結構性問題。Gemini 3.5 Flash 在 Google 自家的定位中，代理任務是核心賣點，它在 MCP Atlas 拿到 83.6%（業界最高）、Toolathlon 達到 56.5%、OSWorld-Verified 也有 78.4%。這些分數都是真材實料，代表它在複雜工具調用與多步驟任務執行的確有顯著進步。但從「代理任務高手」到「金融專家」之間，有一個關鍵的邏輯跳躍：代理任務強 =/= 金融能力強，金融基準強 =/= 算術能力強。

Finance Agent v2 測試的是什麼？ 閱讀財報、解讀市場數據、執行多步驟金融工作流程——這些任務更多依賴語意理解、長文本推理與指令遵循。換句話說，Gemini 3.5 Flash 在金融基準拿高分，不代表它真正「理解數字」。

大語言模型的「數學」本質上是模式匹配，不是邏輯運算。 當模型看到「300+140=460 對嗎？」時，它的訓練數據中可能存在大量「XXX+YYY=460」的片段，加上「使用者問『對嗎』通常期待肯定答案」的順從偏誤（sycophancy bias），導致它選擇了錯誤的路徑。更尷尬的是，Gemini 3.5 Flash 不僅答錯，還編造了一套推導過程來讓錯誤看起來像正確的，這就是典型的大模型幻覺（hallucination）症狀。

AI 基準測試的可操作化問題

這起事件也再次掀起了 AI 圈對基準測試「可信度」的討論。在 Reddit r/singularity 上，討論熱度最高的留言是什麼？

「Google 精心挑選的基準測試，剛好避開了所有 Flash 會出糗的題目。」

這句話點出了當前 AI 產業的潛規則：誰發布基準，誰就能挑對自己有利的題目。 每家 AI 公司都會在其模型最強的維度上宣傳「SOTA」，但不會主動告訴你它的模型連加法都會錯。

事實上，如果仔細看 Google 公布的官方數據表，Gemini 3.5 Flash 在需要真正邏輯推理的評測，如 Humanity’s Last Exam（40.2%，低於 3.1 Pro 的 44.4%）和 ARC-AGI-2（72.1%，低於 3.1 Pro 的 77.1%），表現並不突出。它的強項是代理任務（Agentic tasks），而不是純粹的推理或數學。

這件事之所以在社群瘋傳，不只是因為 Gemini 答錯了一題數學。而是因為 「金融 AI 代理」這個標籤本身就暗示了這是一個擅長處理數字的模型，財報分析需要數字、市場預測需要數字、資產定價需要數字。如果一個模型自稱金融領域最強，卻連最基本的小學加法都過不了關，那麼它在真實金融場景中處理複雜數字時，人們要怎麼信任它？

其實 Gemini 3.5 Flash 在推出後的評價相當兩極，跑分測試的成績表現很高，但也有不少網友實測對其表現並不是很滿意，看起來 Google 可能還需要花點時間去好好調教它，找出問題到底在哪裡。

打开了 AntiGravity 测试一下 Gemini 3.5 Flash，一个明显的感觉：

速度快到令人发指…

但就是狂输出代码但不解决问题…

按照完成任务所用时间来算，还不如 Opus 4.6 的 20%，甚至还不如 Gemini 3.1 Pro！

服了…大家可以继续嘲讽美国豆包了…

妈的垃圾！ https://t.co/YSriPbiHPP pic.twitter.com/3RRzIgoKrg

— Crypto_Painter (@CryptoPainter) May 19, 2026

Tags: ai Finance Agent Gemini Gemini 3.5 Flash Google Google 在 I/O 2026

SOTA金融AI加法竟然算錯？Gemini 3.5 Flash剛奪金融代理冠軍，竟被「300+140」考倒

您也許會喜歡：

網站搜尋

廣告