電腦王阿達
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 通訊達人
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 阿達自製工具
    • 非記不可:絕不會錯過重要事件
    • LINE貼圖裁切去背神器
    • Nano Banana Pro 去浮水印工具
    • 最愛提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 通訊達人
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 阿達自製工具
    • 非記不可:絕不會錯過重要事件
    • LINE貼圖裁切去背神器
    • Nano Banana Pro 去浮水印工具
    • 最愛提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
電腦王阿達
No Result
View All Result

首頁 » AI 新聞與教學 » AI 工具分享與教學

Tags: aiFinance AgentGeminiGemini 3.5 FlashGoogleGoogle 在 I/O 2026

SOTA金融AI加法竟然算錯?Gemini 3.5 Flash剛奪金融代理冠軍,竟被「300+140」考倒

達小編 by 達小編
2026 年 05 月 22 日
in AI 工具分享與教學, 最新科技新聞
讀取中...

前幾天剛 Google 在 I/O 2026 風光發表 Gemini 3.5 Flash,宣稱這款「Pro 級推理、Flash 等級延遲」的模型在 Vals AI Finance Agent v2 金融代理基準測試中,以 57.9% 的成績擊敗 GPT-5.5(51.8%)與 Claude Sonnet 4.6,拿下第一名。Google 官方數據表白紙黑字寫著,Gemini 3.5 Flash 在金融代理任務上領先所有競爭對手。
SOTA金融AI加法竟然算錯?Gemini 3.5 Flash剛奪金融代理冠軍,竟被「300+140」考倒 - 電腦王阿達

然而,就在這項捷報傳遍社群幾小時後,X 用戶 Chetaslua(@chetaslua)貼出了三張截圖:他把三個頂尖模型叫來,問了同一題 300+140 的加法題,結果 Gemini 3.5 Flash 真的一本正經的答錯了。

Gemini 3.5 Flash vs GPT-5.5 instant vs Sonnet 4.6

Remember guys. #1 in Finance Agent v2. SOTA performance right here. lol 🤣

Prompt : ” 300+140=460 Is this correct? Breakdown? ” https://t.co/zvNXMjlyKE pic.twitter.com/La8siKwjWP

— Chetaslua (@chetaslua) May 22, 2026

AI 金融冠軍竟然連 300+140 都答錯,我們也嘗試復現確認 Gemini 3.5 Flash 真的會答錯,就如同之前的 0.9 與 0.11 誰比較大的問題一般。
SOTA金融AI加法竟然算錯?Gemini 3.5 Flash剛奪金融代理冠軍,竟被「300+140」考倒 - 電腦王阿達

金融領域的王者

先看「冠軍」是怎麼來的。Vals AI Finance Agent v2 是目前業界最具指標性的金融 AI 代理評測,模擬真實金融工作流程中的複雜任務:財報分析、市場數據判讀、多步驟金融決策等。

根據 Vals AI 公布的比對數據:Gemini 3.5 Flash:57.9% 🥇/GPT-5.5:51.8%/Claude Opus 4.7:51.5%/Claude Sonnet 4.6:51.0%/Gemini 3.1 Pro:43.0%,勝過第二名的 GPT 5.5 達6%。
SOTA金融AI加法竟然算錯?Gemini 3.5 Flash剛奪金融代理冠軍,竟被「300+140」考倒 - 電腦王阿達

6 個百分點的領先差距不算小。Vals AI 官方也在 X 上確認:「Google 的 Gemini 3.5 Flash 在 Finance Agent 基準 v2 上拿下第一名,以 6 分差距擊敗 GPT-5.5。」Gemini 3.5 Flash 確實是當今最強的金融 AI 代理模型,至少在這個基準上是如此。

然後有人問了它 300+140=?

Chetaslua 把 Gemini 3.5 Flash、GPT-5.5 instant、Claude Sonnet 4.6 叫到面前,問了同一道題:

「300+140=460,對嗎?請逐一說明。」

Gemini 3.5 Flash:

「Yes, that is completely correct!」(對,完全正確!)

百位數:300+100=400

十位數:0+40=40

個位數:0+0=0

加總:400+40+0=460

SOTA金融AI加法竟然算錯?Gemini 3.5 Flash剛奪金融代理冠軍,竟被「300+140」考倒 - 電腦王阿達

沒錯,它不但答錯,還附上了一套頭頭是道的推導過程來證明 300+140 等於 460。 如果你只看到推導步驟不看結果,每一行拆開來都是對的,但加起來就是錯的。400+40=440,不是 460。
SOTA金融AI加法竟然算錯?Gemini 3.5 Flash剛奪金融代理冠軍,竟被「300+140」考倒 - 電腦王阿達

GPT-5.5 instant:

「Yes. 300+140=460… 推導:300+100=400,400+40=440。所以正確答案是 300+140=440。不是 460。」

SOTA金融AI加法竟然算錯?Gemini 3.5 Flash剛奪金融代理冠軍,竟被「300+140」考倒 - 電腦王阿達

先說「對」,然後自己打臉。開頭盲目順從,推導過程才發現不對勁,最後緊急修正。比 Gemini 好一點——至少最後答對了——但如果你只看第一句話就走人,你已經被誤導了。

Claude Sonnet 4.6:

「No, that’s incorrect. 300+140=440, not 460。」

300+100=400

400+40=440

SOTA金融AI加法竟然算錯?Gemini 3.5 Flash剛奪金融代理冠軍,竟被「300+140」考倒 - 電腦王阿達

從頭到尾正確,簡潔,自信,沒有廢話。

問題出在哪裡?

這不是 Gemini 3.5 Flash 的個案失誤,而是當前 AI 評測體系的結構性問題。Gemini 3.5 Flash 在 Google 自家的定位中,代理任務是核心賣點,它在 MCP Atlas 拿到 83.6%(業界最高)、Toolathlon 達到 56.5%、OSWorld-Verified 也有 78.4%。這些分數都是真材實料,代表它在複雜工具調用與多步驟任務執行的確有顯著進步。但從「代理任務高手」到「金融專家」之間,有一個關鍵的邏輯跳躍:代理任務強 =/= 金融能力強,金融基準強 =/= 算術能力強。
SOTA金融AI加法竟然算錯?Gemini 3.5 Flash剛奪金融代理冠軍,竟被「300+140」考倒 - 電腦王阿達

Finance Agent v2 測試的是什麼? 閱讀財報、解讀市場數據、執行多步驟金融工作流程——這些任務更多依賴語意理解、長文本推理與指令遵循。換句話說,Gemini 3.5 Flash 在金融基準拿高分,不代表它真正「理解數字」。

大語言模型的「數學」本質上是模式匹配,不是邏輯運算。 當模型看到「300+140=460 對嗎?」時,它的訓練數據中可能存在大量「XXX+YYY=460」的片段,加上「使用者問『對嗎』通常期待肯定答案」的順從偏誤(sycophancy bias),導致它選擇了錯誤的路徑。更尷尬的是,Gemini 3.5 Flash 不僅答錯,還編造了一套推導過程來讓錯誤看起來像正確的,這就是典型的大模型幻覺(hallucination)症狀。

AI 基準測試的可操作化問題

這起事件也再次掀起了 AI 圈對基準測試「可信度」的討論。在 Reddit r/singularity 上,討論熱度最高的留言是什麼?

「Google 精心挑選的基準測試,剛好避開了所有 Flash 會出糗的題目。」

這句話點出了當前 AI 產業的潛規則:誰發布基準,誰就能挑對自己有利的題目。 每家 AI 公司都會在其模型最強的維度上宣傳「SOTA」,但不會主動告訴你它的模型連加法都會錯。

事實上,如果仔細看 Google 公布的官方數據表,Gemini 3.5 Flash 在需要真正邏輯推理的評測,如 Humanity’s Last Exam(40.2%,低於 3.1 Pro 的 44.4%)和 ARC-AGI-2(72.1%,低於 3.1 Pro 的 77.1%),表現並不突出。它的強項是代理任務(Agentic tasks),而不是純粹的推理或數學。

這件事之所以在社群瘋傳,不只是因為 Gemini 答錯了一題數學。而是因為 「金融 AI 代理」這個標籤本身就暗示了這是一個擅長處理數字的模型,財報分析需要數字、市場預測需要數字、資產定價需要數字。如果一個模型自稱金融領域最強,卻連最基本的小學加法都過不了關,那麼它在真實金融場景中處理複雜數字時,人們要怎麼信任它?

其實 Gemini 3.5 Flash 在推出後的評價相當兩極,跑分測試的成績表現很高,但也有不少網友實測對其表現並不是很滿意,看起來 Google 可能還需要花點時間去好好調教它,找出問題到底在哪裡。

打开了 AntiGravity 测试一下 Gemini 3.5 Flash,一个明显的感觉:

速度快到令人发指…

但就是狂输出代码但不解决问题…

按照完成任务所用时间来算,还不如 Opus 4.6 的 20%,甚至还不如 Gemini 3.1 Pro!

服了…大家可以继续嘲讽美国豆包了…

妈的垃圾! https://t.co/YSriPbiHPP pic.twitter.com/3RRzIgoKrg

— Crypto_Painter (@CryptoPainter) May 19, 2026

Tags: aiFinance AgentGeminiGemini 3.5 FlashGoogleGoogle 在 I/O 2026

您也許會喜歡:

立達合法徵信社-讓您安心的選擇

網站搜尋

No Result
View All Result

廣告


歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 通訊達人
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
    • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 阿達自製工具
    • 超好用懶人包
    • Nano Banana Pro 去浮水印工具
    • 自製LINE 貼圖裁切去背神器
    • 阿達的提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 通訊達人
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
    • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 阿達自製工具
    • 超好用懶人包
    • Nano Banana Pro 去浮水印工具
    • 自製LINE 貼圖裁切去背神器
    • 阿達的提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技