電腦王阿達
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 通訊達人
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 阿達自製工具
    • 非記不可:絕不會錯過重要事件
    • LINE貼圖裁切去背神器
    • Nano Banana Pro 去浮水印工具
    • 最愛提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 通訊達人
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 阿達自製工具
    • 非記不可:絕不會錯過重要事件
    • LINE貼圖裁切去背神器
    • Nano Banana Pro 去浮水印工具
    • 最愛提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
電腦王阿達
No Result
View All Result

首頁 » AI 新聞與教學

Tags: aiGemini 3Gemini 3 Deep ThinkGoogle

Google 重磅推出 Gemini 3 Deep Think:多項基準測試創紀錄,大幅領先競爭對手

達小編 by 達小編
2026 年 02 月 13 日
in AI 新聞與教學, 最新科技新聞
讀取中...

當人們還在驚嘆 Claude Opus 4.6 與 OpenAI GPT-5.3-Codex 的超強能力時,今日稍早 Google 突然正式發布 Gemini 3 Deep Think 的重大升級版本,這次更新專為科學研究與工程領域的複雜推理任務而設計,在多項權威基準測試中創下驚人成績,能力更是超越 Claude 與 OpenAI同等級模型,迅速在全球科技界引發熱烈討論。
Google 重磅推出 Gemini 3 Deep Think:多項基準測試創紀錄,大幅領先競爭對手 - 電腦王阿達

Gemini 3 Deep Think 多項基準測試創紀錄,大幅領先競爭對手

Gemini 3 Deep Think 此次升級最引人注目的,是其在多項高難度基準測試中的突破性表現。在號稱「人類最後考試」的 Humanity’s Last Exam(HLE)中,模型達到 48.4% 的分數,這是在無需外部工具輔助的情況下取得的目前最高成績。更具指標意義的是 ARC-AGI-2 測試,這項由 ARC Prize Foundation 驗證的基準被視為評估人工通用智慧(AGI)能力的重要指標。Gemini 3 Deep Think 獲得 84.6% 的高分,遠超人類平均約 60% 的表現。相較之下,Anthropic 的 Claude Opus 4.6 僅達 68.8%,OpenAI 的 GPT-5.2 則為 52.9%。

Google 重磅推出 Gemini 3 Deep Think:多項基準測試創紀錄,大幅領先競爭對手 - 電腦王阿達

在程式競賽領域,Gemini 3 Deep Think 於 Codeforces 平台獲得 3455 Elo 積分,達到「Legendary Grandmaster」等級,全球僅有 7 位人類程式選手排名更高。Claude Opus 4.6 的 Codeforces 成績為 2352 分,兩者差距高達約 47%。

在學術奧林匹亞競賽方面,模型在 IMO 2025(國際數學奧林匹亞)、IPhO 2025(國際物理奧林匹亞)及 IChO 2025(國際化學奧林匹亞)均達到金牌水準。CMT-Benchmark(高等理論物理測試)取得 50.5%。MMMU-Pro 方面獲得 81.5%,優於 Claude Opus 4.6 的約 75% 與 GPT-5.2 的約 78%。
Google 重磅推出 Gemini 3 Deep Think:多項基準測試創紀錄,大幅領先競爭對手 - 電腦王阿達

唯一稍顯遜色的領域是 SWE-Bench Verified(軟體工程基準測試),在程式修復任務上取得 76.2%,略低於 Claude Opus 4.6 的 80.8% 和 GPT-5.2 的 80.0%。

與競品模型的全面比較:差距到底有多大?

為了更清楚了解 Deep Think 的市場定位,以下整理了與主要競爭對手 Claude Opus 4.6 和 GPT-5.2 的完整對比數據:

ARC-AGI-2(抽象推理)
Deep Think:84.6% ✅ | Claude 4.6:68.8% | GPT-5.2:52.9%
→ Deep Think 領先 Claude 23%、領先 GPT 60%

Humanity’s Last Exam(專家難題)
Deep Think:48.4% ✅ | Claude 4.6:36.7% | GPT-5.2:35.4%
→ Deep Think 領先約 32%

Codeforces Elo(程式競賽)
Deep Think:3455 ✅ | Claude 4.6:2352
→ Deep Think 領先約 47%

MMMU-Pro(多模態理解)
Deep Think:81.5% ✅ | Claude 4.6:~75% | GPT-5.2:~78%

GPQA Diamond(研究級問答)
Deep Think:93.8% ✅ | Claude 4.6:~90% | GPT-5.2:92.4%

SWE-bench Verified(軟體工程)⚠️
Deep Think:76.2% | Claude 4.6:80.8% ✅ | GPT-5.2:80.0%
→ Claude 領先,Deep Think 唯一弱項

AIME 2025(純數學)
Deep Think:95%(搭配工具 100%)| Claude 4.6:~94% | GPT-5.2:100% ✅

Terminal-Bench 2.0(終端操作)
Gemini 3 Pro:54.2% | Claude 4.6:65.4% ✅ | GPT-5.2:64.7%

長上下文 @1M tokens
Gemini 3 Pro:26.3% | Claude 4.6:76% ✅

從上述數據可以看出,Deep Think 在抽象推理、專家級難題和程式競賽領域展現壓倒性優勢。然而在軟體工程、終端操作和長上下文處理方面,Claude 仍然保持明顯領先。

各模型領先領域總結:

  • Deep Think 領先:ARC-AGI-2(抽象推理)、HLE(專家難題)、Codeforces(程式競賽)、科學奧林匹亞、多模態理解
  • Claude 領先:SWE-bench(軟體工程)、Terminal-Bench(終端操作)、長上下文實際可用性、企業知識工作
  • GPT-5.2 領先:AIME(純數學)、價格效益

價格比較:

  • Claude Opus 4.6:$5/$25 per M tokens(最貴)
  • GPT-5.2 Thinking:$1.75/$14 per M tokens
  • Gemini 3 Pro:$2/$12 per M tokens(最便宜)
  • Google AI Ultra(含 Deep Think):$249.99/月(訂閱制)

實際應用案例:從數學審查到晶體生長優化

Google 在官方部落格中分享了多個實際應用案例,展現 Gemini 3 Deep Think 在真實科研場景中的價值。Rutgers University 數學家 Lisa Carbone 利用 Deep Think 審查數學論文,成功發現人類同行審查過程中遺漏的邏輯錯誤。

Duke University 的 Wang Lab 則運用這項技術優化晶體生長過程,成功設計出厚度超過 100 微米的薄膜配方。Google 內部研究人員 Anupam Pathak 也藉由 Deep Think 加速物理元件的設計流程。此外,模型還能將手繪草圖直接轉換為 3D 列印檔案,展現其多模態理解與工程應用能力。

Google AI Ultra 訂閱方案正式上線

伴隨 Deep Think 升級,Google 同步推出全新的 Google AI Ultra 訂閱方案,月費為 249.99 美元(約新台幣 7,800 元),首三個月提供半價優惠(125 美元/月)。這項高階訂閱方案包含 Deep Think 完整功能、30TB 雲端儲存空間、Project Mariner(AI 代理助手)、Flow(AI 影片創作工具)、Veo 3(AI 影片生成模型)等多項進階服務。目前該方案僅限美國地區用戶訂閱,API 介面則開放早期申請。

社群反應熱烈,「AGI 是否已經到來」成為熱議話題

此次升級在 X/Twitter 等社群平台引發廣泛討論。許多用戶對 Google 在推理領域取得的突破表示震驚,認為 Google 已暫時領先競爭對手。「這是否代表 AGI(人工通用智慧)已經到來?」成為科技社群最熱烈的討論話題之一。

Google 執行長 Sundar Pichai、資深研究員 Jeff Dean 以及 DeepMind 執行長 Demis Hassabis 都在 X 平台發文慶祝這一里程碑。

Gemini 3 Deep Think is getting a significant upgrade. We’ve refined Deep Think in close partnership with scientists and researchers to tackle tough, real-world challenges.

And it’s pushing the frontier across the most challenging benchmarks, achieving an unprecedented 84.6% on… pic.twitter.com/5503F4FKcD

— Sundar Pichai (@sundarpichai) February 12, 2026

觀點

這次 Deep Think 的升級確實令人驚艷,特別是在抽象推理和程式競賽領域,與競爭對手的差距之大前所未見。ARC-AGI-2 領先 GPT-5.2 高達 60%、Codeforces 領先 Claude 約 47%,這些數字不僅是統計上的差異,更代表著 Deep Think 在複雜推理鏈和多步驟問題解決能力上的質的飛躍。

然而也必須正視 Deep Think 的弱項:在軟體工程(SWE-bench)、終端操作(Terminal-Bench)和長上下文處理方面,Claude 仍保持明顯優勢。不同模型在訓練目標和架構設計上的差異,讓 AI 競賽進入專業化競爭的新階段:不再是單一模型稱霸所有領域,而是各擅勝場。

從價格角度看,Gemini 3 Pro 的 $2/$12 定價極具侵略性,對需要大量 API 呼叫的開發者和研究機構來說,Google 的解決方案在性價比上具有強大吸引力。對於科學研究、演算法競賽和多模態推理需求,Deep Think 無疑是當前最佳選擇;但對於軟體工程、企業知識管理和長文件處理,Claude 仍是更穩健的選擇。

資料來源

Tags: aiGemini 3Gemini 3 Deep ThinkGoogle

您也許會喜歡:

立達合法徵信社-讓您安心的選擇

網站搜尋

No Result
View All Result

廣告


歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 通訊達人
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
    • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 阿達自製工具
    • 超好用懶人包
    • Nano Banana Pro 去浮水印工具
    • 自製LINE 貼圖裁切去背神器
    • 阿達的提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 通訊達人
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
    • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 阿達自製工具
    • 超好用懶人包
    • Nano Banana Pro 去浮水印工具
    • 自製LINE 貼圖裁切去背神器
    • 阿達的提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技