當人們還在驚嘆 Claude Opus 4.6 與 OpenAI GPT-5.3-Codex 的超強能力時,今日稍早 Google 突然正式發布 Gemini 3 Deep Think 的重大升級版本,這次更新專為科學研究與工程領域的複雜推理任務而設計,在多項權威基準測試中創下驚人成績,能力更是超越 Claude 與 OpenAI同等級模型,迅速在全球科技界引發熱烈討論。

Gemini 3 Deep Think 多項基準測試創紀錄,大幅領先競爭對手
Gemini 3 Deep Think 此次升級最引人注目的,是其在多項高難度基準測試中的突破性表現。在號稱「人類最後考試」的 Humanity’s Last Exam(HLE)中,模型達到 48.4% 的分數,這是在無需外部工具輔助的情況下取得的目前最高成績。更具指標意義的是 ARC-AGI-2 測試,這項由 ARC Prize Foundation 驗證的基準被視為評估人工通用智慧(AGI)能力的重要指標。Gemini 3 Deep Think 獲得 84.6% 的高分,遠超人類平均約 60% 的表現。相較之下,Anthropic 的 Claude Opus 4.6 僅達 68.8%,OpenAI 的 GPT-5.2 則為 52.9%。
在程式競賽領域,Gemini 3 Deep Think 於 Codeforces 平台獲得 3455 Elo 積分,達到「Legendary Grandmaster」等級,全球僅有 7 位人類程式選手排名更高。Claude Opus 4.6 的 Codeforces 成績為 2352 分,兩者差距高達約 47%。
在學術奧林匹亞競賽方面,模型在 IMO 2025(國際數學奧林匹亞)、IPhO 2025(國際物理奧林匹亞)及 IChO 2025(國際化學奧林匹亞)均達到金牌水準。CMT-Benchmark(高等理論物理測試)取得 50.5%。MMMU-Pro 方面獲得 81.5%,優於 Claude Opus 4.6 的約 75% 與 GPT-5.2 的約 78%。
唯一稍顯遜色的領域是 SWE-Bench Verified(軟體工程基準測試),在程式修復任務上取得 76.2%,略低於 Claude Opus 4.6 的 80.8% 和 GPT-5.2 的 80.0%。
與競品模型的全面比較:差距到底有多大?
為了更清楚了解 Deep Think 的市場定位,以下整理了與主要競爭對手 Claude Opus 4.6 和 GPT-5.2 的完整對比數據:
ARC-AGI-2(抽象推理)
Deep Think:84.6% ✅ | Claude 4.6:68.8% | GPT-5.2:52.9%
→ Deep Think 領先 Claude 23%、領先 GPT 60%
Humanity’s Last Exam(專家難題)
Deep Think:48.4% ✅ | Claude 4.6:36.7% | GPT-5.2:35.4%
→ Deep Think 領先約 32%
Codeforces Elo(程式競賽)
Deep Think:3455 ✅ | Claude 4.6:2352
→ Deep Think 領先約 47%
MMMU-Pro(多模態理解)
Deep Think:81.5% ✅ | Claude 4.6:~75% | GPT-5.2:~78%
GPQA Diamond(研究級問答)
Deep Think:93.8% ✅ | Claude 4.6:~90% | GPT-5.2:92.4%
SWE-bench Verified(軟體工程)⚠️
Deep Think:76.2% | Claude 4.6:80.8% ✅ | GPT-5.2:80.0%
→ Claude 領先,Deep Think 唯一弱項
AIME 2025(純數學)
Deep Think:95%(搭配工具 100%)| Claude 4.6:~94% | GPT-5.2:100% ✅
Terminal-Bench 2.0(終端操作)
Gemini 3 Pro:54.2% | Claude 4.6:65.4% ✅ | GPT-5.2:64.7%
長上下文 @1M tokens
Gemini 3 Pro:26.3% | Claude 4.6:76% ✅
從上述數據可以看出,Deep Think 在抽象推理、專家級難題和程式競賽領域展現壓倒性優勢。然而在軟體工程、終端操作和長上下文處理方面,Claude 仍然保持明顯領先。
各模型領先領域總結:
- Deep Think 領先:ARC-AGI-2(抽象推理)、HLE(專家難題)、Codeforces(程式競賽)、科學奧林匹亞、多模態理解
- Claude 領先:SWE-bench(軟體工程)、Terminal-Bench(終端操作)、長上下文實際可用性、企業知識工作
- GPT-5.2 領先:AIME(純數學)、價格效益
價格比較:
- Claude Opus 4.6:$5/$25 per M tokens(最貴)
- GPT-5.2 Thinking:$1.75/$14 per M tokens
- Gemini 3 Pro:$2/$12 per M tokens(最便宜)
- Google AI Ultra(含 Deep Think):$249.99/月(訂閱制)
實際應用案例:從數學審查到晶體生長優化
Google 在官方部落格中分享了多個實際應用案例,展現 Gemini 3 Deep Think 在真實科研場景中的價值。Rutgers University 數學家 Lisa Carbone 利用 Deep Think 審查數學論文,成功發現人類同行審查過程中遺漏的邏輯錯誤。
Duke University 的 Wang Lab 則運用這項技術優化晶體生長過程,成功設計出厚度超過 100 微米的薄膜配方。Google 內部研究人員 Anupam Pathak 也藉由 Deep Think 加速物理元件的設計流程。此外,模型還能將手繪草圖直接轉換為 3D 列印檔案,展現其多模態理解與工程應用能力。
Google AI Ultra 訂閱方案正式上線
伴隨 Deep Think 升級,Google 同步推出全新的 Google AI Ultra 訂閱方案,月費為 249.99 美元(約新台幣 7,800 元),首三個月提供半價優惠(125 美元/月)。這項高階訂閱方案包含 Deep Think 完整功能、30TB 雲端儲存空間、Project Mariner(AI 代理助手)、Flow(AI 影片創作工具)、Veo 3(AI 影片生成模型)等多項進階服務。目前該方案僅限美國地區用戶訂閱,API 介面則開放早期申請。
社群反應熱烈,「AGI 是否已經到來」成為熱議話題
此次升級在 X/Twitter 等社群平台引發廣泛討論。許多用戶對 Google 在推理領域取得的突破表示震驚,認為 Google 已暫時領先競爭對手。「這是否代表 AGI(人工通用智慧)已經到來?」成為科技社群最熱烈的討論話題之一。
Google 執行長 Sundar Pichai、資深研究員 Jeff Dean 以及 DeepMind 執行長 Demis Hassabis 都在 X 平台發文慶祝這一里程碑。
Gemini 3 Deep Think is getting a significant upgrade. We’ve refined Deep Think in close partnership with scientists and researchers to tackle tough, real-world challenges.
And it’s pushing the frontier across the most challenging benchmarks, achieving an unprecedented 84.6% on… pic.twitter.com/5503F4FKcD
— Sundar Pichai (@sundarpichai) February 12, 2026
觀點
這次 Deep Think 的升級確實令人驚艷,特別是在抽象推理和程式競賽領域,與競爭對手的差距之大前所未見。ARC-AGI-2 領先 GPT-5.2 高達 60%、Codeforces 領先 Claude 約 47%,這些數字不僅是統計上的差異,更代表著 Deep Think 在複雜推理鏈和多步驟問題解決能力上的質的飛躍。
然而也必須正視 Deep Think 的弱項:在軟體工程(SWE-bench)、終端操作(Terminal-Bench)和長上下文處理方面,Claude 仍保持明顯優勢。不同模型在訓練目標和架構設計上的差異,讓 AI 競賽進入專業化競爭的新階段:不再是單一模型稱霸所有領域,而是各擅勝場。
從價格角度看,Gemini 3 Pro 的 $2/$12 定價極具侵略性,對需要大量 API 呼叫的開發者和研究機構來說,Google 的解決方案在性價比上具有強大吸引力。對於科學研究、演算法競賽和多模態推理需求,Deep Think 無疑是當前最佳選擇;但對於軟體工程、企業知識管理和長文件處理,Claude 仍是更穩健的選擇。

