在生成式 AI 競賽進入白熱化的兩年後,Google 在今日(11/19)向全球科技界投下了一枚震撼彈。Google 執行長 Sundar Pichai 與 DeepMind 執行長 Demis Hassabis 聯手揭開了 Gemini 3 的神秘面紗。這不僅是 Google 迄今為止最智慧的模型,更標誌著該公司在「代理人(Agentic)」能力與多模態推理上的重大突破。Pichai 形容,如果說過去兩年是 Gemini 時代的開端,那麼 Gemini 3 則代表了 AI 從單純處理資訊,進化到能夠理解人類意圖、甚至「讀懂空氣(Reading the room)」的全新階段。

全端佈局見效:Gemini 生態系的爆發性成長
在深入探討 Gemini 3 的技術細節前,Sundar Pichai 回顧了過去兩年的成績單,這份數據顯示 Google 的「全端(Full Stack)」AI 策略:從基礎設施、模型研究到產品應用,已開始展現強大的規模效應。目前,Google 搜尋中的「AI 總覽(AI Overviews)」每月擁有高達 20 億的活躍用戶;Gemini App 的月活躍用戶數已突破 6.5 億。在企業端,超過 70% 的 Google Cloud 客戶正在使用其 AI 解決方案,更有 1,300 萬名開發者利用 Google 的生成式模型進行開發。
Pichai 強調:「這僅僅是我們所見影響力的冰山一角。」正是這種龐大的用戶基礎與基礎設施優勢,讓 Google 能夠在 Gemini 3 發布的首日,即實現「Google 規模(Scale of Google)」的全面部署。這也是 Google 首次在模型發布的第一天,就將其直接整合進搜尋引擎(Search)的核心功能中。
Gemini 3 Pro:推理能力與多模態的新霸主
本次發布的核心焦點是 Gemini 3 Pro。DeepMind 團隊將其定義為「世界上最強大的多模態理解模型」,並在推理能力、程式碼編寫以及代理能力上設立了新的行業標準。
基準測試的全面碾壓
根據 Google 公布的技術白皮書,Gemini 3 Pro 在所有主要的 AI 基準測試中,均顯著超越了前一代的 Gemini 2.5 Pro,並擊敗了市場上的競爭對手:
-
LMArena Leaderboard:以突破性的 1501 Elo 分數登頂,這是目前業界公認最具權威的排名之一。
-
高階推理:在「Humanity’s Last Exam」(人類最終考試)測試中,在不使用工具的情況下取得了 37.5% 的成績;在 GPQA Diamond 測試中得分高達 91.9%,展現了博士級的推理水準。
-
數學與科學:在 MathArena Apex 上創下了 23.4% 的新高;在檢驗事實準確性的 SimpleQA Verified 上達到 72.1%,顯示其在解決複雜科學與數學問題時的可靠性大幅提升。
-
多模態霸權:不僅止於文字,Gemini 3 Pro 在 MMMU-Pro(81%)和 Video-MMMU(87.6%)測試中重新定義了多模態推理的極限。
值得注意的是,DeepMind 特別強調了 Gemini 3 在「性格」上的轉變。過往的大型語言模型常因過度客氣或產生幻覺式的奉承(Sycophancy)而為人詬病。Gemini 3 被訓練為更加聰明、簡潔與直接。它不再只是告訴用戶「想聽的話」,而是提供「需要聽到的真相」。這種特質使其更像是一個真正的思想合作夥伴(Thought Partner),能夠在創意發想或解決難題時提供具備深度與細微差別(Nuance)的見解。
Deep Think 模式:挑戰思維的極限
除了 Pro 版本,Google 還預告了更強大的 Gemini 3 Deep Think 模式。這是一個專為解決極度複雜問題而設計的增強推理模式。在內部測試中,Deep Think 模式展現了令人咋舌的能力。它在 ARC-AGI-2(包含程式碼執行)測試中取得了前所未有的 45.1% 成績,這意味著它具備解決全新、未見過難題的類推能力。在 GPQA Diamond 上,其得分更是推高至 93.8%。
目前,Deep Think 模式正處於嚴格的安全評估階段,預計將在未來幾週內率先開放給 Google AI Ultra 的訂閱用戶體驗。
三大核心應用:學習、構建與規劃
Google 將 Gemini 3 的應用場景歸納為三大支柱:學習(Learn)、構建(Build) 與 規劃(Plan)。
學習:多模態的極致展現
Gemini 3 利用其 100 萬 token 的上下文視窗(Context Window)與多模態能力,徹底改變了知識獲取的方式。
-
生活應用:它能解讀手寫的跨語言食譜,並將其轉化為數位化的家族食譜;或者分析使用者打「匹克球(Pickleball)」的影片,識別動作缺陷並生成訓練計畫。
-
學術研究:用戶可以上傳長篇論文或影片講座,Gemini 3 能生成互動式圖卡或視覺化圖表,協助掌握複雜概念。
-
搜尋革命:在 Google 搜尋的 AI 模式中,Gemini 3 能夠實現「生成式 UI(Generative UI)」。這意味著搜尋結果不再只是一串連結或文字,系統能根據查詢內容,即時生成互動式的圖表、工具或模擬介面,例如動態展示 RNA 聚合酶的運作機制。
構建:開發者的「Vibe Coding」時代
對於開發者而言,Gemini 3 的推出宣告了「Vibe Coding(直覺式編碼)」與代理編碼(Agentic Coding)時代的來臨。
-
卓越的編碼能力:在 WebDev Arena 排行榜上,Gemini 3 以 1487 Elo 的分數奪冠;在衡量編碼代理能力的 SWE-bench Verified 中,更是大幅超越前代,達到 76.2%。
-
Google Antigravity:這是 Google 今日同步發表的全新代理開發平台(Agentic Development Platform)。Antigravity 將 AI 從單純的 IDE 插件升級為「主動合作夥伴」。在這個平台上,AI 代理人擁有獨立的介面,並能直接存取編輯器、終端機(Terminal)和瀏覽器。開發者可以目睹 AI 自主規劃、執行端到端的軟體任務,甚至自我驗證程式碼。
-
生態系支援:除了自家的 AI Studio 和 Vertex AI,Gemini 3 也已登陸 Cursor、GitHub、JetBrains、Replit 等第三方開發平台。
Google Antigravity 開發平台使用 Gemini 3 推動一個端到端的自主代理工作流程,用於航班追蹤應用程式。該代理能獨立規劃、撰寫應用程式程式碼,並透過瀏覽器端的電腦操作驗證其執行:
規劃:長跨度決策的突破
在代理人領域,最大的挑戰之一是「長跨度規劃(Long-horizon planning)」。過去的模型往往在執行多步驟任務時容易偏離目標。Gemini 3 在這方面取得了顯著進展。在 Vending-Bench 2 測試中(模擬經營自動販賣機業務),Gemini 3 Pro 能夠維持一整年模擬時間的穩定決策,創造比其他模型更高的回報且不偏離任務。
這意味著在現實生活中,Gemini 3 可以真正成為個人的數位管家,協助處理如預訂本地服務、整理 Gmail 收件匣等繁瑣且需多步驟操作的任務,且全程在用戶的監督與指導下進行。
安全與未來展望
面對如此強大的模型,安全性成為不可迴避的議題。Google 強調,Gemini 3 是其迄今為止最安全的模型。除了內部的 Frontier Safety Framework 測試外,Google 還與英國 AI 安全研究所(UK AISI)及 Apollo、Vaultis 等第三方機構合作進行紅隊測試(Red-teaming),確保模型在防範網路攻擊、減少偏見及抗提示注入(Prompt Injection)上的韌性。
發布時程:
-
即日起:Gemini 3 Pro 已在 Gemini App、Google AI Studio、Vertex AI 及 Google Antigravity 上線。搜尋引擎中的 AI 模式也已同步更新。
-
未來幾週:Deep Think 模式將在完成安全測試後,向 Ultra 訂閱戶開放。
結語
此次 Gemini 3 的發布給人最強烈的感受並非僅是數據上的堆疊,而是 AI 互動模式的質變。過去,我們驚嘆於 AI 能「讀懂」我們的文字;現在,Google 試圖讓 AI「理解」我們的處境。從「生成式 UI」到「Google Antigravity」的推出,可以看出 Google 正試圖打破「對話框」的限制,讓 AI 直接介入操作層與介面層。這不僅是技術的升級,更是對人機協作關係的重新定義。
特別是 Google Antigravity 的出現,直接回應了開發者對於 AI 寫碼工具「只能輔助、不能自主」的痛點。若其表現真如演示般流暢,軟體開發的門檻與效率將迎來翻天覆地的變化。
Sundar Pichai 兩年前開啟的「Gemini 時代」,在今天似乎才真正展現了其完全體應有的樣貌。隨著 Gemini 3 滲透進擁有數十億用戶的 Google 生態系,這場 AI 普及化的戰役,才正要進入最精彩的篇章。





