xAI 正式發表 Grok 4 模型，各項成績都贏過 OpenAI 和 Google，並推每月 300 美元訂閱方案

Grok 4 來了

稍早 xAI 正式發表 Grok 4 模型，不意外的，又再度拿回許多測試成績的領先地位，比起 OpenAI、Google 的最新模型都還要強悍，甚至還稱 Grok 4 是世界上最聰明的 AI。此外，為了滿足重度用戶，xAI 也同步推出每月 300 美元的全新 SuperGrok Heavy 訂閱方案，可搶先體驗到最新功能，像是即將推出的影片生成模型、AI 程式碼模型等。

xAI 正式發表世界上最聰明 Grok 4 系列

發表會一開始，xAI 和馬斯克就提到一個「人文學科終極考試」（Humanities Last Exam）的基準測試，來說明 Grok-4 有多聰明。這個考試非常具挑戰性，每一個問題都是由學科專家精心設計的，總共有 2,500 個，涵蓋數學、自然科學、工程以及所有人文學科：

今年稍早「人文學科終極考試」首次發布時，當時多數模型的準確率都只有個位數，每個問題都是博士甚至更高的研究水平，即使是人類，也幾乎沒有任何人能真正回答這些問題並獲得高分，而 Grok-4 在所有領域都達到了博士後水平。

Grok-4 有兩種模型版本，「Grok-4」和「Grok 4 Heavy」，Grok 4 Heavy 是 Grok 4 的多智慧體的版本，透過「測試時計算 (Test and Compute)」方法，同時運行多個獨立智慧體，然後比較它們的工作並決定最佳答案。

從下圖可以看到，Grok-4 在沒有任何工具的情況下，就已經能解決 4 分之 1 的問題，達到 25.4%，比起 Gemini 2.5 Pro 的 21.6% 和 OpenAI o3 的 21% 都還要高。而有工具之後，Grok 4 立刻提升到 38.6%，Grok 4 Heavy 更達到 44.4%，xAI 還補充，Grok 4 使用工具比起 Grok 3 的「深度搜尋」模型更強大且可靠：

其他常見的基準測試中，Grok-4 也表現出色，像是博士級別的問題集 GPQA，Grok-4 達到 87.5%、Grok-4 Heavy 更來到 88.9%，比競爭對手的最強模型都還高。此外，AIME 美國數學邀請賽中，Grok-4 Heavy 還拿到 100% 的滿分。程式碼測試部分，LiveCodeBench、HMMT 和 USAMO 的成績，Grok-4 幾乎都領先其他對手：

Grok 4 雖然聰明，但也不是沒有缺點，Grok 4 其他部分還是不太行，像是沒有圖像理解能力，雖然有圖片生成能力，但還需要加強，xAI 也不否認這一點，但承諾幾週內將完成的新版本，會解決視覺方面的弱點。

而 API 部分，Grok 4 在 ARC-AGI 測試中也創下業界中最佳分數，Grok 4 獲得 15.8% 的準確率，是第二名 Claude Opus 模型的兩倍：

Grok 4 現在在 Grok 平台中已經上線，不過現階段僅限付費用戶，免費用戶還只能使用 Grok 3。

而全新推出的每月 300 美元 SuperGrok Heavy 方案，可搶先體驗 Grok 4 Heavy 及新功能，這方案其實就類似 OpenAI、Google 和 Anthropic 推出的超高級訂閱：

完整發表會影片：

Introducing Grok 4, the world's most powerful AI model. Watch the livestream now: https://t.co/59iDX5s2ck

— xAI (@xai) July 10, 2025

Tags: ai Grok 人工智慧

xAI 正式發表 Grok 4 模型，各項成績都贏過 OpenAI 和 Google，並推每月 300 美元訂閱方案

Grok 4 來了

您也許會喜歡：

網站搜尋

廣告