稍早 xAI 正式發表 Grok 4 模型,不意外的,又再度拿回許多測試成績的領先地位,比起 OpenAI、Google 的最新模型都還要強悍,甚至還稱 Grok 4 是世界上最聰明的 AI。此外,為了滿足重度用戶,xAI 也同步推出每月 300 美元的全新 SuperGrok Heavy 訂閱方案,可搶先體驗到最新功能,像是即將推出的影片生成模型、AI 程式碼模型等。
xAI 正式發表世界上最聰明 Grok 4 系列
發表會一開始,xAI 和馬斯克就提到一個「人文學科終極考試」(Humanities Last Exam)的基準測試,來說明 Grok-4 有多聰明。這個考試非常具挑戰性,每一個問題都是由學科專家精心設計的,總共有 2,500 個,涵蓋數學、自然科學、工程以及所有人文學科:
今年稍早「人文學科終極考試」首次發布時,當時多數模型的準確率都只有個位數,每個問題都是博士甚至更高的研究水平,即使是人類,也幾乎沒有任何人能真正回答這些問題並獲得高分,而 Grok-4 在所有領域都達到了博士後水平。
Grok-4 有兩種模型版本,「Grok-4」和「Grok 4 Heavy」,Grok 4 Heavy 是 Grok 4 的多智慧體的版本,透過「測試時計算 (Test and Compute)」方法,同時運行多個獨立智慧體,然後比較它們的工作並決定最佳答案。
從下圖可以看到,Grok-4 在沒有任何工具的情況下,就已經能解決 4 分之 1 的問題,達到 25.4%,比起 Gemini 2.5 Pro 的 21.6% 和 OpenAI o3 的 21% 都還要高。而有工具之後,Grok 4 立刻提升到 38.6%,Grok 4 Heavy 更達到 44.4%,xAI 還補充,Grok 4 使用工具比起 Grok 3 的「深度搜尋」模型更強大且可靠:
其他常見的基準測試中,Grok-4 也表現出色,像是博士級別的問題集 GPQA,Grok-4 達到 87.5%、Grok-4 Heavy 更來到 88.9%,比競爭對手的最強模型都還高。此外,AIME 美國數學邀請賽中,Grok-4 Heavy 還拿到 100% 的滿分。程式碼測試部分,LiveCodeBench、HMMT 和 USAMO 的成績,Grok-4 幾乎都領先其他對手:
Grok 4 雖然聰明,但也不是沒有缺點,Grok 4 其他部分還是不太行,像是沒有圖像理解能力,雖然有圖片生成能力,但還需要加強,xAI 也不否認這一點,但承諾幾週內將完成的新版本,會解決視覺方面的弱點。
而 API 部分,Grok 4 在 ARC-AGI 測試中也創下業界中最佳分數,Grok 4 獲得 15.8% 的準確率,是第二名 Claude Opus 模型的兩倍:
Grok 4 現在在 Grok 平台中已經上線,不過現階段僅限付費用戶,免費用戶還只能使用 Grok 3。
而全新推出的每月 300 美元 SuperGrok Heavy 方案,可搶先體驗 Grok 4 Heavy 及新功能,這方案其實就類似 OpenAI、Google 和 Anthropic 推出的超高級訂閱:
完整發表會影片:
Introducing Grok 4, the world's most powerful AI model. Watch the livestream now: https://t.co/59iDX5s2ck
— xAI (@xai) July 10, 2025