xAI 在 AI 影片生成領域的崛起速度令人咋舌,2026 年 5 月 31 日,xAI 正式發布 Grok Imagine Video 1.5 Preview,目前已登上 Artificial Analysis Video Arena 的 Image-to-Video 排行榜第一名,Elo 評分達到 1404 ±6,不僅較前一版 1.0 提升 52 分,更成功超越 ByteDance 的 Seedance 2.0 等強敵。回顧 11 個月前,xAI 根本沒有任何影片生成產品;如今卻已站上全球 AI 影片生成的最高點。
從零到第一:xAI 的 11 個月奇蹟
xAI 的 AI 影片生成之路始於 2025 年 3 月的一樁低調收購,當時 xAI 買下影片生成新創 Hotshot(Natural Synthetics Inc.),該公司擁有 Hotshot-XL 與 Hotshot Act One 等現成的影片基礎模型。此舉為 xAI 提供了切入影片生成領域的技術底蘊。
此後 xAI 以極快速度推進產品迭代,2025 年 7 月 28 日,Grok Imagine Beta 上線,初期影片僅 6 秒、1280×720 解析度,且存在臉部漂移和物理模擬等問題。同年 10 月 5 日推出 v0.9,幀率提升至 24 FPS,原生音訊同步大幅改善。2026 年 1 月 28 日,Grok Imagine API 開放給開發者,模型在 Text-to-Video 與 Image-to-Video 排行榜同時拿下第一。2 月 3 日版本 1.0 正式上線,支援 720p、10 秒影片,API 定價為每分鐘 4.20 美元。
Grok Imagine Video 1.5 的技術突破
Grok Imagine Video 1.5 Preview 相較 1.0 版本在多個面向實現顯著進步,最引人注目的提升在於原生同步音訊功能。與先前模型在影片生成後再附加音訊不同,1.5 版採用「單次推理」架構,在同一個推論過程中同時生成影片畫面與音訊,涵蓋對話、唇語同步、環境音效和背景音樂。這種設計讓音訊與畫面的同步更加自然,對影視級輸出至關重要。Elon Musk 本人也在 2026 年 6 月 4 日證實了 Grok Imagine 1.5 的正式推出,並展示了一段 AI 生成的《伊利亞特》(特洛伊)預告片,進一步驗證了該模型的影視級輸出能力,品質的確有很大進步。
Iliad (Troy) trailer made by Grok Imagine 1.5, which was just released pic.twitter.com/o0zITVlvpn
— Elon Musk (@elonmusk) June 4, 2026
影片長度方面,1.5 版將單段影片上限從 10 秒提升至 15 秒,使用者可指定 1 至 15 秒的任意長度,為敘事創作提供更多彈性。在生成速度上,Grok Imagine Video 1.5 以 720p 品質生成 5 秒影片僅需約 20-30 秒,速度達到 ByteDance Seedance 2.0 的 2 至 3 倍,大幅縮短製作管道的推論瓶頸。物理真實感也有可衡量的改善,包括布料動態、水體模擬、頭髮運動和物件互動等細節更加精確。高動作場景中的人物變形問題減少,微表情更清晰,半透明和玻璃材質的渲染品質提升。
Aurora 架構與 Colossus 2 的算力優勢
xAI 的技術優勢背後,是兩項關鍵基礎設施的支撐。其一是位於田納西州孟菲斯的 Colossus 2 超級電腦集群,部署了約 55.5 萬顆 NVIDIA GPU,為全球規模最大的單一 AI 運算集群之一(簡單說就是卡多任性)。其二是 xAI 自研的 Aurora 引擎:一種自迴歸的 Mixture-of-Experts(混合專家;MoE)架構,可同時處理文字、影像、影片和音訊的 token 預測。
MoE 架構的核心優勢在於:與傳統稠密模型不同,它只會針對特定輸入激活專用的子網路(例如寫實影像與動作場景分別對應不同專家),這使得模型能在不增加推論成本的條件下擁有更高的參數量與品質上限。Aurora 從訓練階段就將文字、影像和音訊整合處理,因此影片與音訊的時間對齊無需後製拼接,這是原生同步音訊的技術根基。
API 定價與開發者支援
Grok Imagine Video 1.5 Preview 目前透過 API 提供服務,模型別名為 grok-imagine-video-1.5-2026-05-30。定價結構為 480p 每秒 0.08 美元、720p 每秒 0.14 美元,換算下來 10 秒 720p 影片約需 1.40 美元。輸入端文字為免費,影像輸入則為每次 0.01 美元。API 限流為每分鐘 60 次請求,服務區域涵蓋 us-east-1 和 eu-west-1。
除了影像轉影片,API 同時支援文字轉影片、影片編輯、多圖編輯和參考影片等多元工作流,並支援影片鏈接延伸以建構更長的多鏡頭敘事。
實際表現:沒有官方說的那麼好
雖然說目前 Grok Imagine Video 1.5 官方宣傳影片看起來品質不錯,但目前網路上看到的範例並不夠多,以目前看到的幾個比較案例來說,個人感覺來說並沒有勝過 Seedance 2.0,畢竟跑分與實際表現落差還是很大(如 Happy Horse 生成水準就與 Seedance 2.0 相差甚遠,但兩者其實分數接近),如果實際生成品質能維持一定水準,應該能為 xAI 帶來更多的使用者。
Arena AI has Grok Imagine Video 1.5 Preview ranked #1 right now, so I had to put it up against Seedance 2.0.
Seedance still feels stronger overall but Grok Imagine is getting close enough that this comparison actually matters.Full video with my thoughts below — including what… pic.twitter.com/V6Zfl8tzXd
— JSFILMZ (@JSFILMZ0412) May 31, 2026
Grok Imagine Video 1.5 Preview vs Kling 3.0.
Same prompts, wildly different results.
Which side are you on? 👇 https://t.co/IMJnDYV5Zl pic.twitter.com/dGLtm4OxNY— JSFILMZ (@JSFILMZ0412) June 1, 2026

