距離 Google I/O 2026 開幕不到一週,一款代號為「Gemini Omni」的全新 AI 影片生成模型已經提前在網路上曝光。從上週五(5/2)在 Gemini App 介面中被挖掘出 UI 字串,到本週一(5/11)實際生成的示範影片開始在 X(原 Twitter)上瘋傳,這款可能成為 Google 新一代影片生成旗艦的模型,正在引發科技圈的熱烈討論。
Google 全新影片生成模型 Gemini Omni 提前曝光
一切的起點來自 5 月 2 日。知名 AI 新聞網站 TestingCatalog 發現,部分使用者 Gemini App 的影片生成分頁中出現了一行全新的字串:「Start with an idea or try a template. Powered by Omni.」(從點子開始,或試試範本。由 Omni 提供支援)。
這行字出現在「Toucan」(也就是 Google 現有 Veo 3.1 影片生成功能的內部代號)旁邊的相同 UI 區域。這是一個關鍵訊號:過去 Veo 從 1 代升級到 3.1 代,品牌名稱始終維持不變,但在 Gemini App 中首次出現一個全新的產品級名稱,通常意味著 Google 準備在即將到來的 I/O 大會上進行重大發表。
到了 5 月 11 日,已有部分 Gemini AI Pro 用戶被提示可以「使用 Gemini Omni 建立內容」,並開始分享實際生成的影片。由 AI 記者 Chetaslua 發布的一段示範影片迅速獲得超過 120 萬次觀看。
Holllllyyyyyyyy @GeminiApp cooked 😳😳
🚨 Gemini Omni: New video model
Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ??
direct link for those who believes otherwise in comments pic.twitter.com/LUqJLXUxrf
— Chetaslua (@chetaslua) May 11, 2026
該影片的提示詞為:「一位教授在傳統黑板上寫出三角函數恆等式的數學證明,並解釋他目前正在進行的步驟。」結果令人驚豔,黑板上出現的 sin²θ + cos²θ = 1 等數學公式不僅筆跡流暢、寫字動畫自然,而且文字完全正確,沒有出現過去 AI 影片生成模型常見的「亂碼文字」問題。不少評論將這一刻稱為「影片生成的 nano banana 時刻」。
不過,也有觀察者指出 Omni 的嘴唇同步真實度仍不如 Seedance 2.0 或 Kling,且音訊帶有明顯的「Google 語音」風格,黑板質感和粉筆物理效果也有改進空間。
Omni 是什麼?三種可能解讀
目前 Google 尚未正式公布 Omni 的技術細節,但外界對其真實身份有三種推測:
第一種:Veo 4 的新品牌包裝。最保守的解釋:Omni 只是 Veo 4 或 Veo 3.2 在 Gemini App 中的新產品名稱,底層技術仍是 Veo 系列。類似 Gemini 3.1 Flash 將靜態影像生成命名為「Nano Banana 2」的做法。
第二種:全新的 Gemini 原生影片模型。Google 可能訓練了一個全新的、命名為 Gemini 的影片模型,與 Veo 並行或取代 Veo。這將統一目前「Veo 管影片、Nano Banana 管圖片、Gemini 管文字」的多模型策略。
第三種:真正的全能模型。最具野心的解讀:「Omni」可能是一個能同時處理文字、圖片、影片甚至音訊的單一多模態模型。如果屬實,這將是主要 AI 廠商中第一個具備原生影片輸出的全能級模型,意義遠超單純的版本升級。
從命名本身也能看出多模態的野心:「Omni」在拉丁文中意為「全部」。這與 GPT-4o 將文字、圖片、音訊整合到單一模型的概念相似,但 Omni 更進一步加入了原生影片輸出的能力。
Google I/O 2026 即將揭曉
根據洩漏的用量資訊,一位使用者在 AI Pro 方案下僅測試了兩個 Omni 提示詞就用掉了當天 86% 的配額,顯示這套模型的運算成本相當高昂。
Google 將於 5 月 19 日至 20 日舉辦 I/O 2026 開發者大會,外界普遍預期 Gemini Omni 將在大會中正式亮相。考慮到 OpenAI 近期已宣布逐步縮減 Sora 的影片生成業務,Google 這次選擇在 I/O 前夕開放 Omni 測試,時間點格外意味深長。

