傳了一段時間的 Gemini Omni 系列模型,終於在 Google I/O 2026 正式亮相,首款推出的是 Gemini Omni Flash,主打原生多模態,可以把圖片、音訊、影片、文字等不同素材一起作為輸入,並直接產出一段完整影片,而且生成完還能用對話式編輯,也就是跟人講話一樣,要求修改影片裡的細節。AI 影片工具的進化速度真的是有夠快。

Google 推出 Gemini Omni Flash:多模態原生影片模型,可用對話直接編輯影片內容
Veo 3.1 模型主要還是透過「文字轉影片」的方式,來生成影片,而 Omni Flash 比較不同,它是一次吸收圖片、音訊、影片、文字四種輸入,然後讓模型理解所有素材之間的關係,並生成一段整合後的影片。也就是說,不是把不同來源的素材分開處理後再硬拼起來,而是模型會一次理解所有輸入素材、一次推理出該怎麼合成。
官方文章就示範了一個例子:丟一張參考圖、一段運鏡影片、一段背景音樂進去,Omni Flash 會做出風格跟著圖、運鏡跟著影片、節拍對到音樂的成品。音訊輸入這部分 Google 初期只開放語音檔當參考,其他類型的音訊會陸續加入。
提示詞:Dynamic sci-fi film style video based on image_0.png. Elements light up similar to video_0.mp4 synchronized to the beat of the music from audio_0.wav
再來是 Omni Flash 最大的亮點:對話式編輯。
傳統 AI 影片工具的操作流程通常是「提示詞生成 → 看到不滿意 → 重打提示詞 → 再生成」,每改一個小細節都要重跑一輪,又慢又花額度。
Omni Flash 變成能邊聊邊改,像是拍一段影片或生成一段影片之後,想動哪裡就打字跟它說,例如「Make the violin invisible」(把小提琴變透明)、「Change the camera angle to be over the violinist’s shoulder」(鏡頭換到從小提琴手肩膀後拍)、「Dim the lights in the room」(把房間燈光調暗),下一個版本就出來。
最初的影片:
「Make the violin invisible」(把小提琴變透明):
這個也蠻猛的,上傳自拍影片後,輸入「When the person touches the mirror, make the mirror ripple beautifully like liquid」,當手指摸到鏡子的瞬間,鏡面像水波一樣擴散:
Google 也補充 Omni Flash 對重力、動能、流體力學的理解都大幅提升,所以生成的場景會更接近真實物理法則。
Omni Flash 還有一個值得注意的功能叫「虛擬化身(Avatars)」,使用者可以建立一個數位版本的自己,做出外觀跟聲音都很像本人的影片。進一步編輯影片以修改音訊和語音的功能目前還在內部測試,而且會以負責任的方式推出。
即日起 Google AI Plus、Pro、Ultra 訂閱用戶可以在 Gemini App 跟 Google Flow 搶先嘗試,本週開始 YouTube Shorts 跟 YouTube Create App 也會開放免費體驗。要注意的是,目前生成一段影片就會吃掉大量每日配額,所以使用上要多注意。
