Google 近日正式宣布,旗下最新的影片生成模型 Gemini Omni Flash(gemini-omni-flash-preview)正式對開發者開放。這款模型主打高品質、低成本的影片生成與「對話式編輯」(conversational editing),開發者可直接透過 Gemini API 與 Google AI Studio 開始使用。

什麼是 Gemini Omni Flash?
Gemini Omni Flash 是 Google Gemini Omni 系列的首款衍生模型,首次亮相是在 5 月 19 日的 Google I/O 2026 開發者大會上。它將 Gemini 的多模態推理能力與 Google 的生成式媒體模型結合,專門針對兩大任務優化:影片生成與對話式影片編輯。
模型名稱中的「Omni」代表廣泛的多模態能力,能跨文字、圖片、音訊與影片進行統一處理;「Flash」則延續 Gemini 1.5 Flash 以來的命名慣例,強調速度與成本效率,與其他 AI 影片工具價格具備一定優勢。
核心賣點:對話式影片編輯
現有的 AI 影片工具多採「生成後匯出」的模式:寫一段提示詞,模型生成一段影片,若要修改就得從頭重新提示或匯出到其他剪輯軟體。Gemini Omni Flash 打破了這個流程。
透過對話式編輯功能,使用者可以把影片當成一個「活的素材」,用自然語言持續與模型對話。例如生成一段初始影片後,可以接著說:
- 「把影片後半段放慢」
- 「色調改成電影感」
- 「移除背景,換成乾淨的棚拍風格」
- 「最後三秒加一個緩慢推近的效果」
模型會解讀這些自然語言指令並直接套用修改,不需要匯出影格、不需要開啟其他編輯器、也不需要從頭生成。
這項功能透過 Interactions API 實現,能維持對話的 session 歷史與上下文,讓使用者最多可連續堆疊三次順序編輯。Google 在官方部落格中展示了多個應用場景:使用者用手機自拍後,Omni Flash 能把照片變成一段「從螢幕中拉出 3D 氣球文字」或「把水從螢幕倒入玻璃杯」的魔術特效短片。
定價與取得方式
Gemini Omni Flash 的定價為 每秒影片輸出 0.10 美元(約 NT$3.2),與 Veo 3.1 Fast 同價。開發者可透過以下兩種方式使用:
- Google AI Studio:提供無需寫程式碼的 playground,可直接在介面中測試影片生成與對話式編輯
- Gemini API:供生產環境使用,API 呼叫方式與其他 Gemini 模型相同,只需更換模型名稱為「gemini-omni-flash-preview」
此外,Google AI Plus、Pro 與 Ultra 訂閱用戶也能在 Gemini 應用程式中使用。
與 Nano Banana 2 Lite 的搭配
同一時間,Google 也推出了 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),這是 Nano Banana 系列中速度最快、成本最低的圖片生成模型。Google 建議的使用方式是先用 Nano Banana 2 Lite 快速生成圖片,再將圖片作為參考輸入 Gemini Omni Flash,動畫化為高品質影片。
Nano Banana 2 Lite 同步上線於 Google 搜尋的 AI Mode、Gemini 應用、NotebookLM、Google Photos、Stitch、Google Flow 與 Google Ads 等消費者端產品。
已知限制:真實人物內容過濾
上線當天,不少開發者在測試時遇到一個明顯的限制:涉及真實人物姓名或肖像的請求會被內容安全過濾器攔截,回傳訊息為「Input blocked: Sorry, we can’t create videos with real people’s names or likenesses」。
這與 Google 一貫的負責任 AI 原則一致,雖然限制了某些創意用途(如生成歷史人物場景),但也降低了大規模 deepfake 濫用的風險。其他已知限制包括:
- 影片長度與解析度的上限尚未完整公開
- 複雜的多步驟對話式編輯在邊緣案例中可能出現不一致的結果
- 在 Google AI Pro 消費者方案上的可用性尚未確認
