今日 Google 正式宣布推出 Gemini 2.5 Flash Image(內部開發代號「nano-banana」,也就是我們之前介紹過的地表最強繪圖模型,只是當時 Google 並未公佈是它的產品),Gemini 2.5 Flash Image 是目前最先進的影像生成與編輯模型,不僅延續了 Gemini 2.0 Flash 的低延遲與高性價比優勢,更在影像品質、角色一致性、語意理解與多影像融合等方面有了大幅度提升。
Google 正式推出最強圖像模型 Gemini 2.5 Flash Image
今年稍早,Google 在 Gemini 2.0 Flash 中首次引入原生的影像生成功能。當時,開發者對其低延遲、易於使用以及成本效益給予高度評價,但也提出了明確的需求:更高的影像品質與更強大的創意控制力。Gemini 團隊回應了這些反饋,透過 Gemini 2.5 Flash Image,不僅解決了上述問題,更在影像編輯與生成的細緻度上跨出重要一步。該模型目前已透過 Gemini API 與 Google AI Studio 提供給開發者使用,並可於 Vertex AI 平台服務企業客戶。定價方面,每 100 萬個輸出 token 價格為 30 美元,單張圖片約為 1290 token(約 0.039 美元)。
Gemini 2.5 Flash Image ( nano-banana),在模型能力競技場 lmarena 之前給所有使用者的盲測結果顯示表現大幅優於 GPT Image 1、FLUX.1 Kontext、Qwen Image Edit 等所有圖像生成模型取得第一:
功能亮點與應用場景
角色一致性:打造連貫的故事與品牌形象
在影像生成的領域中,保持角色或物件在不同場景與角度下的一致性一直是重大挑戰。Gemini 2.5 Flash Image 針對這一痛點給出了答案。無論是將相同的角色置於不同環境、從多角度呈現同一產品,還是生成一整套風格一致的品牌資產,Gemini 2.5 都能保持準確與連貫,避免「角色失真」的問題。
Google 甚至在 AI Studio 中推出了可自訂的範本應用,展示此功能在 房地產展示卡、員工識別證、產品目錄視覺統一設計等場景中的潛力。
語意驅動的影像編輯:自然語言即可完成精準修改
傳統影像編輯需要專業軟體與繁複操作,而 Gemini 2.5 Flash Image 讓這一切變得更直觀。使用者只需透過自然語言輸入,即可進行針對性修改:
-
模糊背景
-
移除衣物上的污漬
-
從照片中刪除整個人物
-
改變拍攝主體的姿勢
-
將黑白照片轉換為彩色
Google 在 AI Studio 中提供了一個影像編輯範本應用,結合了 UI 操作與文字提示,讓開發者與設計師能輕鬆體驗這項技術的靈活性。
融合世界知識:超越美學的語意理解
多數影像生成模型在美學表現上優異,但往往缺乏對現實世界的深度理解。Gemini 2.5 Flash Image 的一大突破在於結合了 Gemini 的世界知識,使其能處理更複雜的語意任務。例如,Google 建立了一個互動式教育範本應用,讓模型能讀取並理解手繪圖表,甚至能在同一步驟中回答現實問題與執行複雜編輯。這代表生成式 AI 已逐步走向 知識導向的視覺理解,而非僅僅依賴隨機生成。
多影像融合:創建嶄新的視覺組合
另一項強大功能是 多影像融合(Multi-image Fusion)。Gemini 2.5 能理解並合併多張輸入圖片,將不同元素以自然方式整合在單一場景中。(如讓人物穿上指定的衣服)
這項能力在 電商、室內設計與廣告產業特別具有潛力:
-
將單一產品無縫融入不同場景
-
為房間重新配置顏色與材質風格
-
快速生成商品陳列或目錄圖像
Google 也針對此功能推出了範本應用,讓使用者能透過拖曳方式,將產品置入場景並立即生成擬真的影像。(體驗請點我)
為了讓更多開發者能立即上手,Google 對 Google AI Studio 的「建構模式」進行了大幅更新,提供範本應用、自由混搭(remix)以及一鍵部署功能。開發者甚至能將生成的應用程式直接推送至 GitHub,或透過 AI Studio 直接分享。
更重要的是,Google 與業界夥伴展開合作:
-
OpenRouter.ai:已將 Gemini 2.5 Flash Image 引入其平台,提供 超過 300 萬名開發者使用,這也是該平台首個支援影像生成的模型。
-
fal.ai:作為生成式媒體的開發平台,fal.ai 也將 Gemini 2.5 引入其社群,擴大了技術的覆蓋範圍。
隨著 AI 生成影像的品質越來越接近真實照片,識別圖片真假與是否為 AI 生成內容成為一項重要課題。Google 也表示,所有透過 Gemini 2.5 Flash Image 創建或編輯的影像,都將附帶 不可見的 SynthID 浮水印,確保這些作品能被辨識為 AI 生成或編輯。
現在所有使用者都已經可以直接在 Gemini 中直接使用 Gemini 2.5 Flash Image 進行各種圖片創作,或是到 Google AI Studio 也能直接使用該模型進行創作,有興趣的朋友可以試試看。