一直以來,ChatGPT 在圖片生成這塊都跟 Gemini 有一點差距,特別是有中文字,偶爾出來的字還是會出錯,字型美感沒有說很好。因此生成圖片時,很多人應該還是會用 Gemini。不過這個差距,隨著 OpenAI 稍早正式推出 ChatGPT Images 2.0 後,總算扳回一城,這次新模型不只把文字渲染、版面配置、物件擺放這些老毛病一次解決,還首度加入了思考能力,OpenAI 甚至把它形容成「第一款會思考的圖像模型」。
我稍微實測一下確實進步很大,在細節處勝過 Gemini 的 Nano Banana。(下面首圖就是用 ChatGPT Images 2.0 生成的)
ChatGPT Images 2.0 正式登場!會思考的圖片生成模型、支援 2K 解析度
這次新推出的 ChatGPT Images 2.0 模型代號是 gpt-image-2,取代去年底推出的 gpt-image-1.5。跟前代相比,升級重點主要集中在四大方向:文字渲染、版面設計、多語言支援,以及最受矚目的「推理能力」。
文字渲染部分,Images 2.0 在處理小字、圖示、UI 元件、密集排版等,這些過去最容易出現錯誤的地方,都有非常明顯的進步,最高還能生成 2K 解析度的圖片,清晰度比前代提升不少。
Images 2.0 的版面設計能力也更好,對物件位置的掌握更精準,能做出層次分明、適當留白的排版。拿來設計海報、社群貼圖、產品 Mockup、廣告文宣,成果都很不錯。此外,也支援更多寬高比,從 3:1 橫幅到 1:3 直式都行,代表說不論是電腦桌布、手機直式內容、還是長條形的資訊圖表,ChatGPT 都能搞定:
再來是台灣用戶最關鍵的多語言支援。過去在處理中文、日文、韓文、印地文、孟加拉文這類非拉丁字母的語言時,表現都不太理想,而這次 Images 2.0 特別針對這塊做了優化。
下圖是我用 ChatGPT 生成大麥克解釋的圖片:
而新加入的「思考模式」,簡單來說,就是 Images 2.0 分成「即時(Instant)」和「思考(Thinking)」兩種運作模式,即時模式生成速度很快,思考模式則會先分析你的需求、思考版面怎麼配,必要時還會主動上網搜尋資料、再動手生圖,甚至會自己檢查成品、回頭修正錯誤。
這在做連續分鏡、漫畫、品牌視覺這類需要角色或物件一致性的場景時,非常好用。此外,Images 2.0 也支援一次產出最多 8 張圖片,並保持角色、物件的連貫性:
目前 ChatGPT Images 2.0 已經正式開放給所有用戶使用,「即時模式」所有 ChatGPT 用戶都能使用,包含免費方案,進階的「思考模式」則是僅限 Plus、Pro、Business、Enterprise 付費方案的用戶使用。
下面是我用 ChatGPT 生成幾張跟 Gemini 的對比,差異很明顯。
首先是 YouTube 直播畫面,我下的提示詞是:「幫我生成一張 YouTube 直播畫面,上面正在販售 ChatGPT AI 產品,一位漂亮女主持人」,這是 Gemini 生成結果,不差,但 YouTube 畫面還是有一些細節沒生成出來:
這是 ChatGPT 生成的,非常真實,連聊天室的打賞、影片描述、甚至隱藏聊天室功能按鈕都有:
再一組是遊戲畫面,我給的提示詞:「幫我生成 CS 遊戲的戰鬥畫面」,下圖是 Gemini 生成結果,一樣品質很好,但還是有一些不合理的地方,像是對面警察面對沒人的地方射擊,左邊有一個 Health:74 數字,但下方血量是 24:
ChatGPT 生成結果就更好了,不僅玩家拿的是熱門 AK47,旁邊還有隊友,甚至左下角和右上角都有一些訊息:







