有在玩 AI 生圖的朋友們應該會發現,有時候輸入了自己想要的場景與敘述,但 AI 給的圖片總是跟自己想像的不太一樣?那麼您是否想過,在現在 AI 繪圖百花齊放的時代,到底哪一個 AI 服務「最聰明」或「最懂你」呢?在國外最近就有一個「GenAI Image Showdown」網站,將目前最受歡迎的幾個 AI 生圖服務做了一個評比。
六大主流 AI 圖片生成平台大PK!
「GenAI Image Showdown」這個網站對比了當前六個比較知名的 AI 生圖服務,包括 FLUX.1、Gemini Flash 2.0、騰訊混元(Hunyuan image)2.0、Imagen 3/4(Google AI 的另一個生圖服務)、Midjourney v7 與 OpenAI ChatGPT-4o等服務,他們設計了九組情境與 Prompt(皆使用英文)敘述進行多次測試(圖片旁有標次數),看哪一個服務作出來的作品最接近使用者意圖與表現的比較好。
一、The Prussian Ring Toss 普魯士套圈遊戲
Promp:兩名頭戴帶刺頭盔的普魯士士兵面對面玩著套圈遊戲,試圖將金屬環扔到對方士兵頭盔上的尖刺上。
“Two Prussian soldiers wearing spiked pith helmets are facing each other and playing a game of ring toss by attempting to toss metal rings over the spike on the other soldier’s helmet.”
在這個測試中FLUX.1、Imagen 3/4 與 OpenAI 4o 的圖片最接近敘述,剩下三個 AI 服務 Gemini 美感不在線,環繪製的也有問題。混元的頭盔變成了刺蝟,MJ 則是像雜耍:
二、Nine-Pointed Star 九角星
Prompt:一顆恰好有 9 個尖角的星星的數字插圖。
“A digital illustration of a star with exactly 9 points.”
Gemini、Imagen與混元在尖角數量一直錯誤:
三、Spheron 球形
Prompt:一幅歷史油畫描繪了亞歷山大大帝騎著嘻皮跳玩具衝鋒陷陣的場景。嘻皮跳玩具是一種古老的兒童玩具,外形像一個巨大的橡膠球,孩子可以跨坐在上面,並握住橡膠手柄。如果模型的訓練資料中沒有嘻皮跳玩具的相關知識,我們會進一步提示該玩具的描述。
“A historical oil painting of Alexander the Great riding a hippity hop toy into battle. The hippity hop toy was a old children’s toy that looked like a giant rubber ball that a child could straddle and hold onto rubber handles. If the model did not have knowledge of a hippity hop in its training data, we would further prompt with a description of the hippity hop toy.”
這個有點考驗語言理解力與幽默感,除了 FLUX.1與MJ v7以外大家都算正確:
四、Cubed⁵ 立方⁵
Prompt:一個光線追蹤的場景,包含五個純色立方體。紅色立方體堆疊在藍色立方體上。藍色立方體堆疊在綠色立方體上。綠色立方體堆疊在紫色立方體上。紫色立方體堆疊在黃色立方體上。因此,由上至下的順序為:紅色、藍色、綠色、紫色、黃色。這些立方體部分透明,由玻璃製成。
“A raytraced scene with five solid colored cubes. The red cube is stacked on the blue cube. The blue cube is stacked on the green cube. The green cube is stacked on a purple cube. The purple cube is stacked on a yellow cube. So the order from top to bottom is: red, blue, green, purple, yellow. The cubes are partially translucent and made of glass.”
這個考驗語言理解以外還有執行的正確性,其中MJ v7不管怎麼做順序都是錯的:
五、Mermaid Disciplinary Committee 美人魚紀律委員會
Prompt:一隻海豚正用它的尾鰭劃過一條美人魚的背部來訓斥它。
“A dolphin is using its fluke to discipline a mermaid by paddling it across the backside.”
Imagen 3 是唯一能夠接近提示的模型,做第四次最接近指令。OPENAI可能理解最正確,但過程中會一直跳出不可以對「鯨類對神秘動物」的暴力行為違反內容政策:
六、Cephalopodic Puppet Show 頭足類木偶戲
Prompt:一隻真正的章魚,每根觸手上都蓋著一隻襪子木偶。
“A real octopus with each tentacle covered by a sock puppet.”
可看到混元、Imagen3與OPENAI理解什麼是「襪子木偶」,其他的模型都搞錯了:
七、Quantum Entangled Einstein 思考量子糾纏的愛因斯坦
Prompt:沮喪的愛因斯坦正在努力爭取一個靈光乍現的時刻——閃閃發光的想法燈泡漂浮在他的頭頂上,閃爍著,只能昏暗地照亮一塊部分被遮擋的黑板,上面寫著薛定諤方程,ĤΨ = EΨ。
“A frustrated Einstein fighting a Eureka moment – the sparking idea light-bulb floats above his head, flickering and only dimly illuminating a partially obscured chalkboard with Schrödinger’s equation written on it, ĤΨ = EΨ.”
只有OPENAI與Gemini理解了畫面,剩下的表現都不夠理想:
八、Red Next to Yellow 紅色旁邊是黃色
Prompt:這是一張色彩鮮豔的珊瑚蛇的照片,其條紋顏色順序為紅色、藍色、綠色、紫色和黃色。
“A photo of a brightly colored coral snake but with the bands of color red, blue, green, purple, and yellow in that exact order.”
這個顏色排序呈現的題目全軍覆沒,可能是因為動物更難畫的關係:
九、Not The Bees 不是蜜蜂
Prompt:這部四格漫畫描繪了一個人平靜地開車行駛在路上,突然一隻快樂的蜜蜂從駕駛座的車窗飛了出來。下一格漫畫中,蜜蜂鑽進了車裡,司機反應過度,驚恐萬分地用力拍打大黃蜂。汽車失控,衝下懸崖,蜜蜂卻安然地飛出了車窗。
“A four panel comic which depicts a person calmly driving down the road when a happy bee suddenly shows up looking through their driver side window. In the next panel the bee is inside the vehicle and the driver completely overreacts, swatting wildly at the bumblebee in abject terror. The car spins out of control careening off a cliff as the bee serenely flies out of the window.”
這題考驗四格漫畫的創作能力,對於語文的理解、故事與圖片的呈現有著很大的考驗。只有imagen 3/4 與 OPENAI理解正確(我自己的經驗是OPENAI最好):
十、The Yarrctic Circle 雅爾克圈
Prompt:這幅奇幻插畫描繪了一位北極海盜站在大帆船艦橋上。這位海盜的假腿由純冰製成,手持彎刀。
“A fantasy illustration of an arctic pirate on the bridge of their galleon ship. The pirate has a stilted peg leg made out of pure ice and wields a cutlass.”
這個考驗奇幻風格的指令只有混元沒過關:
11.The Labyrinth 迷宮
Prompt:一個標準的二維迷宮,只有一個清晰標記的出口和一個清晰標記的入口。虛線表示成功穿過迷宮的路線。 (來自 Hacker News 用戶 droopyEyelids 的迷宮建議)
“A standard 2d maze with a single clearly marked exit and a single clearly marked entrance. A dashed line indicates the successful route through the maze. (Maze suggestion from Hacker News user droopyEyelids)”
僅OPENAI完全理解指令,並繪製出圖片:
12.A Dicey Situation 危險的處境
Prompt:一個二十面骰(D20),面上刻有前二十個質數(2、3、5、7、11、13、17、19 等)。
“A twenty-sided die (D20) with the first twenty prime numbers (2, 3, 5, 7, 11, 13, 17, 19, etc.) on the faces.”
這題全軍覆沒,D20是《龍與地下城》等桌上角色扮演遊戲中最常使用的骰子,因有20個面得名。這次只有 OpenAI最接近,不過因為看起來超過20個面所以還是失敗:
GenAI Image Showdown 實測之後認為 OpenAI 4o表現最好,其次是 Google 最新的 Imagen 3/4,其他理解力都不夠好,而最老牌的 Midjourney v7表現最差,這其實也跟我自己測試的心得相去不遠,不過以美感來說的話 MJ 能拿到不錯的表現,但理解能力還是不太好,有興趣的朋友可以去該網站自己看看。