繼阿里巴巴、騰訊、MiniMax 等多家大廠相繼釋出可在消費級硬體運行的擴散模型之後,中國搜尋巨頭百度正式於 Hugging Face 上線旗下文心系列的最新成員 ERNIE-Image 與加速版 ERNIE-Image-Turbo。兩款模型皆採用 Apache License 2.0 授權,權重可自由下載商用,並僅需 24GB 顯存即可在消費級顯卡(如 RTX 4090)上本地生成高品質圖像,堪稱近期最值得關注的開源圖像生成模型之一。
單流 DiT 架構、8B 參數,規格精巧卻打敗更大模型
依據百度在 Hugging Face 上公布的模型卡內容,ERNIE-Image 採用單流 Diffusion Transformer(single-stream DiT)架構,主體僅 80 億(8B)參數。相較於多數業界旗艦模型動輒數百億甚至千億參數的規模,ERNIE-Image 以相對精巧的體積達成「在開源權重類文生圖模型中的最先進水準」。推薦輸出解析度包含 1024×1024、848×1264、1264×848、768×1376、896×1200、1376×768、1200×896 等多種直橫比,並建議以 bfloat16 精度運行,在 24GB 顯存的單張消費級 GPU 上即可完整跑完推理。
1/ we are excited to release ERNIE-Image, after 3 months of building from scratch.
an 8b text-to-image model from baidu's ernie image team. honestly, we didn't expect an 8b dit to get this far, this fast.
strong instruction following. best-in-class text rendering. runs on a 24gb…— Jiaxiang Liu (@lclbrew) April 14, 2026
此次開源包含兩個版本:一般版 ERNIE-Image(SFT)預設採 50 步推理,適合追求最高品質的場合;加速版 ERNIE-Image-Turbo 則透過 DMD(Distribution Matching Distillation)與強化學習(RL)進行蒸餾優化,將推理步數壓縮到僅 8 步,對需要大量批次出圖或希望降低本地運算時間的使用者特別友善。
Prompt Enhancer:自動把簡短描述擴寫成長提示
ERNIE-Image 另一個值得關注的設計是內建的 Prompt Enhancer。此模組基於 Ministral 3B 架構、約 30 億參數的輕量語言模型,可以將使用者輸入的簡短關鍵字自動擴寫為更完整、具層次的描述語,藉此在不強迫使用者寫長 prompt 的情況下拉高成品品質。
在官方範例程式碼中,只要在 pipe() 呼叫加上 use_pe=True 即可啟用 Prompt Enhancer,整體工作流對使用 Hugging Face diffusers 的開發者而言幾乎零學習成本。
基準測試:多項指標領先 Z-Image 與 GPT Image 1
百度在模型卡中公布了多項公開基準測試成績(皆啟用 Prompt Enhancer 的結果):
- GenEval Overall:0.8856
- OneIG-EN Overall:0.5750
- OneIG-ZH Overall:0.5543
- LongTextBench Avg:0.9733
其中在英文 prompt 導向的 OneIG-Bench 測試中,ERNIE-Image 的綜合表現超越了同為開源陣營的 Z-Image 以及 OpenAI 的 GPT Image 1(High 設定)。對於長文字渲染極為考驗模型能力的 LongTextBench,ERNIE-Image 也交出接近滿分的 0.9733 成績,顯示其在海報、漫畫、簡報投影片、資訊圖表等「文字密集型」應用場景擁有明顯優勢。
擅長多語文字渲染
ERNIE-Image 的官方宣傳重點之一是「高密度文字繪圖能力」。模型在單張圖中穩定寫出英文、中文、以及多語標題與段落,對製作雙語海報、社群貼文、菜單、漫畫分鏡等場景非常有利。
生態整合:Hugging Face 直接試玩、ComfyUI 原生支援
百度此次除了釋出模型權重與範例程式碼之外,也同步上線了 Hugging Face Space 的線上 Demo,使用者無需本地部署即可快速試玩 ERNIE-Image-Turbo 的生成效果。對偏好本地工作流的進階使用者,模型亦相容主流的開源圖形界面 ComfyUI,可直接載入權重搭配自訂節點進行工作流編排。
ERNIE-Image 開源頁面
開源策略的延續:從語言到影像,百度全面卡位
過去一年百度陸續開源了文心系列大語言模型與語音合成模型,此次將旗艦等級的文生圖模型也納入 Apache 2.0 開源範圍,延續了其在 2024 至 2025 年間對基礎模型採取「開源+付費 API 雙軌」的策略。對於企業使用者而言,Apache 2.0 授權意味著可商用、可修改、可分發,無需支付額外授權費用;這在當前生成式 AI 相關智慧財產爭議頻傳的氛圍下,對下游應用開發者是相當實際的利多。
整體來看,ERNIE-Image 以 8B 相對小型的參數規模、24GB 消費級顯存門檻、以及在文字渲染與長文指令遵循上的頂尖表現,為 2026 年開源文生圖領域投下一顆重磅砲彈。隨著 Stable Diffusion 後繼者之爭從歐美擴展至中國大廠,使用者可選擇的高品質本地模型將越來越多,而 ERNIE-Image 無疑將成為海報設計、漫畫分鏡、資訊圖表等應用的優質免費開源選擇之一。




