百度開源 8B 文生圖模型 ERNIE-Image：24GB 顯卡就能跑，文字渲染與海報排版領先同級

繼阿里巴巴、騰訊、MiniMax 等多家大廠相繼釋出可在消費級硬體運行的擴散模型之後，中國搜尋巨頭百度正式於 Hugging Face 上線旗下文心系列的最新成員 ERNIE-Image 與加速版 ERNIE-Image-Turbo。兩款模型皆採用 Apache License 2.0 授權，權重可自由下載商用，並僅需 24GB 顯存即可在消費級顯卡（如 RTX 4090）上本地生成高品質圖像，堪稱近期最值得關注的開源圖像生成模型之一。

單流 DiT 架構、8B 參數，規格精巧卻打敗更大模型

依據百度在 Hugging Face 上公布的模型卡內容，ERNIE-Image 採用單流 Diffusion Transformer（single-stream DiT）架構，主體僅 80 億（8B）參數。相較於多數業界旗艦模型動輒數百億甚至千億參數的規模，ERNIE-Image 以相對精巧的體積達成「在開源權重類文生圖模型中的最先進水準」。推薦輸出解析度包含 1024×1024、848×1264、1264×848、768×1376、896×1200、1376×768、1200×896 等多種直橫比，並建議以 bfloat16 精度運行，在 24GB 顯存的單張消費級 GPU 上即可完整跑完推理。

1/ we are excited to release ERNIE-Image, after 3 months of building from scratch.
an 8b text-to-image model from baidu's ernie image team. honestly, we didn't expect an 8b dit to get this far, this fast.
strong instruction following. best-in-class text rendering. runs on a 24gb…

— Jiaxiang Liu (@lclbrew) April 14, 2026

此次開源包含兩個版本：一般版 ERNIE-Image（SFT）預設採 50 步推理，適合追求最高品質的場合；加速版 ERNIE-Image-Turbo 則透過 DMD（Distribution Matching Distillation）與強化學習（RL）進行蒸餾優化，將推理步數壓縮到僅 8 步，對需要大量批次出圖或希望降低本地運算時間的使用者特別友善。

Prompt Enhancer：自動把簡短描述擴寫成長提示

ERNIE-Image 另一個值得關注的設計是內建的 Prompt Enhancer。此模組基於 Ministral 3B 架構、約 30 億參數的輕量語言模型，可以將使用者輸入的簡短關鍵字自動擴寫為更完整、具層次的描述語，藉此在不強迫使用者寫長 prompt 的情況下拉高成品品質。

在官方範例程式碼中，只要在 pipe() 呼叫加上 use_pe=True 即可啟用 Prompt Enhancer，整體工作流對使用 Hugging Face diffusers 的開發者而言幾乎零學習成本。

基準測試：多項指標領先 Z-Image 與 GPT Image 1

百度在模型卡中公布了多項公開基準測試成績（皆啟用 Prompt Enhancer 的結果）：

GenEval Overall：0.8856
OneIG-EN Overall：0.5750
OneIG-ZH Overall：0.5543
LongTextBench Avg：0.9733

其中在英文 prompt 導向的 OneIG-Bench 測試中，ERNIE-Image 的綜合表現超越了同為開源陣營的 Z-Image 以及 OpenAI 的 GPT Image 1（High 設定）。對於長文字渲染極為考驗模型能力的 LongTextBench，ERNIE-Image 也交出接近滿分的 0.9733 成績，顯示其在海報、漫畫、簡報投影片、資訊圖表等「文字密集型」應用場景擁有明顯優勢。

擅長多語文字渲染

ERNIE-Image 的官方宣傳重點之一是「高密度文字繪圖能力」。模型在單張圖中穩定寫出英文、中文、以及多語標題與段落，對製作雙語海報、社群貼文、菜單、漫畫分鏡等場景非常有利。

生態整合：Hugging Face 直接試玩、ComfyUI 原生支援

百度此次除了釋出模型權重與範例程式碼之外，也同步上線了 Hugging Face Space 的線上 Demo，使用者無需本地部署即可快速試玩 ERNIE-Image-Turbo 的生成效果。對偏好本地工作流的進階使用者，模型亦相容主流的開源圖形界面 ComfyUI，可直接載入權重搭配自訂節點進行工作流編排。

ERNIE-Image 開源頁面

開源策略的延續：從語言到影像，百度全面卡位

過去一年百度陸續開源了文心系列大語言模型與語音合成模型，此次將旗艦等級的文生圖模型也納入 Apache 2.0 開源範圍，延續了其在 2024 至 2025 年間對基礎模型採取「開源+付費 API 雙軌」的策略。對於企業使用者而言，Apache 2.0 授權意味著可商用、可修改、可分發，無需支付額外授權費用；這在當前生成式 AI 相關智慧財產爭議頻傳的氛圍下，對下游應用開發者是相當實際的利多。

整體來看，ERNIE-Image 以 8B 相對小型的參數規模、24GB 消費級顯存門檻、以及在文字渲染與長文指令遵循上的頂尖表現，為 2026 年開源文生圖領域投下一顆重磅砲彈。隨著 Stable Diffusion 後繼者之爭從歐美擴展至中國大廠，使用者可選擇的高品質本地模型將越來越多，而 ERNIE-Image 無疑將成為海報設計、漫畫分鏡、資訊圖表等應用的優質免費開源選擇之一。

Tags: ERNIE-Image HuggingFace 百度開源

百度開源 8B 文生圖模型 ERNIE-Image：24GB 顯卡就能跑，文字渲染與海報排版領先同級

您也許會喜歡：

網站搜尋

廣告