效果直逼 ChatGPT！Ideogram 4.0 正式開源：93 億參數圖像模型，支援本地部署與微調

以往頂級審美的 AI 圖像生成領域長期由閉源模型主導，從 Midjourney 、ChatGPT 到 Nano Banana….，如果想要擁有頂級品質的 AI 圖像，幾乎都只能靠大型廠商的雲端閉源模型生成能力。近日 Ideogram 打破了這道限制：發表旗下首款開放權重模型 Ideogram 4.0，將 93 億參數的設計級圖像生成基礎模型完整公開，權重放在 Hugging Face，推論程式碼以 Apache 2.0 授權釋出在 GitHub。這不是某個既有模型的微調版本。Ideogram 強調 4.0 是「從零開始訓練的基礎模型」（trained from scratch），架構、訓練資料、文字編碼器全部自行設計。

Ideogram 是誰？Google Imagen 核心團隊出走創業

Ideogram AI 於 2022 年在加拿大多倫多創立，創辦團隊共 7 人，其中 4 位是 Google 影像生成模型 Imagen 論文的共同作者。核心人物包括：

Mohammad Norouzi（CEO）：多倫多大學電腦科學博士，就讀期間獲得 Google 機器學習博士獎學金，前 Google Brain 高級研究科學家，Imagen 論文共同第一作者
Jonathan Ho：聯合創辦人，前 Google Brain 研究員，擴散模型奠基論文《Denoising Diffusion Probabilistic Models》的作者，這篇論文是整個擴散模型浪潮的理論起點
William Chan：聯合創辦人，前 Google Brain 研究員
Chitwan Saharia：聯合創辦人，前 Google Brain 研究員，Imagen 論文共同作者

這支團隊的技術血統直接來自 Imagen，而 Imagen 正是 Google 在文字生成圖像領域的核心計畫。從 Google Brain 集體出走創業，某種程度上也說明了這批研究者對「開源」與「獨立發展」的信念。

資金方面，Ideogram 在 2023 年 8 月成立時即完成由 a16z 與 Index Ventures 領投的 1,650 萬美元（約 NT$5.4 億）種子輪融資；2024 年 2 月再獲 8,000 萬美元（約 NT$26 億）A 輪融資。截至 2025 年，團隊規模約 49 人，年度經常性收入（ARR）約 700 萬美元（約 NT$2,275 萬）。

以不到 50 人的團隊做出 Design Arena 開放模型第一名、排版盲測打敗所有競爭者的成績，Ideogram 的人均產出效率在 AI 圖像生成領域堪稱頂尖。

模型架構：全單流 Diffusion Transformer

Ideogram 4.0 採用 全單流 Diffusion Transformer（DiT）架構，34 層，93 億參數。所謂「全單流」，指的是文字 token 與圖像潛在 token 被串接成同一個序列，通過同一組 Transformer 層處理，每個注意力層同時看到兩種模態。這與部分模型將文字和圖像分成兩個分支再對齊的做法不同，理論上能發展出更深度的跨模態表徵。

架構細節：

文字編碼器：Qwen3-VL-8B-Instruct（視覺語言模型，僅用文字模式），從 13 個中間層提取隱藏狀態串接，提供從表層 token 理解到深層構圖推理的多尺度語義特徵
解碼器：凍結的 KL VAE，8× 空間壓縮，128 潛在通道
取樣器：Euler 流匹配（flow matching），非對稱 CFG（無條件 pass 完全丟棄文字 token）
解析度：原生最高 2048 × 2048 像素，支援 256 到 2048 之間以 16 為倍數的任意邊長，最長寬比可達 6:1
推理預設：V4_TURBO_12、V4_DEFAULT_20、V4_QUALITY_48（品質尾端在 t≈0 時降低引導強度）

只有 93 億參數的 DiT 本體是訓練過的，文字編碼器和 VAE 都保持凍結。訓練與推論共用同一套 JSON 提示詞格式，系統會在生成前驗證輸入的 JSON 結構是否合規，不合規的提示詞會被直接拒絕。

結構化 JSON 提示詞：不只是打字描述

這是 Ideogram 4.0 最核心的差異化功能。傳統圖像模型只能接受自然語言描述，使用者很難精確控制每個元素的位置和樣式。

Ideogram 4.0 改用 結構化 JSON 作為提示詞格式，允許定義：

邊界框（Bounding boxes）：以 0-1000 正規化座標指定每個物件的位置和大小（原點左上角）
色彩盤：每張圖最多 16 個 hex 色彩，每個元素最多 5 個
文字元素：攜帶字面字串和樣式描述，支援多字體海報設計
背景描述、物件描述、風格設定：各自獨立欄位

這套系統的意義在於：訓練與推論使用完全相同的格式，模型從一開始就學會「根據結構化指令排列元素」，而不是試圖從一段模糊的文字描述中猜測佈局。對於海報、廣告、社群圖、品牌素材等需要精準排版的場景，這種控制力是自然語言提示詞無法比擬的。

基準測試成績：開放模型之王

Ideogram 4.0 在多個第三方基準測試中交出了亮眼成績：

Design Arena：在所有開放權重模型中排名第一，整體僅落後 OpenAI 和 Google 的閉源模型。
ContraLabs 排版盲測：十位頂尖設計師評選，Ideogram 4.0 以 47.9% 的首選率勝出，大幅領先 Gemini 3.1 Flash Image Preview（30.0%）、FLUX.2 [max]（15.5%）和 Grok Imagine 1.0（15.0%）。在「你會在實際客戶工作中使用嗎？」這個問題上，設計師給出 3.55/5 的評分，同樣居首。
X-Omni 英文 OCR：文字渲染準確度達 0.97 分。
文字渲染跨模型比較：在 9.3B 參數量級中，文字渲染表現超越 Qwen-Image（20B）、FLUX.2 dev（32B）、甚至混元 HunyuanImage 3.0（80B MoE），以更少參數達到更好效果。
Text-to-Image Arena：品質模式排名第一，整體排名第九。

The Decoder 的獨立測試指出，Ideogram 4.0 在其基準提示詞中「輕鬆超越 Midjourney v8」，與 FLUX 打平，但落後 GPT-Image-2、Nano Banana Pro 和 Luma Uni-1.1。

開源細節：權重、授權與部署門檻

Ideogram 4.0 的開放策略分為兩層：

推論程式碼：Apache 2.0 授權，完全開源，可自由使用和修改
模型權重：Ideogram 4 Non-Commercial 協議，可在 Hugging Face 下載（需同意條款），非商業用途免費，商業用途需另行洽談授權

權重提供兩種量化版本：

NF4 版本：可在單張 24GB VRAM 的顯示卡上運行（如 RTX 4090），僅支援 CUDA
FP8 版本：支援更廣泛的硬體平台

這意味著擁有消費級高階顯示卡的創作者，可以在本地完全掌控這款模型。不需要依賴雲端服務，不需要將資料傳到外部伺服器，還可以根據自己的品牌風格進行微調（fine-tuning）。對於重視隱私和資料主權的企業和個人創作者而言，這是一個相當有吸引力的選項。

Ideogram 4.0 Github 頁面

平台整合：不只是模型，是一個生態系

Ideogram 4.0 並非只有一個孤零零的模型檔案。Ideogram 同步開放了多個平台的使用管道：

官方網站：ideogram.ai，提供網頁版生成介面
API：developer.ideogram.ai，三種品質層級（Turbo $0.03/張、Standard $0.06/張、Quality $0.09/張）
訂閱方案：Basic $8/月（400 張優先生成）、Plus $20/月（1,000 張）、Pro $60/月（3,000 張），所有方案都包含無限慢速生成
ComfyUI：已支援完整工作流程，需要 32GB VRAM 運行 FP8 模型
合作平台：Hugging Face、fal、Runware、Magnific、Krea AI、Leonardo AI、Picsart、Cloudflare、Replicate、Gamma、Flora AI、Kittl 等十多個平台同時上線

ComfyUI 的整合尤其值得注意。社群已經建立了完整的工作流程，從模型下載、節點配置到生成範例都有詳細教學，這大幅降低了本地部署的技術門檻。我自己也成功在本地端完成部屬並生成圖片，水準真的非常不錯，圖片大小也可由 1024 起跳：

產品功能：設計工作流不只生成

除了模型本身，Ideogram 的產品端也同步更新了多項設計導向功能：

提示詞編輯（Prompt Edit）：在已生成的圖像上直接修改特定區域
原生透明背景：直接輸出 PNG 透明圖層
分層文字：文字元素可獨立編輯
擴展與重新構圖（Extend / Reframe）：向外擴展畫面或改變比例
放大（Upscale）：提升解析度
混搭（Remix）：基於現有圖像重新生成變體
魔術填充（Magic Fill）：局部區域填補
MCP 整合：支援 Agent 工作流程

可編輯文字和圖層功能即將推出。

對產業的意義：開源追上前線

Ideogram 4.0 的發布代表一個重要訊號：開放權重模型在設計級圖像生成領域，已經逼近閉源前線。在 Design Arena 上，Ideogram 4.0 僅落後 OpenAI 和 Google 的閉源模型，而在排版和文字渲染這兩個專業設計師最關心的維度上，它甚至超越了所有競爭者。

這種策略讓人想起 Meta 在 LLM 領域的做法：用開放權重換取社群生態，用生態系鞏固技術地位。Ideogram 選擇在圖像生成領域走同樣的路，而且是在一個仍以閉源為主流的市場中。對於擔心資料隱私、需要品牌客製化微調、或者單純想在本地運行的使用者而言，這是一個前所未有的選項。

當然，商業授權仍然是門檻。模型權重的 Non-Commercial 協議意味著企業若要將其整合進產品或服務中，需要另外付費取得商業授權。這是開源與「免費使用」之間的界線，也是 Ideogram 的商業模式所在。

Tags: ai AI 圖片生成 Github Ideogram Ideogram 4.0 開源

效果直逼 ChatGPT！Ideogram 4.0 正式開源：93 億參數圖像模型，支援本地部署與微調

您也許會喜歡：

網站搜尋

廣告