以往頂級審美的 AI 圖像生成領域長期由閉源模型主導,從 Midjourney 、ChatGPT 到 Nano Banana….,如果想要擁有頂級品質的 AI 圖像,幾乎都只能靠大型廠商的雲端閉源模型生成能力。近日 Ideogram 打破了這道限制:發表旗下首款開放權重模型 Ideogram 4.0,將 93 億參數的設計級圖像生成基礎模型完整公開,權重放在 Hugging Face,推論程式碼以 Apache 2.0 授權釋出在 GitHub。這不是某個既有模型的微調版本。Ideogram 強調 4.0 是「從零開始訓練的基礎模型」(trained from scratch),架構、訓練資料、文字編碼器全部自行設計。
Ideogram 是誰?Google Imagen 核心團隊出走創業
Ideogram AI 於 2022 年在加拿大多倫多創立,創辦團隊共 7 人,其中 4 位是 Google 影像生成模型 Imagen 論文的共同作者。核心人物包括:
- Mohammad Norouzi(CEO):多倫多大學電腦科學博士,就讀期間獲得 Google 機器學習博士獎學金,前 Google Brain 高級研究科學家,Imagen 論文共同第一作者
- Jonathan Ho:聯合創辦人,前 Google Brain 研究員,擴散模型奠基論文《Denoising Diffusion Probabilistic Models》的作者,這篇論文是整個擴散模型浪潮的理論起點
- William Chan:聯合創辦人,前 Google Brain 研究員
- Chitwan Saharia:聯合創辦人,前 Google Brain 研究員,Imagen 論文共同作者
這支團隊的技術血統直接來自 Imagen,而 Imagen 正是 Google 在文字生成圖像領域的核心計畫。從 Google Brain 集體出走創業,某種程度上也說明了這批研究者對「開源」與「獨立發展」的信念。
資金方面,Ideogram 在 2023 年 8 月成立時即完成由 a16z 與 Index Ventures 領投的 1,650 萬美元(約 NT$5.4 億)種子輪融資;2024 年 2 月再獲 8,000 萬美元(約 NT$26 億)A 輪融資。截至 2025 年,團隊規模約 49 人,年度經常性收入(ARR)約 700 萬美元(約 NT$2,275 萬)。
以不到 50 人的團隊做出 Design Arena 開放模型第一名、排版盲測打敗所有競爭者的成績,Ideogram 的人均產出效率在 AI 圖像生成領域堪稱頂尖。
模型架構:全單流 Diffusion Transformer
Ideogram 4.0 採用 全單流 Diffusion Transformer(DiT)架構,34 層,93 億參數。所謂「全單流」,指的是文字 token 與圖像潛在 token 被串接成同一個序列,通過同一組 Transformer 層處理,每個注意力層同時看到兩種模態。這與部分模型將文字和圖像分成兩個分支再對齊的做法不同,理論上能發展出更深度的跨模態表徵。
架構細節:
- 文字編碼器:Qwen3-VL-8B-Instruct(視覺語言模型,僅用文字模式),從 13 個中間層提取隱藏狀態串接,提供從表層 token 理解到深層構圖推理的多尺度語義特徵
- 解碼器:凍結的 KL VAE,8× 空間壓縮,128 潛在通道
- 取樣器:Euler 流匹配(flow matching),非對稱 CFG(無條件 pass 完全丟棄文字 token)
- 解析度:原生最高 2048 × 2048 像素,支援 256 到 2048 之間以 16 為倍數的任意邊長,最長寬比可達 6:1
- 推理預設:V4_TURBO_12、V4_DEFAULT_20、V4_QUALITY_48(品質尾端在 t≈0 時降低引導強度)
只有 93 億參數的 DiT 本體是訓練過的,文字編碼器和 VAE 都保持凍結。訓練與推論共用同一套 JSON 提示詞格式,系統會在生成前驗證輸入的 JSON 結構是否合規,不合規的提示詞會被直接拒絕。
結構化 JSON 提示詞:不只是打字描述
這是 Ideogram 4.0 最核心的差異化功能。傳統圖像模型只能接受自然語言描述,使用者很難精確控制每個元素的位置和樣式。
Ideogram 4.0 改用 結構化 JSON 作為提示詞格式,允許定義:
- 邊界框(Bounding boxes):以 0-1000 正規化座標指定每個物件的位置和大小(原點左上角)
- 色彩盤:每張圖最多 16 個 hex 色彩,每個元素最多 5 個
- 文字元素:攜帶字面字串和樣式描述,支援多字體海報設計
- 背景描述、物件描述、風格設定:各自獨立欄位
這套系統的意義在於:訓練與推論使用完全相同的格式,模型從一開始就學會「根據結構化指令排列元素」,而不是試圖從一段模糊的文字描述中猜測佈局。對於海報、廣告、社群圖、品牌素材等需要精準排版的場景,這種控制力是自然語言提示詞無法比擬的。
基準測試成績:開放模型之王
Ideogram 4.0 在多個第三方基準測試中交出了亮眼成績:
- Design Arena:在所有開放權重模型中排名第一,整體僅落後 OpenAI 和 Google 的閉源模型。
- ContraLabs 排版盲測:十位頂尖設計師評選,Ideogram 4.0 以 47.9% 的首選率勝出,大幅領先 Gemini 3.1 Flash Image Preview(30.0%)、FLUX.2 [max](15.5%)和 Grok Imagine 1.0(15.0%)。在「你會在實際客戶工作中使用嗎?」這個問題上,設計師給出 3.55/5 的評分,同樣居首。
- X-Omni 英文 OCR:文字渲染準確度達 0.97 分。
- 文字渲染跨模型比較:在 9.3B 參數量級中,文字渲染表現超越 Qwen-Image(20B)、FLUX.2 dev(32B)、甚至混元 HunyuanImage 3.0(80B MoE),以更少參數達到更好效果。
- Text-to-Image Arena:品質模式排名第一,整體排名第九。
The Decoder 的獨立測試指出,Ideogram 4.0 在其基準提示詞中「輕鬆超越 Midjourney v8」,與 FLUX 打平,但落後 GPT-Image-2、Nano Banana Pro 和 Luma Uni-1.1。
開源細節:權重、授權與部署門檻
Ideogram 4.0 的開放策略分為兩層:
- 推論程式碼:Apache 2.0 授權,完全開源,可自由使用和修改
- 模型權重:Ideogram 4 Non-Commercial 協議,可在 Hugging Face 下載(需同意條款),非商業用途免費,商業用途需另行洽談授權
權重提供兩種量化版本:
- NF4 版本:可在單張 24GB VRAM 的顯示卡上運行(如 RTX 4090),僅支援 CUDA
- FP8 版本:支援更廣泛的硬體平台
這意味著擁有消費級高階顯示卡的創作者,可以在本地完全掌控這款模型。不需要依賴雲端服務,不需要將資料傳到外部伺服器,還可以根據自己的品牌風格進行微調(fine-tuning)。對於重視隱私和資料主權的企業和個人創作者而言,這是一個相當有吸引力的選項。
Ideogram 4.0 Github 頁面
平台整合:不只是模型,是一個生態系
Ideogram 4.0 並非只有一個孤零零的模型檔案。Ideogram 同步開放了多個平台的使用管道:
- 官方網站:ideogram.ai,提供網頁版生成介面
- API:developer.ideogram.ai,三種品質層級(Turbo $0.03/張、Standard $0.06/張、Quality $0.09/張)
- 訂閱方案:Basic $8/月(400 張優先生成)、Plus $20/月(1,000 張)、Pro $60/月(3,000 張),所有方案都包含無限慢速生成
- ComfyUI:已支援完整工作流程,需要 32GB VRAM 運行 FP8 模型
- 合作平台:Hugging Face、fal、Runware、Magnific、Krea AI、Leonardo AI、Picsart、Cloudflare、Replicate、Gamma、Flora AI、Kittl 等十多個平台同時上線
ComfyUI 的整合尤其值得注意。社群已經建立了完整的工作流程,從模型下載、節點配置到生成範例都有詳細教學,這大幅降低了本地部署的技術門檻。我自己也成功在本地端完成部屬並生成圖片,水準真的非常不錯,圖片大小也可由 1024 起跳:
產品功能:設計工作流不只生成
除了模型本身,Ideogram 的產品端也同步更新了多項設計導向功能:
- 提示詞編輯(Prompt Edit):在已生成的圖像上直接修改特定區域
- 原生透明背景:直接輸出 PNG 透明圖層
- 分層文字:文字元素可獨立編輯
- 擴展與重新構圖(Extend / Reframe):向外擴展畫面或改變比例
- 放大(Upscale):提升解析度
- 混搭(Remix):基於現有圖像重新生成變體
- 魔術填充(Magic Fill):局部區域填補
- MCP 整合:支援 Agent 工作流程
可編輯文字和圖層功能即將推出。
對產業的意義:開源追上前線
Ideogram 4.0 的發布代表一個重要訊號:開放權重模型在設計級圖像生成領域,已經逼近閉源前線。在 Design Arena 上,Ideogram 4.0 僅落後 OpenAI 和 Google 的閉源模型,而在排版和文字渲染這兩個專業設計師最關心的維度上,它甚至超越了所有競爭者。
這種策略讓人想起 Meta 在 LLM 領域的做法:用開放權重換取社群生態,用生態系鞏固技術地位。Ideogram 選擇在圖像生成領域走同樣的路,而且是在一個仍以閉源為主流的市場中。對於擔心資料隱私、需要品牌客製化微調、或者單純想在本地運行的使用者而言,這是一個前所未有的選項。
當然,商業授權仍然是門檻。模型權重的 Non-Commercial 協議意味著企業若要將其整合進產品或服務中,需要另外付費取得商業授權。這是開源與「免費使用」之間的界線,也是 Ideogram 的商業模式所在。





