Google 推出文字生成速度提升達 4 倍的 DiffusionGemma 26B 新模型，18GB VRAM 就能運行

Google 最近新模型真的越來越多

Google 最近可說很頻繁的在推出新模型，繼昨日的專為即時語音翻譯打造的 Gemini 3.5 Live Translate 後，稍早又釋出一款實驗性開放模型 DiffusionGemma 26B，跟原本的 Gemma 4 26B 相比，不是變得更聰明，而是透過完全不同的文字生成方式，把本地推論速度拉高，讓用戶能夠更快獲得結果。

根據 Google 官方說法，DiffusionGemma 在專用 GPU 上文字生成速度最高可達 4 倍，單張 NVIDIA H100 可超過 1000 tokens/s，RTX 5090 也能達到 700+ tokens/s。

Google 推出 DiffusionGemma 26B：文字生成最高 4 倍、量化後 18GB VRAM 可跑，但定位是高速實驗模型，不是取代 Gemma 4

這次 Google 推出的 DiffusionGemma 是一款 26B Mixture of Experts（MoE）模型，推論時只啟用 3.8B 參數，採 Apache 2.0 授權釋出。比較吸引人的一點是，Google 表示這款模型量化後 18GB VRAM 就能運行。

DiffusionGemma 跟一般 Gemma 最大差異在，它不是傳統大型語言模型常見的 autoregressive 生成方式。一般 Gemma 4 或大多數 LLM，比較像打字機，一次產生一個 token，前一個 token 出來之後，才接著算下一個。這種方式雖然品質穩定，但在本地使用時，GPU 很容易卡在記憶體頻寬瓶頸，導致算力沒有完全被吃滿。

DiffusionGemma 則比較像是把文字生成改成「文字版擴散模型」。

它會先建立一個 256 tokens 的文字畫布，從隨機 placeholder tokens 開始，再透過多輪去噪與修正，讓整段文字逐步收斂成最後輸出。由於每次 forward pass 都可以平行處理一整段文字，所有 token 也能同時參考彼此，因此它支援雙向注意力與自我修正。

這種特性讓 DiffusionGemma 更適合即時編輯、程式碼補洞、非線性文字結構生成，甚至像 Sudoku 這類需要全局約束的任務。

不過要注意的是，DiffusionGemma 不會取代標準的 Gemma 4 模型，Google 也提到，標準的 Gemma 4 依舊是高品質正式輸出的建議選擇。DiffusionGemma 的定位是「回應快、延遲低」，但不是每一項能力都比 Gemma 4 更強。

測試數據部分，下方是 Google 分享的圖表來看，DiffusionGemma 的速度確實快不少。不過能力分數就不是 DiffusionGemma 全面領先了。

Output Speed：DiffusionGemma 26B A4B 達到 1107 tok/s，Gemma 4 26B A4B 則是 303 tok/s，約為 3.65 倍，接近官方說的 4 倍。
MMMLU 多語言問答測試：DiffusionGemma 是 81.5%，Gemma 4 是 86.3%。
MMLU Pro 研究生等級知識測試：DiffusionGemma 是 77.6%，Gemma 4 是 82.6%。
AIME 2026 數學測試：DiffusionGemma 是 69.1%，Gemma 4 達到 88.3%。
LiveCodeBench v6 程式競賽題：DiffusionGemma 為 69.1%，Gemma 4 為 77.1%。
GPQA Diamond 科學知識測試：DiffusionGemma 為 73.2%，Gemma 4 為 82.3%。
t2-bench 代理與工具使用測試：DiffusionGemma 為 56.2%，Gemma 4 則是 68.2%。

Google 已經把 DiffusionGemma 權重放到 Hugging Face，模型名稱是 google/diffusiongemma-26B-A4B-it。開發者可以透過 Hugging Face Transformers、vLLM、SGLang、MLX 等工具測試。

Tags: ai DiffusionGemma DiffusionGemma 26B 人工智慧

Google 推出文字生成速度提升達 4 倍的 DiffusionGemma 26B 新模型，18GB VRAM 就能運行

Google 最近新模型真的越來越多

您也許會喜歡：

網站搜尋

廣告