Google 最近可說很頻繁的在推出新模型,繼昨日的專為即時語音翻譯打造的 Gemini 3.5 Live Translate 後,稍早又釋出一款實驗性開放模型 DiffusionGemma 26B,跟原本的 Gemma 4 26B 相比,不是變得更聰明,而是透過完全不同的文字生成方式,把本地推論速度拉高,讓用戶能夠更快獲得結果。
根據 Google 官方說法,DiffusionGemma 在專用 GPU 上文字生成速度最高可達 4 倍,單張 NVIDIA H100 可超過 1000 tokens/s,RTX 5090 也能達到 700+ tokens/s。
Google 推出 DiffusionGemma 26B:文字生成最高 4 倍、量化後 18GB VRAM 可跑,但定位是高速實驗模型,不是取代 Gemma 4
這次 Google 推出的 DiffusionGemma 是一款 26B Mixture of Experts(MoE)模型,推論時只啟用 3.8B 參數,採 Apache 2.0 授權釋出。比較吸引人的一點是,Google 表示這款模型量化後 18GB VRAM 就能運行。
DiffusionGemma 跟一般 Gemma 最大差異在,它不是傳統大型語言模型常見的 autoregressive 生成方式。一般 Gemma 4 或大多數 LLM,比較像打字機,一次產生一個 token,前一個 token 出來之後,才接著算下一個。這種方式雖然品質穩定,但在本地使用時,GPU 很容易卡在記憶體頻寬瓶頸,導致算力沒有完全被吃滿。
DiffusionGemma 則比較像是把文字生成改成「文字版擴散模型」。
它會先建立一個 256 tokens 的文字畫布,從隨機 placeholder tokens 開始,再透過多輪去噪與修正,讓整段文字逐步收斂成最後輸出。由於每次 forward pass 都可以平行處理一整段文字,所有 token 也能同時參考彼此,因此它支援雙向注意力與自我修正。
這種特性讓 DiffusionGemma 更適合即時編輯、程式碼補洞、非線性文字結構生成,甚至像 Sudoku 這類需要全局約束的任務。
不過要注意的是,DiffusionGemma 不會取代標準的 Gemma 4 模型,Google 也提到,標準的 Gemma 4 依舊是高品質正式輸出的建議選擇。DiffusionGemma 的定位是「回應快、延遲低」,但不是每一項能力都比 Gemma 4 更強。
測試數據部分,下方是 Google 分享的圖表來看,DiffusionGemma 的速度確實快不少。不過能力分數就不是 DiffusionGemma 全面領先了。
- Output Speed:DiffusionGemma 26B A4B 達到 1107 tok/s,Gemma 4 26B A4B 則是 303 tok/s,約為 3.65 倍,接近官方說的 4 倍。
- MMMLU 多語言問答測試:DiffusionGemma 是 81.5%,Gemma 4 是 86.3%。
- MMLU Pro 研究生等級知識測試:DiffusionGemma 是 77.6%,Gemma 4 是 82.6%。
- AIME 2026 數學測試:DiffusionGemma 是 69.1%,Gemma 4 達到 88.3%。
- LiveCodeBench v6 程式競賽題:DiffusionGemma 為 69.1%,Gemma 4 為 77.1%。
- GPQA Diamond 科學知識測試:DiffusionGemma 為 73.2%,Gemma 4 為 82.3%。
- t2-bench 代理與工具使用測試:DiffusionGemma 為 56.2%,Gemma 4 則是 68.2%。
Google 已經把 DiffusionGemma 權重放到 Hugging Face,模型名稱是 google/diffusiongemma-26B-A4B-it。開發者可以透過 Hugging Face Transformers、vLLM、SGLang、MLX 等工具測試。



