最近這一年,越來越多人會使用 AI 代理工具,像是 OpenClaw、Hermes Agent 等,而很多人一定會想要接本地模型來省錢,稍早 Google 就推出一款 16GB VRAM 就跑得動的 Gemma 4 12B 全新模型,而且主打 AI 代理應用,並支援文字、影像與音訊輸入,大家可以試試看。

Google 推出 Gemma 4 12B:16GB 記憶體可本地執行,支援影像、音訊與 AI 代理
Google 表示,Gemma 4 12B 是一款能把「具備 AI 代理能力的多模態智慧」直接帶到筆電上的模型,採用 120 億參數,讓 VRAM 沒那麼大的硬體也能輕鬆運行,意味著 16GB VRAM 或統一記憶體的消費級筆電上就能本地執行。
架構方面,Gemma 4 12B 採用整合式多模態設計,不需要額外的影像或音訊處理模組。
傳統多模態模型通常會先透過專門的影像或音訊模組,把圖片、聲音轉換成 AI 能理解的格式,再交給語言模型處理。Google 這次則省略了中間步驟,讓影像與音訊資料能更直接進入模型核心運算,因此有助於降低延遲、減少記憶體占用,並提升執行效率。
根據 Google Developers 技術文件,Gemma 4 12B 的影像模組僅使用約 3,500 萬參數的輕量化設計,取代過去中型 Gemma 4 採用的 27 層視覺 Transformer;音訊部分則取消獨立音訊編碼器,直接將原始音訊切分後轉換為模型可理解的資料格式。
在 Gemma 家族中,Gemma 4 12B 也是第一款支援原生音訊輸入的中型模型,可處理文字與圖片,12B 模型支援 256K 上下文視窗:
Google 官方表示 Gemma 4 12B 在標準 Benchmark 上接近更大的 26B MoE 模型,但總記憶體占用不到一半。
下方是 Gemma 4 12B 效能測試數據:
- GPQA Diamond 為 78.8 %
- BBEH 為 53 %
- MMLU Pro 為 77.2%
- LiveCodeBench 為 72.0%
- DocVQA 為 94.9 %
- InfoVQA 為 88.4 %
- MMMU Pro 為 69.1%
- MRCR v2 8 needle 128k average 則是 43.4 %
雖然 26B 整體還是比較強,但差距並沒有大到不同級距,這也是這次主打「效能接近 26B」的原因。
Gemma 4 12B 現在已經可以透過 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent App、LiteRT-LM CLI 等直接試用。模型權重則可從 Hugging Face 與 Kaggle 下載。
另外,Google 也釋出 Gemma Skills Repository,讓代理工具能更容易使用 Gemma 模型完成任務:


