最新版 Ollama 整合 Apple MLX 框架：Mac 本地 AI 推論速度飆升兩倍

長期以來，在 Mac 上使用 Ollama 執行大型語言模型（LLM）時一直面臨一個根本性的瓶頸：統一記憶體（Unified Memory）的頻寬優勢，始終無法被充分發揮。傳統的 llama.cpp 搭配 Metal 加速，雖然能在蘋果晶片上運行模型，但因為沒有針對 Appke MLX 架構進行優化，所以表現一直並不理想。近日，Ollama 正式宣布整合 Apple MLX 框架，透過直接針對統一記憶體架構最佳化的設計，為 Apple Silicon 上的本地 AI 推論帶來質的飛躍。

最新版 Ollama 整合 Apple MLX 框架：Mac 本地 AI 推論速度飆升兩倍

Ollama 在官方部落格上表示，新版 Ollama 0.19 採用 MLX 統一記憶體架構，直接解決了過去傳統推論引擎必須頻繁在 CPU 與 GPU 之間複製資料的效能損耗問題。根據多家獨立測試的數據，MLX 的速度優勢相當顯著：在 M4 Max 晶片上，MLX 的推論速度可達每秒 60 至 70 個 token，而傳統 Ollama（llama.cpp 搭配 Metal）約為 35 個 token/s，差距接近兩倍；若單看提示詞處理（prefill）階段，差距更擴大至五倍。

M5 晶片上 Qwen3.5-35B 的效能突破

根據 Ollama 官方公布的資料，配備 int4 量化格式的 Qwen3.5-35B-A3B 模型，在 M5 晶片上可達到每秒 1851 個 token 的前饋速度（prefill rate），以及每秒 134 個 token 的解碼速度（decoding speed）。這意味著，即便是一款 350 億參數規模的大型模型，如今在蘋果的高階硬體上已能實現流暢的即時互動，不再只是理論上可行。

不過完整的 35B 模型需要大量記憶體支援，根據測試，想要充分發揮這套新架構的效能，使用者需要一台配備 32GB 以上統一記憶體的 Mac 裝置。

Chip	Qwen3.5-35B-A3B Q4 via Ollama	Qwen3.5-35B-A3B Q4 via MLX	MLX advantage
M1 Pro (16GB)	~15-18 tok/s	~25-35 tok/s	~1.5-2x
M3 Pro (18GB)	~18-22 tok/s	~35-45 tok/s	~1.8-2x
M4 Pro (24GB)	~25-30 tok/s	~45-55 tok/s	~1.8x
M4 Max (64GB)	~30-38 tok/s	~60-75 tok/s	~2x
M3 Ultra (192GB)	~35-45 tok/s	~70-90 tok/s	~2x

MLX 為何更快：統一記憶體架構的深度最佳化

要理解 MLX 的速度優勢，必須先了解傳統推論引擎在 Apple Silicon 上面臨的結構性問題。過去的 llama.cpp 搭配 Metal 方案，模型權重與計算過程中產生的資料，仍需要在 CPU 記憶體空間與 GPU 記憶體空間之間來回複製。這道資料複製的程序，在統一記憶體架構上並不會消失，反而因為蘋果晶片特殊的記憶體管理設計而產生額外開銷。

MLX 的核心突破，在於它從底層就以蘋果統一記憶體架構為設計前提。MLX 直接在統一記憶體中完成模型權重的儲存與運算，不再區分傳統意義上的 CPU 記憶體與 GPU 記憶體，徹底消除了跨空間複製的效能損耗4]。這種從硬體特性出發的原生最佳化，正是 MLX 能夠在相同硬體上展現壓倒性速度優勢的根本原因。

Ollama 0.19 這次更新的設計方向，不僅是效能提升，更瞄準了開發者工作流程中的實際需求。新版專為編碼代理（coding agent）場景進行優化，支援 Claude Code、OpenClaw 等主流開發工具。

快取與檢查點技術：對話體驗的全面改善

除了純粹的推論速度之外，Ollama 0.19 也在記憶體管理機制上做了重要改進。新版的快取（Caching）機制，允許在多輪對話之間重複使用已計算的內容，大幅降低重複處理相同提示詞的資源消耗。此外，「智慧檢查點」（smart checkpointing）技術能夠在提示詞處理的關鍵環節減少冗餘計算，進一步縮短回應延遲。

這些改進的綜合效果，意味著使用者在實際操作中將感受到更流暢的對話體驗，不只回應速度更快，模型在處理漫長的對話上下文時，也能維持更穩定的效能表現，不會因為上下文累積而出現明顯的延遲爬升。

對本地 AI 推論生態的影響與未來展望

Ollama 整合 MLX 的這一役，對於整個本地 AI 推論生態具有深遠的指標意義。在此之前，開發者與研究者若想在蘋果硬體上運行大型模型，往往需要在「速度」與「便利性」之間艱難取捨：傳統方案速度有限，而完整的最佳化方案往往需要繁瑣的手動編譯與參數調校。Ollama 0.19 的推出，在某種程度上降低了這道技術門檻，讓更多使用者能夠在蘋果生態系中直接受益於高效能的本地推論。

不過，此技術只是增加了模型的前饋與解碼速度，如果你要使用參數更大的模型，還是需要搭配規格更高、記憶體更大的 Mac 機型，這一點並不會因為 MLX 的進步有所差異，就如同 Google 剛推出的記憶體壓縮技術，並不會讓記憶體容量較小的機型能夠順暢使用更大參數的模型（但多少會有點改善），有興趣的朋友可以自己試試。

Tags: Apple MAC MLX Ollama

最新版 Ollama 整合 Apple MLX 框架：Mac 本地 AI 推論速度飆升兩倍

您也許會喜歡：

網站搜尋

廣告