Apple 分享 M5 vs M4 本地運行 LLM 的速度實測差距！M5 提升最高達 4.1 倍

要在本地用 LLM 的人，選 M5 就對了

隨著 M5 推出，對於有打算購買新 Mac 且想在本地運行 LLM 語言模型的 Apple 用戶，一定會思考，到底要選目前比較便宜的 M4，還是最新 M5？兩者運行 LLM 有差很多嗎？近日 Apple 在部落格刊登的新文章就能為你解答，實測顯示，M5 本地運行 LLM 的速度遠高於 M4，最大差距還來到 4.1 倍，意味著不用猶豫了，你應該選 M5。

Apple 分享 M5 vs M4 本地運行 LLM 的速度實測差距！M5 提升最高達 4.1 倍

在文章一開始，Apple 再度強調 MLX 的優勢。MLX 是專為 Apple Silicon 優化的開源陣列運算框架，具備高效、彈性與通用性。核心優勢包含：

共享記憶體架構（Unified Memory）：CPU 與 GPU 可共享記憶體，運算時不需手動搬移資料。
類 NumPy API：語法熟悉、彈性且易上手。
高階神經網路與最佳化工具：內建自動微分與計算圖最佳化。

而在 Mac 上安裝 MLX 也很簡單，就透過 pip install mlx 指令即可，接著即可利用 MLX LM 來運行大多數 Hugging Face 提供的 LLM。

此外，M5 晶片的新 GPU 神經加速器，也大幅提升推理運算效能。為了展示差距，Apple 比較多個開源模型產生第一個 token 所需的時間，包括：

Qwen 1.7B、8B（BF16 精度）
Qwen 8B、14B（4-bit 量化）
Mixture of Experts（MoE）：Qwen 30B（3B active / 4-bit）、GPT OSS 20B（MXFP4 精度）

從下圖可以看到，M5 在所有模型上皆有 3.3×～4.1× 的效能提升。TTFT 屬於高度計算密集任務，因此 M5 神經加速器可帶來顯著的提升：

這是各模型的 TTFT 實際秒數差異，前面為 M4，後面則是 M5（越低越好）：

Qwen3-1.7B：3.79s → 1.06s
Qwen3-8B：16.92s → 4.67s
Qwen3-8B 4bit：18.6s → 4.69s
Qwen3-14B 4bit：35.15s → 8.66s
GPT-OSS-20B：9.54s → 2.87s
Qwen3-30B MoE：9.37s → 2.66s

以下是 M5 的測試成績：

模型	TTFT 加速比	生成加速比	記憶體（GB）
Qwen3-1.7B-MLX-bf16	3.57	1.27	4.40
Qwen3-8B-MLX-bf16	3.62	1.24	17.46
Qwen3-8B-MLX-4bit	3.97	1.24	5.61
Qwen3-14B-MLX-4bit	4.06	1.19	9.16
gpt-oss-20b-MXFP4-Q4	3.33	1.24	12.08
Qwen3-30B-A3B-MLX-4bit	3.52	1.25	17.31

由此可見，M5 是目前在本地運行 LLM 大型語言模型的最佳 Mac 平台，多了 GPU 神經加速器讓推論速度大幅提升。

這篇文章中還有展示 M5 其他方面的測試，有興趣的人可以至 Apple 原文閱讀。

Tags: ai Apple LLM M4 M5 人工智慧蘋果

Apple 分享 M5 vs M4 本地運行 LLM 的速度實測差距！M5 提升最高達 4.1 倍

要在本地用 LLM 的人，選 M5 就對了

您也許會喜歡：

網站搜尋

廣告