Apple 在 WWDC 2026 上正式為 Mac 開發者打開了一扇新的大門:在自家硬體上本地運行 AI 代理工作流程。由 MLX 團隊工程師 Angelos 親自示範的「Run local agentic AI on the Mac using MLX」議程,展示了如何在 Mac 上建立一套完全不需要雲端連線、不需要 API Key、只用本機硬體運算的 Agentic AI 流程。這段長約 13 分鐘的示範,從最基礎的 MLX 框架一路講到完整的 Agent 堆疊、三步驟快速建置本機 Agent,以及 M5 晶片神經加速器帶來的 4 倍提示詞處理加速。

從傳統對話到代理迴圈
Angelos 開場先比較了傳統 LLM 對話模式與 Agentic 模式的差異。在傳統模式中,使用者送出提示詞(Prompt)給語言模型,模型回傳回應,而後續需要執行指令、檢查檔案或修正錯誤的工作,全部落在使用者身上。
但在 Agent 模式中,流程完全不同:Agent 先與模型對話來決定下一步要做什麼,然後呼叫工具(Tools)來實際執行,可能是執行 Shell 指令、讀取檔案或呼叫 API,接著觀察工具回傳的結果,再回到模型判斷下一步。這個「使用者→Agent→模型→工具→Agent→模型……」的反覆循環,就是所謂的「代理迴圈」(Agentic Loop),它會持續運轉直到任務完成。
而在 Apple Silicon 上,整個迴圈都可以在本地端完全執行。這意味著你的資料永遠留在自己的機器上,AI 隨時隨地可用,而且沒有任何使用成本。
本地 Agentic AI 的四層堆疊
要讓這套流程運作,Apple 提出了四個層級的技術堆疊。從底層到上層分別是:
- MLX(底層):Apple 專為 Apple Silicon 打造的開源陣列框架,負責所有底層運算、Metal 加速與記憶體管理。
- MLX LM(模型層):提供載入、執行、量化與微調大型語言模型所需的一切功能,支援數千個 Hugging Face 模型,並同時提供 CLI 工具與 Python API。
- MLX LM Server(伺服器層):這是一個與 OpenAI API 相容的 HTTP 伺服器,將本地模型以標準 API 的形式暴露出來。支援結構化工具呼叫(Tool Calling)與逐步推理(Reasoning)模型,可直接替換任何雲端 LLM API。
- Agent(最上層):可以是任何支援 OpenAI Chat Completions 協定的框架或工具,包括 Xcode、OpenCode、PyAgent 或自訂腳本。
此外,這個堆疊並非 Apple 獨家,Ollama、LM Studio、vLLM 等熱門工具都已建立在 MLX 和 MLX LM 之上。如果你正在使用這些工具,可能已經在 MLX 上運行了。
MLX LM – GitHub Repository
不用 API、不用訂閱,三步驟在 Mac 上用本地端模型跑 AI Agent
Angelos 在議程中展示了從零到完整本地 Agent 工作流程只需要三個步驟,每一行指令都直接在終端機完成:
第一步:安裝 MLX LM
pip install mlx-lm
一個 pip install 就能取得所需的一切。
第二步:啟動伺服器
mlx_lm.server --model mlx-community/Qwen-3.5-4B-8bit
用支援工具呼叫的模型執行伺服器,建議先從小型模型(官方範例是 Qwen 5 4B 8bit 的小模型)開始測試設定。伺服器啟動後會載入模型,並在 localhost 上準備好接受請求。
第三步:將 Agent 指向本地伺服器
在多數 Agent 框架中,只要把 Base URL 設為本地伺服器位址(http://127.0.0.1:8080)就完成了。Agent 不知道也不在乎模型是在你的 Mac 上還是雲端執行。
以 OpenCode 為例,設定檔中定義一個本地 Provider,將 URL 設為 localhost、指定模型名稱,並告訴 OpenCode 所有操作都使用這個本地模型,就這樣,每次互動都會透過你的本地模型執行。
讓 Agent 更快的三大關鍵技術
本地運行 Agent 面臨三個主要挑戰,Apple 為每個挑戰都準備了對應的解決方案:
挑戰一:提示詞處理速度
在 Agent 工作流程中,每次模型收到工具輸出時,都必須先處理所有新的上下文,然後才能推理下一步。這個過程在代理迴圈中反覆發生,累積得很快,一個會話通常包含數十萬個 Token,而且大部分不是生成的。
Apple 的解法是 M5 晶片上的專用神經加速器(Neural Accelerators)。MLX 能直接運用這些加速器,讓 M5 上的矩陣乘法比 M4 快 4 倍。搭配 MLX 中專用的乘法與注意力核心(Kernel),這幾乎直接轉化為提示詞處理的 4 倍加速。更棒的是,開發者不需要任何特殊的參數或程式碼修改,MLX 會自動為可用硬體選擇最佳核心。
挑戰二:並行處理
實際使用中,Agent 很少單獨工作。常見模式是一個 Agent 產生多個子 Agent(Sub-agents),各自處理問題的不同部分,一個讀文件、一個搜尋程式碼、一個寫測試,全部同時進行。這代表多個請求會同時命中你的本地模型。
MLX LM Server 透過連續批次處理(Continuous Batching)來應對。它不是逐個處理請求,而是將傳入的請求動態分組為批次,然後在 GPU 上一起處理。新請求可以加入正在進行的批次,無需等待當前批次完成。結果是子 Agent 不會在佇列中停滯等待,全部同時獲得服務,讓整個工作流程持續推進。
挑戰三:模型大小與分散式推理
有時候,單一機器即使有 512 GB 記憶體也不夠,因為模型太大無法裝進記憶體。例如最新的 DeepSeek 模型擁有 1.6 兆個參數,僅權重就需要超過 800 GB 的記憶體。
MLX 的分散式支援讓你將模型分散到多台 Mac 上,透過 Thunderbolt 或乙太網路連接。從 macOS 26.2 開始,Thunderbolt RDMA(遠端直接記憶體存取)提供低延遲、高頻寬的通訊。實測顯示,使用 4 個節點時分散式推理效能可提升最多 3 倍。
現場示範:從 SwiftUI App 到 Xcode Bug 修復
Angelos 在議程中展示了兩個令人印象深刻的實際案例。
案例一:從零建立 SwiftUI 繪圖 App
從一個空白的 Xcode 專案開始,要求 Agent 為 iPad 建立一個繪圖 App。Agent 先查看當前目錄了解專案結構,制定實作計畫,然後開始寫程式。Agent 寫入檔案、建置 App,沿途修正遇到的任何錯誤,完全不需要手動複製或建置專案。只花了幾分鐘就產出第一個版本的 App,而且是一個功能完整的繪圖工具。Angelos 甚至現場要求 Agent 修改筆頭為圓形(Rounded End Caps),Agent 編輯程式碼並重新編譯,幾秒鐘內就完成了修改。
案例二:Xcode 中修復 Bug(
這個示範展示了本地 Agent 如何直接整合到 Xcode 開發環境中。步驟非常簡單:開啟 Xcode 設定 → Intelligence 分頁 → Add chat provider → 選擇 Locally Hosted Provider → 設定埠號(預設 8080)→ 完成。設定完成後,Xcode 就能與本地模型對話。Angelos 先在 App 中引入一個錯誤,然後請模型修復,幾秒鐘內模型就識別出錯誤位置、檢查相關程式碼,然後寫入修正。這一切都在本地端完成,程式碼從未離開 Mac。
這部影片內容相當豐富,我們也為大家做了詳細的翻譯,有興趣的朋友可以看看:
結語
WWDC 2026 的這個議程標誌著 Apple 對本地 AI Agent 的正式背書。從 MLX 框架到 MLX LM Server,再到與 Xcode 的直接整合,Apple 正在為 Mac 開發者打造一條從雲端回到本地的路徑,你的資料留在你的機器上,沒有每 Token 計費的壓力,而且開箱即用。正如 Angelos 在結尾所說:「今天展示的一切都是開源的,現在就可以取得。」有興趣的開發者,現在就能在自己的 Mac 上跑起完整的本地 AI Agent 工作流程。








