Apple 這幾年一直在強調自家晶片的 AI 能力,尤其到了 M4 這一代,Apple 官方直接把 Neural Engine 稱為「Apple 最強大的神經網路引擎」,AI 算力最高可達 38 TOPS。正常來說,這顆神經引擎多半只能在背景替照片、影片、語音辨識和 Apple Intelligence 等功能加速,開發者也無法透過官方 API 像 GPU 一樣拿來進行完整的 AI 模型訓練。
不過最近有開發者透過逆向工程,成功繞過 Apple 對 M4 Neural Engine 的軟體限制,直接呼叫 Apple 未公開的私有 API,讓 ANE 能完整執行 AI 模型的推論與訓練流程,解鎖 15.8 TFLOPS 的浮點運算性能,讓神經網路引擎真正具備訓練 AI 模型的能力。

Apple M4 神經引擎被逆向解鎖,開發者證明它不只可以跑 AI 推論,也能訓練小模型
M4 是 Apple 於 2024 年發表的晶片,採用第二代 3nm 製程,內建最多 10 核 CPU、10 核 GPU,以及 16 核 Neural Engine。根據官方說法,M4 的 Neural Engine 最高可達 38 trillion operations per second,也就是每秒 38 TOPS,比 A11 Bionic 第一代 Neural Engine 快 60 倍。
Apple 當時展示的功能幾乎都是本機 AI 應用,像是 Live Captions 即時字幕、Visual Look Up 影像辨識、Final Cut Pro 一鍵去背 4K 影片,以及 StaffPad 即時產生樂譜,這些都屬於 AI 的「推論」。
近日一位國外開發者 @0x0SojalSec 在 X 分享,他基於 GitHub 上的 maderix/ANE 專案進一步研究,透過逆向工程成功突破 Apple 對 M4 Neural Engine(ANE)的軟體限制,讓 ANE 能完整執行 AI 模型訓練流程。
不需透過 Core ML、Metal 或 GPU,而是直接呼叫 Apple 未公開的私有 API,與 ANE 硬體互動。
他甚至完成了 Transformer 的完整訓練流程,包括 forward pass、backward pass、attention 等 Transformer 核心運算,並讓 M4 的 ANE 發揮約 15.8 TFLOPS 的 FP32 浮點運算性能,可用於 AI 模型訓練。
@0x0SojalSec 表示,這次解鎖 M4 的過程完全沒有寫入 NAND 快閃記憶體,因為那樣速度會比較慢。由於所有內容都寫入 RAM,因此速度非常快。
maderix/ANE 專案作者在 Substack Part 2 也特別提到,ANE 的最大優勢並非絕對運算速度,而是能源效率。
根據他在 M4 Mac mini 的測試,ANE 在 FP16 峰值運算時約可達 19 TFLOPS、功耗約 2.8W,換算能源效率約 6.6 TFLOPS/W。作者也指出,ANE 採用 hard power gating 設計,在閒置時可幾乎完全關閉供電,因此待機功耗幾乎為零:
圖片來源:Substack Part 2
不過要注意的是,這並不代表未來 Mac 就能直接拿來訓練大型 AI 模型。 GitHub README 指出,這項成果目前仍屬於研究性專案,不是可正式部署的框架,也不是 Core ML、MLX 或 llama.cpp 的替代品。
雖然目前已經能完成 AI 模型訓練,但 ANE 利用率僅約 5~9%,很多運算還是要交由 CPU 處理,因此距離取代 GPU 還有一段距離,現階段主要仍適合小型 AI 模型的研究用途。


