可能很多人不知道,自 2019 年以來 macOS 就再也不支援任何 NVIDIA 顯示卡(之前只支援 AMD 顯卡)。但現在由於 AI 與新創團隊,現在起 mac OS 終於可以透過 Thunderbolt 以外接顯卡的方式支援 NVIDIA 顯卡。國外硬體 YouTuber Alex Ziskind 在第一時間測試了目前最主流的 RTX 5060 Ti、5070 Ti 和 5090 三張 Blackwell 架構顯卡在 Mac Mini M4 Pro 上的實際表現,並給出了誠實的數據,包括那些「還不太行」的部分。

細說從頭:macOS 為何不支持 NVIDIA 顯示卡?
故事要從 2018 年說起。那一年,Apple 和 NVIDIA 鬧翻了。Apple 在 macOS Mojave 中徹底移除了 NVIDIA 的支援,一刀砍掉了 Mac 上的 CUDA 生態,因為他們決定全力押注自家的 Metal GPU 框架。從那之後整整七年,如果你想在 macOS 上使用 NVIDIA 的 GPU 運算能力,答案只有一個字:不行。

然後由破解大神 GeoHotz 創立的 Tiny Corp 做了一件瘋狂的事,他們從零開始撰寫了自己的 NVIDIA GPU 驅動程式,一個 macOS 核心擴充套件,叫做 TinyGPU。不需要 NVIDIA 官方驅動,不需要 Linux,你只要把 GPU 插進 Mac 的 Thunderbolt 埠,核准系統擴充,它就能運作。
Alex 在 Twitter 上看到 Tiny Corp 的公告時,興奮之情溢於言表。那則推文寫道:「如果你有 Thunderbolt 或 USB4 eGPU 和一台 Mac,今天就是你等待已久的日子。Apple 終於核准了我們的驅動程式,同時支援 AMD 和 NVIDIA。」所以他第一時間就準備進行測試。
If you have a Thunderbolt or USB4 eGPU and a Mac, today is the day you’ve been waiting for! Apple finally approved our driver for both AMD and NVIDIA. It’s so easy to install now a Qwen could do it, then it can run that Qwen… pic.twitter.com/daUsyBHh1W
— the tiny corp (@__tinygrad__) April 1, 2026
硬體配置與 eGPU 外接方案
Alex 的測試平台是一台搭載 Apple M4 Pro 晶片、64GB 記憶體的 Mac Mini。他總共測試了三張 Blackwell 架構的顯卡:RTX 5060 Ti、RTX 5070 Ti 和 RTX 5090。

外接方案方面,他一開始看到有人在推文下方秀出一個小型 Oculink USB4 eGPU 底座,立刻就跑去買了一個。Oculink 是他之前介紹過很多次的技術,確實很酷,但有個致命的問題:如果你不小心在運作中拔掉那條線,後果會很嚴重。底座上甚至貼了警告標語提醒你別這麼做。所以他最終選擇的是一個 USB4 裝置,能為 GPU 提供一定的供電,搭配 8-pin 電源接頭使用效果不錯。但如果你要用 NVIDIA 的 12-pin 接頭,就需要一條奇怪的轉接線。

五分鐘搞定:出乎意料的簡單設定
設定過程簡單得令人意外。所有步驟都記錄在 tinygrad.org 上。你只需要執行一個 curl 指令,啟用驅動程式,它就會出現在系統偏好設定的「一般」>「擴充功能」底下。找到 TinyGPU 的擴充功能,啟用它,就這樣。另外你還需要安裝 Docker Desktop,讓它自動幫你處理 NVIDIA 編譯器的部分。如果你用的是 AMD,則會使用 HIP 編譯器。

接著你只要指定使用的裝置(AMD、NV 或 Metal),然後啟動推論伺服器。Alex 迫不及待地完成了所有設定,啟動伺服器後出現了一個聊天介面。他打了一句「Hi」,GPU 就透過 Mac 回應了他。「這太不可思議了。整個設定時間不到五分鐘。」一顆 NVIDIA GPU 在 Mac 上跑運算,這是 2019 年以來從未發生過的事。
矩陣乘法基準測試:期望與現實
Tiny 自帶一套基準測試工具,直接在 GPU 上執行推論,沒有伺服器開銷。Alex 同時也使用了一個叫 LlamaBeni 的開源工具(由 Yugger 開發),這個基準測試是完整的端到端體驗,經過 API 層,包含 prompt 處理、token 生成、首 token 延遲,以及 HTTP 開銷和串流傳輸。「這才是使用者真正感受到的速度。」

RTX 5060 Ti 的初始矩陣乘法基準測試顯示 22.7 TFlops FP32。這個數字還算可以,但 Alex 的 M4 Pro 實際上跑出了約 33 TFlops,反而贏了。「老實說,這不是我預期的結果(太低了)。但美妙的是,它確實運作了。」

為了測試更大的 GPU 是否會顯著更快,Alex 換上了 5070 Ti。但問題來了:5070 Ti 從那個小底座獲得的電力不夠。理論上如果用一條從三個 8-pin 轉接到 12V 的奇怪轉接線應該可以,但他弄丟了那條三轉一的線。用四轉一的線試了,不行。
於是他又去敗家了,這次買了一個 Razer Thunderbolt 5 外接盒,裡面有獨立電源供應器的空間,你可以自己選擇要用多大的電源。雖然加上電源供應器和外接盒的成本更高,但這樣就不會有供電問題。有了獨立電源,他可以直接使用 12V 線材。熱插拔 Thunderbolt 線材,不需要關機,TinyGrad 自動識別到新的 GPU,直接開跑。

5070 Ti 在 FP32 矩陣乘法上比 5060 Ti 提升了約 64%。在 8K×8K 矩陣上達到了 342 TFlops,是 5060 Ti 的兩倍多。但 5090 的表現卻令人意外。它在矩陣乘法上的數字跟 5070 Ti 差不多,紙面上甚至略低一些。不過 5090 帶來的真正優勢是 32GB VRAM,相比其他兩張卡的 16GB,這意味著可以跑更大的模型。

LLM 推論實測:令人沮喪的數字
Alex 用 TinyGrad 內建的基準測試跑了 Qwen 3 8B 模型。5090 達到了將近 6 tokens/s,記憶體頻寬為 28.8 GB/s。5090 的記憶體頻寬應該能達到 1.7 TB/s,現在只跑出 28.8 GB/s,差距實在太大。不過三張卡之間倒是有一致性:5060 Ti 跑出 4.6 tokens/s,5070 Ti 跑出 5.5 tokens/s,而且所有外接 NVIDIA GPU 都打敗了內建的 Metal GPU(3.66 tokens/s)。

利用 5090 的 32GB VRAM 優勢,Alex 測試了更大的模型。Qwen 3 30B MoE(混合專家模型,活躍參數量較小)跑出 6.5 tokens/s。Llama 3.1 8B INT8 量化版跑出 7.48 tokens/s。Qwen 2.5 14B 則是 3.75 tokens/s。

「這些數字讓我好難過。」Alex 坦言,這些數字讓他很沮喪。
端到端基準測試:NVIDIA vs Metal
使用 LlamaBeni 進行完整的端到端測試,跑同一個 Qwen 3 4B 模型,在 NVIDIA 和 Metal 後端之間切換。RTX 5090 的 token 生成速度比 Metal 快 72%,達到 7.39 tokens/s,而 Metal 是 4.29 tokens/s。首 token 延遲方面,NVIDIA 比 Metal 快了 3 到 4 倍。如果你只是做聊天互動,NVIDIA GPU 確實能帶來明顯更靈敏的體驗。
但這些數字對一張 5090 這麼高階的顯示卡來說,跑一個 4B 參數、INT4 量化的模型,數值實在是低得離譜。
殘酷的真相:與 Llama.cpp 的對比 [10:25-11:50]
為了做一個理智檢查,Alex 跑了 Llama.cpp,那個大家都熟悉、喜愛並使用的工具。當然,在 Metal 上編譯的 Llama.cpp 無法跑在 NVIDIA GPU 上(那正是 TinyGrad 在做的事),所以他只是想拿到 Llama.cpp 在 Metal 上的數字作為對照。結果令人震驚。同一個模型、同樣的測試、同樣的設定:Llama.cpp 在 Metal 上跑的速度是 TinyGrad 在 5090 上的 10 倍,是 TinyGrad 在 Metal 上的 18 倍。首 token 延遲 651 毫秒,而 TinyGrad 要將近 5 秒。

整個測試作下來,Alex 的最大感想是:目前的 macOS 使用 tiny 驅動方案外接顯卡跑 AI 效能確實表現不佳。
最終檢討:至少不是完全沒有意義
Alex 非常坦誠地分析了這個差距的原因。Llama.cpp 擁有多年的手工調校 Metal 核心、融合的量化感知矩陣乘法、優化的 KV cache 管理,以及數千名貢獻者瘋狂地榨取每一分效能。而 TinyGrad 則是從通用編譯器自動生成核心,它目前並不是要在推論速度上跟 Llama.cpp 競爭,至少現在還不是。
那如果 Llama.cpp 快 10 倍,這一切還有什麼意義?
「因為 Tiny 做了一件沒有人做過的事。他們從零開始寫了一個 NVIDIA GPU 驅動程式,一個開源的 macOS 核心擴充,讓 Blackwell GPU 在 Apple Silicon 上透過 Thunderbolt 運作。一年前這是不可能的。兩家市值萬億美元的公司 Apple 和 NVIDIA 都拒絕讓這件事發生,而一個社群專案做到了。」
Tiny 做了一件沒有人做過的事。他們從零開始寫了一個 NVIDIA GPU 驅動程式,一個開源的 macOS 核心擴充,讓 Blackwell GPU 在 Apple Silicon 上透過 Thunderbolt 運作。一年前這是不可能的。兩家市值萬億美元的公司 Apple 和 NVIDIA 都拒絕讓這件事發生,而一個社群專案做到了。
有些人可能會問:透過 Thunderbolt 連接會不會拖慢速度?Alex 簡短的答案是:對 LLM 推論來說,基本上不會。一旦模型權重在啟動時一次性載入 GPU 的 VRAM,token 生成就完全在 GPU 內部進行。模型權重從 VRAM 讀取、在 GPU 上運算、再寫回 VRAM。每個 token 真正穿過 Thunderbolt 線材的數據只有幾個 bytes,瓶頸不在線材而是目前 TinyGrad 驅動的核心效能表現。5090 的記憶體頻寬能做到 1.8 TB/s,而我們目前只看到 33 GB/s,這不是線材的問題,是軟體優化的問題,而且理論上它會越來越好。

效能會提升,核心會被優化,但最困難的部分:驅動程式、編譯器管線、記憶體管理器,已經完成了。不過目前不建議 Mac 使用者現在就花大錢買顯卡來嚐鮮體驗,因為現在性價比實在太低了,過幾個月後也許又不一樣了也說不定。有興趣的朋友也可以直接觀看這部相當精彩的影片: