電腦王阿達

No Result

View All Result

No Result

View All Result

電腦王阿達

No Result

View All Result

Tags: ai macOS Tiny Corp TinyGrad 外接顯卡

國外 YouTuber 實測 Mac mini 外接 RTX-5090 顯卡跑 AI，結果讓人震驚！

by 達小編

2026 年 04 月 14 日

in 最新科技新聞

讀取中...

可能很多人不知道，自 2019 年以來 macOS 就再也不支援任何 NVIDIA 顯示卡（之前只支援 AMD 顯卡）。但現在由於 AI 與新創團隊，現在起 mac OS 終於可以透過 Thunderbolt 以外接顯卡的方式支援 NVIDIA 顯卡。國外硬體 YouTuber Alex Ziskind 在第一時間測試了目前最主流的 RTX 5060 Ti、5070 Ti 和 5090 三張 Blackwell 架構顯卡在 Mac Mini M4 Pro 上的實際表現，並給出了誠實的數據，包括那些「還不太行」的部分。

細說從頭：macOS 為何不支持 NVIDIA 顯示卡？

故事要從 2018 年說起。那一年，Apple 和 NVIDIA 鬧翻了。Apple 在 macOS Mojave 中徹底移除了 NVIDIA 的支援，一刀砍掉了 Mac 上的 CUDA 生態，因為他們決定全力押注自家的 Metal GPU 框架。從那之後整整七年，如果你想在 macOS 上使用 NVIDIA 的 GPU 運算能力，答案只有一個字：不行。

然後由破解大神 GeoHotz 創立的 Tiny Corp 做了一件瘋狂的事，他們從零開始撰寫了自己的 NVIDIA GPU 驅動程式，一個 macOS 核心擴充套件，叫做 TinyGPU。不需要 NVIDIA 官方驅動，不需要 Linux，你只要把 GPU 插進 Mac 的 Thunderbolt 埠，核准系統擴充，它就能運作。

Mac mini AI 算力大升級！國外 AI 新創成功外接 NVIDIA / AMD 顯卡

Alex 在 Twitter 上看到 Tiny Corp 的公告時，興奮之情溢於言表。那則推文寫道：「如果你有 Thunderbolt 或 USB4 eGPU 和一台 Mac，今天就是你等待已久的日子。Apple 終於核准了我們的驅動程式，同時支援 AMD 和 NVIDIA。」所以他第一時間就準備進行測試。

If you have a Thunderbolt or USB4 eGPU and a Mac, today is the day you’ve been waiting for! Apple finally approved our driver for both AMD and NVIDIA. It’s so easy to install now a Qwen could do it, then it can run that Qwen… pic.twitter.com/daUsyBHh1W

— the tiny corp (@__tinygrad__) April 1, 2026

硬體配置與 eGPU 外接方案

Alex 的測試平台是一台搭載 Apple M4 Pro 晶片、64GB 記憶體的 Mac Mini。他總共測試了三張 Blackwell 架構的顯卡：RTX 5060 Ti、RTX 5070 Ti 和 RTX 5090。

外接方案方面，他一開始看到有人在推文下方秀出一個小型 Oculink USB4 eGPU 底座，立刻就跑去買了一個。Oculink 是他之前介紹過很多次的技術，確實很酷，但有個致命的問題：如果你不小心在運作中拔掉那條線，後果會很嚴重。底座上甚至貼了警告標語提醒你別這麼做。所以他最終選擇的是一個 USB4 裝置，能為 GPU 提供一定的供電，搭配 8-pin 電源接頭使用效果不錯。但如果你要用 NVIDIA 的 12-pin 接頭，就需要一條奇怪的轉接線。

五分鐘搞定：出乎意料的簡單設定

設定過程簡單得令人意外。所有步驟都記錄在 tinygrad.org 上。你只需要執行一個 curl 指令，啟用驅動程式，它就會出現在系統偏好設定的「一般」>「擴充功能」底下。找到 TinyGPU 的擴充功能，啟用它，就這樣。另外你還需要安裝 Docker Desktop，讓它自動幫你處理 NVIDIA 編譯器的部分。如果你用的是 AMD，則會使用 HIP 編譯器。

接著你只要指定使用的裝置（AMD、NV 或 Metal），然後啟動推論伺服器。Alex 迫不及待地完成了所有設定，啟動伺服器後出現了一個聊天介面。他打了一句「Hi」，GPU 就透過 Mac 回應了他。「這太不可思議了。整個設定時間不到五分鐘。」一顆 NVIDIA GPU 在 Mac 上跑運算，這是 2019 年以來從未發生過的事。

矩陣乘法基準測試：期望與現實

Tiny 自帶一套基準測試工具，直接在 GPU 上執行推論，沒有伺服器開銷。Alex 同時也使用了一個叫 LlamaBeni 的開源工具（由 Yugger 開發），這個基準測試是完整的端到端體驗，經過 API 層，包含 prompt 處理、token 生成、首 token 延遲，以及 HTTP 開銷和串流傳輸。「這才是使用者真正感受到的速度。」

RTX 5060 Ti 的初始矩陣乘法基準測試顯示 22.7 TFlops FP32。這個數字還算可以，但 Alex 的 M4 Pro 實際上跑出了約 33 TFlops，反而贏了。「老實說，這不是我預期的結果（太低了）。但美妙的是，它確實運作了。」

為了測試更大的 GPU 是否會顯著更快，Alex 換上了 5070 Ti。但問題來了：5070 Ti 從那個小底座獲得的電力不夠。理論上如果用一條從三個 8-pin 轉接到 12V 的奇怪轉接線應該可以，但他弄丟了那條三轉一的線。用四轉一的線試了，不行。

於是他又去敗家了，這次買了一個 Razer Thunderbolt 5 外接盒，裡面有獨立電源供應器的空間，你可以自己選擇要用多大的電源。雖然加上電源供應器和外接盒的成本更高，但這樣就不會有供電問題。有了獨立電源，他可以直接使用 12V 線材。熱插拔 Thunderbolt 線材，不需要關機，TinyGrad 自動識別到新的 GPU，直接開跑。

5070 Ti 在 FP32 矩陣乘法上比 5060 Ti 提升了約 64%。在 8K×8K 矩陣上達到了 342 TFlops，是 5060 Ti 的兩倍多。但 5090 的表現卻令人意外。它在矩陣乘法上的數字跟 5070 Ti 差不多，紙面上甚至略低一些。不過 5090 帶來的真正優勢是 32GB VRAM，相比其他兩張卡的 16GB，這意味著可以跑更大的模型。

LLM 推理實測：令人沮喪的數字

Alex 用 TinyGrad 內建的基準測試跑了 Qwen 3 8B 模型。5090 達到了將近 6 tokens/s，記憶體頻寬為 28.8 GB/s。5090 的記憶體頻寬應該能達到 1.7 TB/s，現在只跑出 28.8 GB/s，差距實在太大。不過三張卡之間倒是有一致性：5060 Ti 跑出 4.6 tokens/s，5070 Ti 跑出 5.5 tokens/s，而且所有外接 NVIDIA GPU 都打敗了內建的 Metal GPU（3.66 tokens/s）。

利用 5090 的 32GB VRAM 優勢，Alex 測試了更大的模型。Qwen 3 30B MoE（混合專家模型，活躍參數量較小）跑出 6.5 tokens/s。Llama 3.1 8B INT8 量化版跑出 7.48 tokens/s。Qwen 2.5 14B 則是 3.75 tokens/s。

「這些數字讓我好難過。」Alex 坦言，這些數字讓他很沮喪。

端到端基準測試：NVIDIA vs Metal

使用 LlamaBeni 進行完整的端到端測試，跑同一個 Qwen 3 4B 模型，在 NVIDIA 和 Metal 後端之間切換。RTX 5090 的 token 生成速度比 Metal 快 72%，達到 7.39 tokens/s，而 Metal 是 4.29 tokens/s。首 token 延遲方面，NVIDIA 比 Metal 快了 3 到 4 倍。如果你只是做聊天互動，NVIDIA GPU 確實能帶來明顯更靈敏的體驗。

國外 YouTuber 實測 Mac mini 外接 RTX-5090 顯卡跑 AI，結果讓人震驚！ - 電腦王阿達

但這些數字對一張 5090 這麼高階的顯示卡來說，跑一個 4B 參數、INT4 量化的模型，數值實在是低得離譜。

殘酷的真相：與 Llama.cpp 的對比

為了做一個理智檢查，Alex 跑了 Llama.cpp，那個大家都熟悉、喜愛並使用的工具。當然，在 Metal 上編譯的 Llama.cpp 無法跑在 NVIDIA GPU 上（那正是 TinyGrad 在做的事），所以他只是想拿到 Llama.cpp 在 Metal 上的數字作為對照。結果令人震驚。同一個模型、同樣的測試、同樣的設定：Llama.cpp 在 Metal 上跑的速度是 TinyGrad 在 5090 上的 10 倍，是 TinyGrad 在 Metal 上的 18 倍。首 token 延遲 651 毫秒，而 TinyGrad 要將近 5 秒。

整個測試作下來，Alex 的最大感想是：目前的 macOS 使用 tiny 驅動方案外接顯卡跑 AI 效能確實表現不佳。

最終檢討：至少不是完全沒有意義

Alex 非常坦誠地分析了這個差距的原因。Llama.cpp 擁有多年的手工調校 Metal 核心、融合的量化感知矩陣乘法、優化的 KV cache 管理，以及數千名貢獻者瘋狂地榨取每一分效能。而 TinyGrad 則是從通用編譯器自動生成核心，它目前並不是要在推論速度上跟 Llama.cpp 競爭，至少現在還不是。

那如果 Llama.cpp 快 10 倍，這一切還有什麼意義？

「因為 Tiny 做了一件沒有人做過的事。他們從零開始寫了一個 NVIDIA GPU 驅動程式，一個開源的 macOS 核心擴充，讓 Blackwell GPU 在 Apple Silicon 上透過 Thunderbolt 運作。一年前這是不可能的。兩家市值萬億美元的公司 Apple 和 NVIDIA 都拒絕讓這件事發生，而一個社群專案做到了。」

Tiny 做了一件沒有人做過的事。他們從零開始寫了一個 NVIDIA GPU 驅動程式，一個開源的 macOS 核心擴充，讓 Blackwell GPU 在 Apple Silicon 上透過 Thunderbolt 運作。一年前這是不可能的。兩家市值萬億美元的公司 Apple 和 NVIDIA 都拒絕讓這件事發生，而一個社群專案做到了。

有些人可能會問：透過 Thunderbolt 連接會不會拖慢速度？Alex 簡短的答案是：對 LLM 推論來說，基本上不會。一旦模型權重在啟動時一次性載入 GPU 的 VRAM，token 生成就完全在 GPU 內部進行。模型權重從 VRAM 讀取、在 GPU 上運算、再寫回 VRAM。每個 token 真正穿過 Thunderbolt 線材的數據只有幾個 bytes，瓶頸不在線材而是目前 TinyGrad 驅動的核心效能表現。5090 的記憶體頻寬能做到 1.8 TB/s，而我們目前只看到 33 GB/s，這不是線材的問題，是軟體優化的問題，而且理論上它會越來越好。

效能會提升，核心會被優化，但最困難的部分：驅動程式、編譯器管線、記憶體管理器，已經完成了。不過目前不建議 Mac 使用者現在就花大錢買顯卡來嚐鮮體驗，因為現在性價比實在太低了，過幾個月後也許又不一樣了也說不定。有興趣的朋友也可以直接觀看這部相當精彩的影片：

Tags: ai macOS Tiny Corp TinyGrad 外接顯卡

您也許會喜歡：

立達合法徵信社-讓您安心的選擇

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技

No Result

View All Result

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技

No Result

View All Result

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技