電腦王阿達

No Result

View All Result

No Result

View All Result

電腦王阿達

No Result

View All Result

Tags: ai Dream Dojo Jim Fan NVIDIA VLA WAM 世界行動模型機器人

機器人科學研究的終局之戰：VLA 時代終結，世界行動模型 WAM 登場

by 達小編

2026 年 05 月 11 日

in AI 趨勢與相關新聞, 最新科技新聞

讀取中...

近日，NVIDIA GEAR Lab 負責人、傑出科學家 Jim Fan 在紅杉資本（Sequoia Capital）4 月舉辦的 AI Ascent 2026 大會講座中，分享了「Robotics’ End Game」的 20 分鐘演講。與去年談及「物理圖靈測試」的謹慎樂觀不同，這次他帶來了一份更為大膽的路線圖：直接宣告過去三年主導機器人領域的 VLA（Vision-Language-Action，視覺-語言-動作）架構已經過時，並提出了一套名為世界行動模型（World Action Models，WAM）的全新範式。這不僅是技術路線的轉向，更是一份直指 2040 年完成「物理 AGI」的戰略宣言。

從 DGX-1 簽名到底層同構：一場跨越十年的平行複製

Jim Fan 以一段極具象徵意義的個人經歷開場。2016 年夏天，就在 OpenAI 當時的辦公室裡，NVIDIA 創辦人黃仁勳穿著標誌性的皮夾克，抱著一塊大金屬托盤走進來，上頭寫著：「致 Elon 和 OpenAI 團隊，致運算和人類的未來——我為你們獻上世界第一台 DGX-1。」當時 Jim Fan 還是 OpenAI 的第一個實習生，趕緊排隊在上面簽了名；旁邊一起簽的還有 Andrej Karpathy。這台 DGX-1 如今陳列在電腦歷史博物館中。Jim Fan 笑說，感覺自己像恐龍一樣老了。

這個故事不只是感性開場，更是整場演講的核心比喻。Jim Fan 引用他的導師 Ilya Sutskever 那句知名的「如果你相信深度學習，深度學習也會相信你」，然後指出大型語言模型（LLM）只用了三次階躍、六年時間就走到今天：GPT-3 的預訓練、InstructGPT 的監督微調、o1 風格的強化學習，再到自動研究。於是他做出了一個關鍵決定：抄 LLM 的作業，換個名字，稱為「底層同構」（the Great Parallel）。與其模擬字串的下一個狀態，不如模擬物理世界的下一個狀態；透過動作微調收斂到機器人需要的那一小塊，最後讓強化學習來完成最後一哩路。正如他所說：「打不過，就加入。」

VLA 時代落幕：語言不是萬能

過去三年，機器人領域的主流架構是 VLA（Vision-Language-Action）。NVIDIA 自家的 GR00T 人形機器人基礎模型、Physical Intelligence 的 π0 都屬於這個類別。理論上，語言模型提供的常識與推理能力應該能賦能機器人，但 Jim Fan 點出了結構性的問題。

他直言，這些模型其實應該叫 LVA（Language-Vision-Action），因為大多數參數都分配給了語言。語言是一等公民，其次是視覺，動作只能墊底。「VLA 很擅長編碼知識和名詞，但在物理和動詞方面就沒有那麼擅長了。重心放在不對的地方。」

他舉了 RT-2 原始論文中的經典範例：讓機器人把可樂罐推到 Taylor Swift 的照片旁邊。模型確實做到了，問題是它能泛化的是「Taylor Swift」這個名詞，而不是「該怎麼推、找什麼角度、用多大力」這個動詞。這正是 VLA 體系的天生限制：參數配置頭重腳輕，導致物理理解能力始終無法突破。Jim Fan 在演講中明確表示，雖然這條路線完成了階段性歷史使命，但已不適合繼續走下去。

DreamZero 與世界行動模型（WAM）登場

既然 VLA 不是最終答案，那下一階段的預訓練範式是什麼？Jim Fan 團隊的答案是影片模型。研究發現，影片擴散模型在內部已經學會了模擬物理世界的下一個狀態。關鍵問題是：怎麼把這些世界模型變成可用的機器人策略？

NVIDIA 的答案是一款 140 億參數的模型：DreamZero。這是一種新型策略模型，在執行動作之前先往未來「做夢」幾秒鐘，根據夢境行動，同時解碼下一幀畫面與下一步動作。在這裡，視覺與動作第一次真正成為了「一等公民」。Jim Fan 將這個新架構命名為世界行動模型（World Action Models，WAM），並坦率地承認 DreamZero 目前大約相當於 GPT-2 的階段：方向對了，但表現還不夠穩定可靠。

值得注意的是，DreamZero 的實際部署門檻極高。根據論文披露，這款 14B 模型必須經過 38 倍的系統級最佳化，搭配 GB200 硬體，才能將閉環控制壓到 7Hz。這意味著在現階段，WAM 路線更像是一份技術宣言，而非立即可以落地的產品。然而，學術界對此路線的反應相當積極：2026 年 3 月已出現 Fast-WAM 等後續研究，試圖探討世界行動模型是否需要測試階段的未來想像。

資料革命：從遙操作到機器人不必參與的資料採集

過去三年是遙操作（teleoperation）的黃金時代，但 Jim Fan 點出了這條路的硬上限：每台機器人每天最多 24 小時。「我說是 24 小時，那是騙自己的。實際一天能幹 3 小時就不錯了，還得看當天的『機器人之神』賞不賞臉，畢竟這幫機器天天鬧脾氣出毛病。」

為了解決這個瓶頸，NVIDIA 提出了截然不同的策略：完全繞過機器人本體，直接從人類身上採集資料。具體方案是 DexUMI：一種外骨骼裝置，直接戴在人手上記錄手指運動。用外骨骼資料訓練出的機器人策略可以完全自主運行，訓練資料中完全沒有任何遙操作資料。機器人第一次可以不必參與資料採集的過程。

這項技術的意義深遠。典型的資料採集產能瓶頸從機器人硬體的物理限制（要維修、要充電、會故障），轉移到了人類的參與上限，而人類理論上可以大規模複製。這為下一階段的規模化奠定了基礎。

EgoScale 與靈巧操作的縮放定律

如果 DexUMI 解決的是採集方式的問題，EgoScale 解決的就是資料量的問題。NVIDIA 推出的 EgoScale 方案中，99.9% 的訓練資料來自人類第一人稱影片（egocentric video）：預訓練用了 21,000 小時的野外人類資料，完全不涉及任何機器人資料。動作微調階段僅用了 50 小時的高精度動捕手套資料，外加 4 小時的遙操作資料，加起來連訓練總量的 0.1% 都不到。

這項研究最重要的發現是：靈巧操作的神經縮放定律（Neural Scaling Law）確實存在。預訓練投入的運算時數與最優驗證損失之間，存在一條極其清晰的對數線性關係，相關係數 R² 高達 0.998。這意味著只要持續增加人類影片資料，機器人的靈巧操作能力就可以可預測地持續提升。

Jim Fan 把所有資料策略的可擴展性放在一起對比：遙操作處在最不可擴展的角落；而第一人稱影片如果能轉動類似 FSD 的資料飛輪，一年內可以累積到 1,000 萬小時。

Dream Dojo：無物理引擎的純資料模擬器

機器人領域也需要像 LLM 一樣花大錢購買數百萬個訓練環境來做強化學習。傳統做法是 real-to-sim-to-real，但模擬到真實的差距始終無法完全消除。NVIDIA 的進一步方案是 Dream Dojo：不要物理引擎，直接把影片世界模型變成一個完整的神經模擬器。輸入是連續動作訊號，即時輸出下一幀 RGB 畫面和感測器狀態。沒有物理方程式，沒有繪圖引擎，完全由資料驅動，正如 Jim Fan 所說：「你看到的畫面裡，沒有一個像素是真實的。」

這句話不僅聽起來驚人，背後還藏著一層商業邏輯：算力 = 環境 = 資料。用 Jim Fan 自己的話來說：「或者用某位智者的話：買得越多，省得越多。這條訊息已獲得我老闆批准。」這句玩笑話直接點出了 NVIDIA 在這盤棋局中的核心商業策略：無論 WAM 還是神經模擬器，對算力的需求都遠遠超過傳統 VLA 架構，而這正好是 NVIDIA 晶片業務的甜蜜點。

終局路線圖：2040 年前的三大里程碑

在演講的最後，Jim Fan 將機器人的剩餘路徑比擬為必須解鎖的三個科技樹成就：

機器人科學研究的終局之戰：VLA 時代終結，世界行動模型 WAM 登場 - 電腦王阿達

第一，物理圖靈測試（Physical Turing Test）：2-3 年內，你無法分辨執行任務的是人類還是機器人。這是他去年同一場演講的主題，如今已被納入更完整路線圖中的第一步。

第二，物理 API（Physical API）：用軟體和大模型編排機器人配置，建造「熄燈工廠」（Lights Out Factories）和自動化科學實驗室。這一步的核心在於將機器人從硬體問題轉變為軟體問題。

第三，物理自動研究（Physical Auto Research）：機器人開始自己設計、改進並製造出下一代的機器人。這是終極目標，對齊 LLM 路線中的「自動研究」階段。

至於時間表，Jim Fan 給出了 2040 年的預測，可信度高達 95%。他的論證邏輯是：AI 從 AlexNet（2012）到智慧體代理（2026）用了 14 年；再給機器人 14 年，正好是 2040 年。他引用了一段相當引人深思的話作為結語：「我們這一代人，生得太晚，沒趕上大航海時代去探索地球；又生得太早，夠不著星辰大海去探索宇宙。但我們生得剛剛好，趕上了攻克機器人難題的時代。」

以上的講座影片我們也做了翻譯，有興趣的朋友可以看看：

Tags: ai Dream Dojo Jim Fan NVIDIA VLA WAM 世界行動模型機器人

您也許會喜歡：

立達合法徵信社-讓您安心的選擇

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技

No Result

View All Result

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技

No Result

View All Result

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技