NVIDIA 近期推出的開源 AI 模型「Nemotron 3 Super」正式登上 EnterpriseOps-Gym 排行榜首位,以 27.3 分的平均成績擊敗 MiniMax M27、Kimi K2.5、DeepSeek v3.2 及 GPT-OSS-120B 等眾多競爭對手,再次證明 NVIDIA 不僅是 AI 硬體龍頭,在軟體與模型領域同樣具備頂尖實力。
Nemotron 3 Super:專為 AI Agent 打造的混合架構模型
NVIDIA 在今年 3 月的 GTC 大會上正式發表 Nemotron 3 Super,這是一款參數規模達 1,200 億(120B)、但活躍參數僅 120 億(12B)的混合專家模型(Mixture-of-Experts,MoE)。該模型採用 Hybrid Mamba-Transformer 架構,並引入了多項突破性技術:
- 潛在 MoE(Latent MoE): 在 token 抵達專家層之前先進行壓縮,使模型能在相同推理成本下調用多達 4 倍的專家數量,實現更精細的專業分工。
- 多 token 預測(Multi-Token Prediction,MTP): 單次前向傳播即可預測多個未來 token,大幅縮短長序列的生成時間,並內建推測解碼能力。
- Hybrid Mamba-Transformer 骨幹: Mamba 層負責高效的序列處理,Transformer 層保留精確的關聯檢索能力,兩者結合使記憶體與計算效率提升 4 倍。
- 原生 NVFP4 預訓練: 專為 NVIDIA Blackwell 架構最佳化,在 B200 上推理速度比 H100 使用 FP8 格式快 4 倍,同時維持模型精確度。
- 多環境強化學習: 透過 NVIDIA NeMo Gym 與 NeMo RL 在 21 種環境配置中進行後訓練,訓練 rollouts 超過 120 萬次。
此外,Nemotron 3 Super 支援原生 100 萬 token 的上下文視窗(1M-token context window),讓 AI Agent 在長時間任務中擁有長期記憶,避免目標偏移(goal drift)的發生,吞吐量較前一代 Nemotron Super 提升超過 5 倍。
EnterpriseOps-Gym 實測:1,150 項任務驗證實力
EnterpriseOps-Gym 是一個專門評估 AI 模型在企業環境中 Agent 表現的基準測試,涵蓋 1,150 項任務,並配備 512 個功能性工具。模型必須在完全互動的環境中協調跨多個企業系統和工具來完成單一工作流程,是當前最具挑戰性的企業級 AI 評測之一。
在開放原始碼模型排行榜中,NVIDIA Nemotron 3 Super 以平均 27.3 分的成績奪冠,在 TEAMS、Email 與 Hybrid 工作流程中表現領先,同時在 CSM、ITSM 與 Drive 工作流程中也極具競爭力。具體排名如下:
- NVIDIA Nemotron 3 Super — 27.3 分
- Kimi K2.5 — 第二名
- DeepSeek v3.2 — 第三名
- GPT-OSS-120B — 第五名
第三方評測:開放度與智能的完美平衡
根據獨立評測機構 Artificial Analysis 的報告,Nemotron 3 Super 在其智能指數中獲得 36 分,較前一代 Nemotron Super 高出 17 分,也勝過 GPT-OSS-120B 的 33 分。在開放度指數中更獲得 83 分,僅次於 Ai2 與 MBZUAI 等機構,是開放程度最高且智能最強的開源模型。
該評測也指出,Nemotron 3 Super 在 Agent 任務上表現尤其出色:在 Terminal-Bench Hard 中獲得 29% 分數,在 GDPval-AA(評估 Agent 在真實工作任務中的表現)中達到 1027 ELO。此外,儘管模型參數規模相對較小,但其推理效率極高,每 GPU 吞吐量比 GPT-OSS-120B 高出約 10%。
在 PinchBench(評估 LLM 作為 AI Agent 大腦表現的基準)上,Nemotron 3 Super 也創下了 85.6% 的成績,是同級中表現最好的開放模型。
開放生態系與價格優勢
Nemotron 3 Super 採用完全開放授權,不僅開放權重,還公開了訓練資料集與完整訓練食譜(recipes),讓開發者可以自由客製化、最佳化並部署在自己的基礎設施上。模型已在 Hugging Face 上架,型號為「nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8」。
在價格方面,Nemotron 3 Super 的推理成本極具競爭力,輸入 token 約為每百萬 0.30 美元(約新台幣 9.8 元),輸出 token 約為每百萬 0.80 美元(約新台幣 26 元),若透過 DeepInfra 等平台,價格更可低至每百萬 0.10 美元 / 0.50 美元。
Nemotron 3 系列目前包含三款模型:Nano(300 億總參數、30 億活躍參數)、Super(1,200 億總參數、120 億活躍參數)以及即將推出的 Ultra(約 5,000 億總參數、500 億活躍參數)。加上同樣於近期發表的 Nemotron 3 Nano Omni(號稱將 AI Agent 吞吐量提升 9 倍),NVIDIA 正在逐步打造完整的開放 AI 模型生態系。
結語
NVIDIA Nemotron 3 Super 登上開源模型排行榜首位,不僅展示了該公司在 AI 軟體領域的深厚實力,更證明 Hybrid Mamba-Transformer 搭配潛在 MoE 架構確實能在效率與精確度之間取得最佳平衡。隨著 AI Agent 應用日益普及,這類專為多步驟推理與工具協作設計的模型,將在企業級 AI 部署中扮演越來越關鍵的角色。



