最近越來越多人每天都會使用 OpenClaw、Hermes Agent 這類 AI 代理工具,從寫程式、處理文件、到自動化做任何事情,如果你希望使用本地模型的話,稍早 NVIDIA 推出的全新 Nemotron 3 Nano Omni 全模態開源模型很值得一試的,總參數僅 30B,而且支援文字、圖片、聲音、影片等多模態輸入,在 6 個排行榜拿下第一,效率最高比同類開源 omni 模型快 9 倍,目前在 Hugging Face、Ollama 等平台都能下載到。

NVIDIA 發表 Nemotron 3 Nano Omni:30B 開源多模態 MoE 模型,6 大測試拿下第一、效率最高比同類快 9 倍
Nemotron 3 Nano Omni 是 Nemotron 3 系列家族中主打多模態與代理式應用的模型,架構採 30B-A3B 混合 MoE 設計,總共有 300 億參數,但每次推論只會啟動其中的 30 億,再搭配 Conv3D 和 EVS 技術,支援高達 256K 的上下文長度。MoE 架構帶來的最大好處是,運算成本比同等級的密集模型省下不少。
多模態能力部分,Nemotron 3 Nano Omni 同時支援文字、圖片、聲音、影片、文件、圖表、表格,甚至連 GUI 介面截圖都能讀懂,輸出則統一是文字。代表它特別適合做文件理解、影片摘要、語音轉錄等任務,此外,還能讓 AI 代理看著畫面操作電腦,模型能看到當前 GUI 畫面、判斷螢幕上的元素和狀態變化,就能決定下一步要點哪裡:
NVIDIA 也強調這款模型對企業文件分析、合規審查這類混合媒體輸入的工作流特別實用。
效能測試方面,NVIDIA 官方表示 Nemotron 3 Nano Omni 在多項多模態基準測試中拿下 6 個排行榜的第一名,而明確列出名稱的有 MMlongbench-Doc 和 OCRBenchV2(文件理解)、WorldSense 和 DailyOmni(影片理解)以及 VoiceBench(語音理解)這 5 個。
跟同樣是開源 omni 模型對比,差距更加明顯。在 NVIDIA B200 GPU 上,Nemotron 3 Nano Omni 影片使用情境的系統效率達到 9.2 倍:
多文件使用情境的系統效率達到 7.4 倍:
下圖是前一代 Nemotron Nano VL V2 模型和 Nemotron 3 Nano Omni 的多模態準確率,在多項基準測試中都有提升:
Nemotron 3 Nano Omni 已經上架 Hugging Face、OpenRouter、build.nvidia.com、Ollama 以及 LM Studio 等,如果本地跑不動但想試的話,OpenRouter 上有提供免費版,輸入和輸出都是 0 美元,只是有速率限制(每分鐘 20 次、每天 200 次請求):




