NVIDIA 的 NeMo 語音團隊在 6 月初悄悄上架了一款 600M 參數的自動語音辨識模型 Nemotron 3.5 ASR。這款模型主打「一個 checkpoint 搞定 40 種語言」,支援即時串流輸出,而且不需要 GPU 就能運作。對正在打造本地 Agent pipeline 的開發者來說,這可能是目前最實用的開源語音選項之一。

什麼是 Nemotron 3.5 ASR
Nemotron 3.5 ASR 是 NVIDIA 繼 nemotron-speech-streaming-en-0.6b(英文版)之後推出的多語言擴展版本。同樣是 600M 參數,但透過「語言 ID 提示」(language-ID prompt conditioning)機制,讓單一模型就能處理 40 種語言的語音轉錄,不需要針對每種語言準備獨立模型或進行模型切換。
模型架構採用 Cache-Aware FastConformer-RNNT,由 24 層 FastConformer 編碼器搭配 RNNT(循環神經網路轉錄器)解碼器組成。所謂「Cache-Aware」,是指模型在串流處理音訊時,會快取編碼器的自注意力與卷積激活狀態,每次只處理新的音訊片段,重複利用先前的快取,避免傳統緩衝串流中重疊窗口帶來的重複計算。結果是:每個音訊幀只被處理一次,計算量與端到端延遲同時下降,但準確率不受影響。
40 種語言、三個層級
這 40 種語言並非全部處於同一品質等級,NVIDIA 將它們分為三層:
- 即用型(19 種語言):開箱即用的高準確率語音辨識,包含英文(美式/英式)、西班牙文、法文、義大利文、葡萄牙文、荷蘭文、德文、土耳其文、俄文、阿拉伯文、印地文、日文、韓文、越南文、烏克蘭文等。
- 廣泛覆蓋(13 種語言):可直接用於生產環境的語音辨識,涵蓋波蘭文、瑞典文、捷克文、挪威文等歐洲語言。
- 適配型(8 種語言):分詞器已支援,但需要針對特定領域資料微調才能達到完整轉錄品質。
語言控制方式有兩種:在推理時設定 target_lang 指定語言(如 zh-CN、ja-JP),或設為 auto 讓模型自動偵測。自動偵測模式下,模型會在標點符號後輸出語言標籤,適合處理混合語言的音訊來源。[1]
延遲可調:一個旋鈕控制速度與準確率
Nemotron 3.5 ASR 有一個很實用的設計:att_context_size 參數讓你在推理時自由調整延遲與準確率的平衡點,不需要重新訓練模型。
[56, 0]:80ms 超低延遲模式,適合即時互動場景[56, 1]:160ms 低延遲[56, 3]:560ms 平衡模式(預設值)[56, 13]:1.12s 最高準確率模式
同一個 checkpoint 覆蓋完整範圍。開發者可以根據應用場景(即時字幕 vs 批次轉錄)在推理階段選擇最佳運作點,不需要為不同場景準備不同模型。
比 Whisper 快在哪裡
語音辨識領域,OpenAI 的 Whisper 一直是開源標竿。Nemotron 3.5 ASR 的定位不是「取代 Whisper」,而是在特定場景下提供更好的選擇。
E2E Networks 在 NVIDIA L4 GPU 上對 Whisper large-v3-turbo(809M 參數)、Parakeet TDT 0.6B 以及 Nemotron Speech Streaming 0.6B 進行了 58 種配置的基準測試。結果顯示,Nemotron 在串流場景下達到 258 倍即時處理速度,而且詞錯率(WER)在所有配置下保持穩定不變。相較之下,Whisper 在短音訊片段(chunk=10s)時會出現 3.5% 的詞錯率退化,這是多數基準測試沒有揭露的隱藏陷阱。
具體差異可以從幾個面向理解:
- 串流能力:Whisper 是編碼器-解碼器架構,天生適合批次處理;Nemotron 的 Cache-Aware FastConformer-RNNT 是為串流設計的,邊聽邊輸出,端到端延遲可低於 100ms。
- 並行處理:NVIDIA 官方數據指出,在 H100 上 Nemotron ASR 可同時處理的並行串流數量比前代 Parakeet RNNT 更多,直接降低每個串流的運營成本。
- CPU 友善:600M 參數的模型體積讓它能在純 CPU 環境、Apple Silicon(MPS)上運作,音訊不需要離開本機,也沒有按分鐘計費的問題。
不過 Whisper 也有其優勢:在嘈雜環境和帶口音的音訊上,Whisper large-v3-turbo 的穩健性仍然較強,這反映了它在數十萬小時多樣化網路音訊上的訓練基礎。
額外功能:Word Boosting 與 Speaker Diarization
除了基本的語音轉文字,Nemotron 3.5 ASR 還內建了幾個實用功能:
- Word Boosting:可以自訂優先辨識的詞彙(如專業術語、品牌名稱、產業行話),不需要重新訓練模型。對醫療、法律、科技等領域的語音辨識特別有用。
- Speaker Diarization:辨識並區分不同說話者,適合多人對話場景如會議、播客、訪談。
- 自動標點與大寫:輸出文字自帶標點符號和正確大小寫,不需要額外的標點恢復步驟。
部署方式與授權
Nemotron 3.5 ASR 以 OpenMDW-1.1 授權開源,模型權重已在 HuggingFace 上架(nvidia/nemotron-3.5-asr-streaming-0.6b),可直接用於商業用途。
部署方式有幾種選擇:
- 直接使用 NeMo 框架:
pip install nemo_toolkit[asr]後幾行程式碼即可載入模型並開始轉錄。 - OpenAI 相容 HTTP 伺服器:可將模型包裝在
/v1/audio/transcriptions端點後面,任何 OpenAI 相容的客戶端都能直接使用。 - NVIDIA NIM:NVIDIA 的雲端託管服務也提供了 Nemotron ASR 的部署選項。
- HuggingFace Transformers:支援標準的 HuggingFace 載入流程。
LiveKit 團隊也發布了詳細的整合指南,展示如何將 Nemotron 3.5 ASR 接入即時語音 Agent pipeline,包含本地提詞器(teleprompter)的完整實作範例。
對本地 Agent 生態的意義
過去要在本地跑語音辨識,開發者的選擇通常是 Whisper(準確但慢、大模型需要 GPU)或各種小型模型(快但語言支援有限)。Nemotron 3.5 ASR 填補了一個中間位置:體積夠小(600M 參數),純 CPU 也能即時運作;語言覆蓋夠廣(40 種),不需要為每種語言準備獨立模型;架構夠新(Cache-Aware 串流),延遲可控。
對於正在搭建本地 AI Agent 的開發者而言,這意味著語音輸入不再是一個需要依賴雲端 API 的環節。模型可以完全離線運作,音訊資料不離開本機,同時保有即時串流能力和可接受的辨識品質。再搭配 NVIDIA 自家的 Nemotron 3 Nano(語言模型)和 Magpie TTS(語音合成),從語音輸入到推理到語音輸出的完整 Agent pipeline 都能在本地跑起來。
需要注意的地方
這款模型並非完美無缺。根據 Geeky Gadgets 的評測,在以下幾個面向仍有改善空間:
- 即時轉錄的標點準確度:在串流模式下,標點符號的插入位置偶爾會不準確。
- 語言自動偵測:
auto模式的偵測結果參差不齊,已知語言時手動指定target_lang效果明顯更好。 - 特定語言需微調:第三層的 8 種語言需要額外微調才能達到可用品質,不是下載就能直接用。
整體而言,Nemotron 3.5 ASR 是 NVIDIA 在開源語音辨識領域的一步重要落子。它不是要打敗 Whisper,而是在串流、多語言、本地部署這三個維度上提供了一個更有競爭力的選擇。