NVIDIA 釋出僅 0.6B 語音辨識模型 Nemotron 3.5 ASR，純 CPU 就能即時轉錄 40 種語言

NVIDIA 的 NeMo 語音團隊在 6 月初悄悄上架了一款 600M 參數的自動語音辨識模型 Nemotron 3.5 ASR。這款模型主打「一個 checkpoint 搞定 40 種語言」，支援即時串流輸出，而且不需要 GPU 就能運作。對正在打造本地 Agent pipeline 的開發者來說，這可能是目前最實用的開源語音選項之一。

什麼是 Nemotron 3.5 ASR

Nemotron 3.5 ASR 是 NVIDIA 繼 nemotron-speech-streaming-en-0.6b（英文版）之後推出的多語言擴展版本。同樣是 600M 參數，但透過「語言 ID 提示」（language-ID prompt conditioning）機制，讓單一模型就能處理 40 種語言的語音轉錄，不需要針對每種語言準備獨立模型或進行模型切換。

模型架構採用 Cache-Aware FastConformer-RNNT，由 24 層 FastConformer 編碼器搭配 RNNT（循環神經網路轉錄器）解碼器組成。所謂「Cache-Aware」，是指模型在串流處理音訊時，會快取編碼器的自注意力與卷積激活狀態，每次只處理新的音訊片段，重複利用先前的快取，避免傳統緩衝串流中重疊窗口帶來的重複計算。結果是：每個音訊幀只被處理一次，計算量與端到端延遲同時下降，但準確率不受影響。

40 種語言、三個層級

這 40 種語言並非全部處於同一品質等級，NVIDIA 將它們分為三層：

即用型（19 種語言）：開箱即用的高準確率語音辨識，包含英文（美式/英式）、西班牙文、法文、義大利文、葡萄牙文、荷蘭文、德文、土耳其文、俄文、阿拉伯文、印地文、日文、韓文、越南文、烏克蘭文等。
廣泛覆蓋（13 種語言）：可直接用於生產環境的語音辨識，涵蓋波蘭文、瑞典文、捷克文、挪威文等歐洲語言。
適配型（8 種語言）：分詞器已支援，但需要針對特定領域資料微調才能達到完整轉錄品質。

語言控制方式有兩種：在推理時設定 target_lang 指定語言（如 zh-CN、ja-JP），或設為 auto 讓模型自動偵測。自動偵測模式下，模型會在標點符號後輸出語言標籤，適合處理混合語言的音訊來源。[1]

延遲可調：一個旋鈕控制速度與準確率

Nemotron 3.5 ASR 有一個很實用的設計：att_context_size 參數讓你在推理時自由調整延遲與準確率的平衡點，不需要重新訓練模型。

[56, 0]：80ms 超低延遲模式，適合即時互動場景
[56, 1]：160ms 低延遲
[56, 3]：560ms 平衡模式（預設值）
[56, 13]：1.12s 最高準確率模式

同一個 checkpoint 覆蓋完整範圍。開發者可以根據應用場景（即時字幕 vs 批次轉錄）在推理階段選擇最佳運作點，不需要為不同場景準備不同模型。

比 Whisper 快在哪裡

語音辨識領域，OpenAI 的 Whisper 一直是開源標竿。Nemotron 3.5 ASR 的定位不是「取代 Whisper」，而是在特定場景下提供更好的選擇。

E2E Networks 在 NVIDIA L4 GPU 上對 Whisper large-v3-turbo（809M 參數）、Parakeet TDT 0.6B 以及 Nemotron Speech Streaming 0.6B 進行了 58 種配置的基準測試。結果顯示，Nemotron 在串流場景下達到 258 倍即時處理速度，而且詞錯率（WER）在所有配置下保持穩定不變。相較之下，Whisper 在短音訊片段（chunk=10s）時會出現 3.5% 的詞錯率退化，這是多數基準測試沒有揭露的隱藏陷阱。

具體差異可以從幾個面向理解：

串流能力：Whisper 是編碼器-解碼器架構，天生適合批次處理；Nemotron 的 Cache-Aware FastConformer-RNNT 是為串流設計的，邊聽邊輸出，端到端延遲可低於 100ms。
並行處理：NVIDIA 官方數據指出，在 H100 上 Nemotron ASR 可同時處理的並行串流數量比前代 Parakeet RNNT 更多，直接降低每個串流的運營成本。
CPU 友善：600M 參數的模型體積讓它能在純 CPU 環境、Apple Silicon（MPS）上運作，音訊不需要離開本機，也沒有按分鐘計費的問題。

不過 Whisper 也有其優勢：在嘈雜環境和帶口音的音訊上，Whisper large-v3-turbo 的穩健性仍然較強，這反映了它在數十萬小時多樣化網路音訊上的訓練基礎。

額外功能：Word Boosting 與 Speaker Diarization

除了基本的語音轉文字，Nemotron 3.5 ASR 還內建了幾個實用功能：

Word Boosting：可以自訂優先辨識的詞彙（如專業術語、品牌名稱、產業行話），不需要重新訓練模型。對醫療、法律、科技等領域的語音辨識特別有用。
Speaker Diarization：辨識並區分不同說話者，適合多人對話場景如會議、播客、訪談。
自動標點與大寫：輸出文字自帶標點符號和正確大小寫，不需要額外的標點恢復步驟。

部署方式與授權

Nemotron 3.5 ASR 以 OpenMDW-1.1 授權開源，模型權重已在 HuggingFace 上架（nvidia/nemotron-3.5-asr-streaming-0.6b），可直接用於商業用途。

部署方式有幾種選擇：

直接使用 NeMo 框架：pip install nemo_toolkit[asr] 後幾行程式碼即可載入模型並開始轉錄。
OpenAI 相容 HTTP 伺服器：可將模型包裝在 /v1/audio/transcriptions 端點後面，任何 OpenAI 相容的客戶端都能直接使用。
NVIDIA NIM：NVIDIA 的雲端託管服務也提供了 Nemotron ASR 的部署選項。
HuggingFace Transformers：支援標準的 HuggingFace 載入流程。

LiveKit 團隊也發布了詳細的整合指南，展示如何將 Nemotron 3.5 ASR 接入即時語音 Agent pipeline，包含本地提詞器（teleprompter）的完整實作範例。

對本地 Agent 生態的意義

過去要在本地跑語音辨識，開發者的選擇通常是 Whisper（準確但慢、大模型需要 GPU）或各種小型模型（快但語言支援有限）。Nemotron 3.5 ASR 填補了一個中間位置：體積夠小（600M 參數），純 CPU 也能即時運作；語言覆蓋夠廣（40 種），不需要為每種語言準備獨立模型；架構夠新（Cache-Aware 串流），延遲可控。

對於正在搭建本地 AI Agent 的開發者而言，這意味著語音輸入不再是一個需要依賴雲端 API 的環節。模型可以完全離線運作，音訊資料不離開本機，同時保有即時串流能力和可接受的辨識品質。再搭配 NVIDIA 自家的 Nemotron 3 Nano（語言模型）和 Magpie TTS（語音合成），從語音輸入到推理到語音輸出的完整 Agent pipeline 都能在本地跑起來。

需要注意的地方

這款模型並非完美無缺。根據 Geeky Gadgets 的評測，在以下幾個面向仍有改善空間：

即時轉錄的標點準確度：在串流模式下，標點符號的插入位置偶爾會不準確。
語言自動偵測：auto 模式的偵測結果參差不齊，已知語言時手動指定 target_lang 效果明顯更好。
特定語言需微調：第三層的 8 種語言需要額外微調才能達到可用品質，不是下載就能直接用。

整體而言，Nemotron 3.5 ASR 是 NVIDIA 在開源語音辨識領域的一步重要落子。它不是要打敗 Whisper，而是在串流、多語言、本地部署這三個維度上提供了一個更有競爭力的選擇。

Tags: ai HuggingFace Nemotron 3.5 ASR NVIDIA 語音辨識開源

NVIDIA 釋出僅 0.6B 語音辨識模型 Nemotron 3.5 ASR，純 CPU 就能即時轉錄 40 種語言

您也許會喜歡：

網站搜尋

廣告