電腦王阿達
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 通訊達人
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 阿達自製工具
    • 非記不可:絕不會錯過重要事件
    • Gemini 即時語音翻譯
    • 名片辨識王:免費的名片整理App
    • LINE貼圖裁切去背神器
    • Nano Banana Pro 去浮水印工具
    • 最愛提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 通訊達人
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 阿達自製工具
    • 非記不可:絕不會錯過重要事件
    • Gemini 即時語音翻譯
    • 名片辨識王:免費的名片整理App
    • LINE貼圖裁切去背神器
    • Nano Banana Pro 去浮水印工具
    • 最愛提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
電腦王阿達
No Result
View All Result

首頁 » AI 新聞與教學 » AI 工具分享與教學

Tags: aiHuggingFaceNemotron 3.5 ASRNVIDIA語音辨識開源

NVIDIA 釋出僅 0.6B 語音辨識模型 Nemotron 3.5 ASR,純 CPU 就能即時轉錄 40 種語言

達小編 by 達小編
2026 年 06 月 20 日
in AI 工具分享與教學, 最新科技新聞
讀取中...

NVIDIA 的 NeMo 語音團隊在 6 月初悄悄上架了一款 600M 參數的自動語音辨識模型 Nemotron 3.5 ASR。這款模型主打「一個 checkpoint 搞定 40 種語言」,支援即時串流輸出,而且不需要 GPU 就能運作。對正在打造本地 Agent pipeline 的開發者來說,這可能是目前最實用的開源語音選項之一。
NVIDIA 釋出僅 0.6B 語音辨識模型 Nemotron 3.5 ASR,純 CPU 就能即時轉錄 40 種語言 - 電腦王阿達

什麼是 Nemotron 3.5 ASR

Nemotron 3.5 ASR 是 NVIDIA 繼 nemotron-speech-streaming-en-0.6b(英文版)之後推出的多語言擴展版本。同樣是 600M 參數,但透過「語言 ID 提示」(language-ID prompt conditioning)機制,讓單一模型就能處理 40 種語言的語音轉錄,不需要針對每種語言準備獨立模型或進行模型切換。

模型架構採用 Cache-Aware FastConformer-RNNT,由 24 層 FastConformer 編碼器搭配 RNNT(循環神經網路轉錄器)解碼器組成。所謂「Cache-Aware」,是指模型在串流處理音訊時,會快取編碼器的自注意力與卷積激活狀態,每次只處理新的音訊片段,重複利用先前的快取,避免傳統緩衝串流中重疊窗口帶來的重複計算。結果是:每個音訊幀只被處理一次,計算量與端到端延遲同時下降,但準確率不受影響。

40 種語言、三個層級

這 40 種語言並非全部處於同一品質等級,NVIDIA 將它們分為三層:

  • 即用型(19 種語言):開箱即用的高準確率語音辨識,包含英文(美式/英式)、西班牙文、法文、義大利文、葡萄牙文、荷蘭文、德文、土耳其文、俄文、阿拉伯文、印地文、日文、韓文、越南文、烏克蘭文等。
  • 廣泛覆蓋(13 種語言):可直接用於生產環境的語音辨識,涵蓋波蘭文、瑞典文、捷克文、挪威文等歐洲語言。
  • 適配型(8 種語言):分詞器已支援,但需要針對特定領域資料微調才能達到完整轉錄品質。

語言控制方式有兩種:在推理時設定 target_lang 指定語言(如 zh-CN、ja-JP),或設為 auto 讓模型自動偵測。自動偵測模式下,模型會在標點符號後輸出語言標籤,適合處理混合語言的音訊來源。[1]

延遲可調:一個旋鈕控制速度與準確率

Nemotron 3.5 ASR 有一個很實用的設計:att_context_size 參數讓你在推理時自由調整延遲與準確率的平衡點,不需要重新訓練模型。

  • [56, 0]:80ms 超低延遲模式,適合即時互動場景
  • [56, 1]:160ms 低延遲
  • [56, 3]:560ms 平衡模式(預設值)
  • [56, 13]:1.12s 最高準確率模式

同一個 checkpoint 覆蓋完整範圍。開發者可以根據應用場景(即時字幕 vs 批次轉錄)在推理階段選擇最佳運作點,不需要為不同場景準備不同模型。

比 Whisper 快在哪裡

語音辨識領域,OpenAI 的 Whisper 一直是開源標竿。Nemotron 3.5 ASR 的定位不是「取代 Whisper」,而是在特定場景下提供更好的選擇。

E2E Networks 在 NVIDIA L4 GPU 上對 Whisper large-v3-turbo(809M 參數)、Parakeet TDT 0.6B 以及 Nemotron Speech Streaming 0.6B 進行了 58 種配置的基準測試。結果顯示,Nemotron 在串流場景下達到 258 倍即時處理速度,而且詞錯率(WER)在所有配置下保持穩定不變。相較之下,Whisper 在短音訊片段(chunk=10s)時會出現 3.5% 的詞錯率退化,這是多數基準測試沒有揭露的隱藏陷阱。

具體差異可以從幾個面向理解:

  • 串流能力:Whisper 是編碼器-解碼器架構,天生適合批次處理;Nemotron 的 Cache-Aware FastConformer-RNNT 是為串流設計的,邊聽邊輸出,端到端延遲可低於 100ms。
  • 並行處理:NVIDIA 官方數據指出,在 H100 上 Nemotron ASR 可同時處理的並行串流數量比前代 Parakeet RNNT 更多,直接降低每個串流的運營成本。
  • CPU 友善:600M 參數的模型體積讓它能在純 CPU 環境、Apple Silicon(MPS)上運作,音訊不需要離開本機,也沒有按分鐘計費的問題。

不過 Whisper 也有其優勢:在嘈雜環境和帶口音的音訊上,Whisper large-v3-turbo 的穩健性仍然較強,這反映了它在數十萬小時多樣化網路音訊上的訓練基礎。

額外功能:Word Boosting 與 Speaker Diarization

除了基本的語音轉文字,Nemotron 3.5 ASR 還內建了幾個實用功能:

  • Word Boosting:可以自訂優先辨識的詞彙(如專業術語、品牌名稱、產業行話),不需要重新訓練模型。對醫療、法律、科技等領域的語音辨識特別有用。
  • Speaker Diarization:辨識並區分不同說話者,適合多人對話場景如會議、播客、訪談。
  • 自動標點與大寫:輸出文字自帶標點符號和正確大小寫,不需要額外的標點恢復步驟。

部署方式與授權

Nemotron 3.5 ASR 以 OpenMDW-1.1 授權開源,模型權重已在 HuggingFace 上架(nvidia/nemotron-3.5-asr-streaming-0.6b),可直接用於商業用途。

部署方式有幾種選擇:

  • 直接使用 NeMo 框架:pip install nemo_toolkit[asr] 後幾行程式碼即可載入模型並開始轉錄。
  • OpenAI 相容 HTTP 伺服器:可將模型包裝在 /v1/audio/transcriptions 端點後面,任何 OpenAI 相容的客戶端都能直接使用。
  • NVIDIA NIM:NVIDIA 的雲端託管服務也提供了 Nemotron ASR 的部署選項。
  • HuggingFace Transformers:支援標準的 HuggingFace 載入流程。

LiveKit 團隊也發布了詳細的整合指南,展示如何將 Nemotron 3.5 ASR 接入即時語音 Agent pipeline,包含本地提詞器(teleprompter)的完整實作範例。

對本地 Agent 生態的意義

過去要在本地跑語音辨識,開發者的選擇通常是 Whisper(準確但慢、大模型需要 GPU)或各種小型模型(快但語言支援有限)。Nemotron 3.5 ASR 填補了一個中間位置:體積夠小(600M 參數),純 CPU 也能即時運作;語言覆蓋夠廣(40 種),不需要為每種語言準備獨立模型;架構夠新(Cache-Aware 串流),延遲可控。

對於正在搭建本地 AI Agent 的開發者而言,這意味著語音輸入不再是一個需要依賴雲端 API 的環節。模型可以完全離線運作,音訊資料不離開本機,同時保有即時串流能力和可接受的辨識品質。再搭配 NVIDIA 自家的 Nemotron 3 Nano(語言模型)和 Magpie TTS(語音合成),從語音輸入到推理到語音輸出的完整 Agent pipeline 都能在本地跑起來。

需要注意的地方

這款模型並非完美無缺。根據 Geeky Gadgets 的評測,在以下幾個面向仍有改善空間:

  • 即時轉錄的標點準確度:在串流模式下,標點符號的插入位置偶爾會不準確。
  • 語言自動偵測:auto 模式的偵測結果參差不齊,已知語言時手動指定 target_lang 效果明顯更好。
  • 特定語言需微調:第三層的 8 種語言需要額外微調才能達到可用品質,不是下載就能直接用。

整體而言,Nemotron 3.5 ASR 是 NVIDIA 在開源語音辨識領域的一步重要落子。它不是要打敗 Whisper,而是在串流、多語言、本地部署這三個維度上提供了一個更有競爭力的選擇。

Tags: aiHuggingFaceNemotron 3.5 ASRNVIDIA語音辨識開源

您也許會喜歡:

立達合法徵信社-讓您安心的選擇

網站搜尋

No Result
View All Result

廣告


歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 通訊達人
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
    • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 阿達自製工具
    • 超好用懶人包
    • Nano Banana Pro 去浮水印工具
    • 自製LINE 貼圖裁切去背神器
    • 阿達的提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 通訊達人
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
    • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 阿達自製工具
    • 超好用懶人包
    • Nano Banana Pro 去浮水印工具
    • 自製LINE 貼圖裁切去背神器
    • 阿達的提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技