微軟開源 VibeVoice 語音 AI 模型：60 分鐘長音頻一次轉寫、90 分鐘多角色 TTS 轉錄文字

微軟亞洲研究院近日推出開源語音 AI 模型 VibeVoice 系列，這套模型涵蓋語音辨識（ASR）、文字轉語音（TTS）與即時串流 TTS 三大方向，主打「長音頻一次處理」與「多人語音同時辨識」的商務應用能力，突破傳統模型必須將音頻切成短片段再拼接的限制。截至目前，VibeVoice 在 GitHub 上已累積超過 4.8 萬顆 Star，是 2025 年下半年以來最受關注的開源語音專案之一。

三大模型，各自解決不同痛點

VibeVoice 並非單一模型，而是一系列模型家族，目前包含三個成員：

VibeVoice-ASR（7B）：語音轉文字模型，可一次處理長達 60 分鐘的連續音頻，輸出結構化結果，同時包含「誰說的」（Speaker Diarization）、「什麼時候說的」（Timestamp）和「說了什麼」（Content）。支援超過 50 種語言，還允許使用者提供自訂關鍵詞（Hotwords）來提升特定領域術語的辨識準確率。
VibeVoice-TTS（1.5B）：文字轉語音模型，可合成最長 90 分鐘的語音，支援最多 4 個不同角色同時對話，每位角色擁有獨立音色與說話風格，且在整段對話中保持一致。支援中文、英文等多語言。此模型的論文已被 ICLR 2026 接受為 Oral。
VibeVoice-Realtime（0.5B）：輕量級即時 TTS 模型，首音延遲約 300 毫秒，支援串流文字輸入，適合嵌入對話式 AI 應用。近期還新增了 9 種語言（德、法、義、日、韓、荷、波、葡、西）的實驗性聲音，以及 11 種英文風格聲音。

技術核心：7.5Hz 超低幀率 + 自回歸擴散生成

VibeVoice 的關鍵技術突破在於「連續語音 tokenizer」。傳統語音模型通常以每秒 50 到 100 幀的頻率來表示語音，這在處理短音頻時沒問題，但面對 90 分鐘的長音頻，計算量會暴增到數十萬個 token，遠超當前大模型的處理能力。

VibeVoice 將幀率壓縮至 7.5Hz，生成 90 分鐘對話只需處理約 6.4 萬個 token，在大幅降低計算成本的同時，音質並未明顯受損。底層架構採用基於 Qwen2.5 的 LatentLM next-token diffusion 框架：先用變分自编码器（VAE）將語音波形編碼為連續潛在向量序列，再透過因果 Transformer 逐步預測下一個語音片段，實現「一句接一句」的自回歸式連續語音生成。

這種做法與傳統 TTS 一次性輸出整段音頻的方式截然不同。它讓模型能更好地理解上下文邏輯，避免前後語意不連貫的問題，在多人對話場景中也能自然呈現呼吸聲、停頓、口音變化等非語言提示。

ASR 實測：超越閉源多模態大模型

在語音辨識方面，VibeVoice ASR 的表現令人印象深刻。根據微軟的技術報告，在 AISHELL-4、AMI 和 AliMeeting 等五項權威基準測試中，VibeVoice ASR 的效能一致超越了此前領先的閉源多模態大模型。

與 OpenAI 的 Whisper 相比，VibeVoice ASR 的優勢主要在於兩個層面：第一，Whisper 需要將長音頻切成短片段分別處理，容易在切割點丢失上下文；第二，Whisper 不具備原生的說話人分離能力，多人同時說話的場景下錯誤率較高。VibeVoice ASR 則是將轉錄、說話人識別和時間戳標記整合在一次推理中完成。Reddit 上有用戶對 31 款語音轉文字模型進行醫療音頻基準測試，VibeVoice 9B 版本也名列前茅。

我對 31 個語音轉文字模型在醫療音頻上進行了基準測試——VibeVoice 9B 以 8.34%的字錯誤率成為新的開源領先者，但它體積龐大且速度緩慢：r/LocalLLaMA — I benchmarked 31 STT models on medical audio — VibeVoice 9B is the new open-source leader at 8.34% WER, but it’s big and slow : r/LocalLLaMA

TTS 應用：有聲書、播客、會議紀錄

TTS 方面，VibeVoice 的應用場景相當明確。傳統 AI 播客生成通常只能產出幾分鐘的雙人對話，VibeVoice 則支援最長 90 分鐘、最多 4 人同時對話。使用者只需提供一份帶角色標註的文字腳本，模型就能自動生成包含自然呼吸、停頓、語調變化的對話音頻。

0.5B 的 Realtime 版本則更適合嵌入實際產品。300 毫秒的首音延遲加上串流文字輸入能力，讓它可以直接接入對話式 AI Agent，作為即時語音合成引擎使用，不需要再另外串接第三方 TTS 服務。

開源授權與部署

VibeVoice 全系列採用 MIT 授權開源，允許本地部署，對重視數據隱私的企業尤其有吸引力。模型權重發佈在 Hugging Face 上，目前已整合進 Hugging Face Transformers 生態系統，也支援 vLLM 推理加速。

不過 VibeVoice 曾在 2025 年 9 月因被發現遭濫用（用於深偽音訊等不當用途）而被暫時下架，微軟當時表示「負責任的使用 AI 是微軟的指導原則之一」。後來 TTS 代碼恢復上架，但這段插曲也凸顯了高品質語音合成技術在防範 Deepfake 方面的潛在風險。微軟在 README 中明確提醒使用者「必須確保生成內容的可靠性，避免以誤導方式使用」。

資料來源

Tags: ai Github HuggingFace TTS VibeVoice 微軟開源

微軟開源 VibeVoice 語音 AI 模型：60 分鐘長音頻一次轉寫、90 分鐘多角色 TTS 轉錄文字

您也許會喜歡：

網站搜尋

廣告