微軟亞洲研究院近日推出開源語音 AI 模型 VibeVoice 系列,這套模型涵蓋語音辨識(ASR)、文字轉語音(TTS)與即時串流 TTS 三大方向,主打「長音頻一次處理」與「多人語音同時辨識」的商務應用能力,突破傳統模型必須將音頻切成短片段再拼接的限制。截至目前,VibeVoice 在 GitHub 上已累積超過 4.8 萬顆 Star,是 2025 年下半年以來最受關注的開源語音專案之一。
三大模型,各自解決不同痛點
VibeVoice 並非單一模型,而是一系列模型家族,目前包含三個成員:
- VibeVoice-ASR(7B):語音轉文字模型,可一次處理長達 60 分鐘的連續音頻,輸出結構化結果,同時包含「誰說的」(Speaker Diarization)、「什麼時候說的」(Timestamp)和「說了什麼」(Content)。支援超過 50 種語言,還允許使用者提供自訂關鍵詞(Hotwords)來提升特定領域術語的辨識準確率。
- VibeVoice-TTS(1.5B):文字轉語音模型,可合成最長 90 分鐘的語音,支援最多 4 個不同角色同時對話,每位角色擁有獨立音色與說話風格,且在整段對話中保持一致。支援中文、英文等多語言。此模型的論文已被 ICLR 2026 接受為 Oral。
- VibeVoice-Realtime(0.5B):輕量級即時 TTS 模型,首音延遲約 300 毫秒,支援串流文字輸入,適合嵌入對話式 AI 應用。近期還新增了 9 種語言(德、法、義、日、韓、荷、波、葡、西)的實驗性聲音,以及 11 種英文風格聲音。
技術核心:7.5Hz 超低幀率 + 自回歸擴散生成
VibeVoice 的關鍵技術突破在於「連續語音 tokenizer」。傳統語音模型通常以每秒 50 到 100 幀的頻率來表示語音,這在處理短音頻時沒問題,但面對 90 分鐘的長音頻,計算量會暴增到數十萬個 token,遠超當前大模型的處理能力。
VibeVoice 將幀率壓縮至 7.5Hz,生成 90 分鐘對話只需處理約 6.4 萬個 token,在大幅降低計算成本的同時,音質並未明顯受損。底層架構採用基於 Qwen2.5 的 LatentLM next-token diffusion 框架:先用變分自编码器(VAE)將語音波形編碼為連續潛在向量序列,再透過因果 Transformer 逐步預測下一個語音片段,實現「一句接一句」的自回歸式連續語音生成。
這種做法與傳統 TTS 一次性輸出整段音頻的方式截然不同。它讓模型能更好地理解上下文邏輯,避免前後語意不連貫的問題,在多人對話場景中也能自然呈現呼吸聲、停頓、口音變化等非語言提示。
ASR 實測:超越閉源多模態大模型
在語音辨識方面,VibeVoice ASR 的表現令人印象深刻。根據微軟的技術報告,在 AISHELL-4、AMI 和 AliMeeting 等五項權威基準測試中,VibeVoice ASR 的效能一致超越了此前領先的閉源多模態大模型。
與 OpenAI 的 Whisper 相比,VibeVoice ASR 的優勢主要在於兩個層面:第一,Whisper 需要將長音頻切成短片段分別處理,容易在切割點丢失上下文;第二,Whisper 不具備原生的說話人分離能力,多人同時說話的場景下錯誤率較高。VibeVoice ASR 則是將轉錄、說話人識別和時間戳標記整合在一次推理中完成。Reddit 上有用戶對 31 款語音轉文字模型進行醫療音頻基準測試,VibeVoice 9B 版本也名列前茅。
TTS 應用:有聲書、播客、會議紀錄
TTS 方面,VibeVoice 的應用場景相當明確。傳統 AI 播客生成通常只能產出幾分鐘的雙人對話,VibeVoice 則支援最長 90 分鐘、最多 4 人同時對話。使用者只需提供一份帶角色標註的文字腳本,模型就能自動生成包含自然呼吸、停頓、語調變化的對話音頻。
0.5B 的 Realtime 版本則更適合嵌入實際產品。300 毫秒的首音延遲加上串流文字輸入能力,讓它可以直接接入對話式 AI Agent,作為即時語音合成引擎使用,不需要再另外串接第三方 TTS 服務。
開源授權與部署
VibeVoice 全系列採用 MIT 授權開源,允許本地部署,對重視數據隱私的企業尤其有吸引力。模型權重發佈在 Hugging Face 上,目前已整合進 Hugging Face Transformers 生態系統,也支援 vLLM 推理加速。
不過 VibeVoice 曾在 2025 年 9 月因被發現遭濫用(用於深偽音訊等不當用途)而被暫時下架,微軟當時表示「負責任的使用 AI 是微軟的指導原則之一」。後來 TTS 代碼恢復上架,但這段插曲也凸顯了高品質語音合成技術在防範 Deepfake 方面的潛在風險。微軟在 README 中明確提醒使用者「必須確保生成內容的可靠性,避免以誤導方式使用」。


