電腦王阿達
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 通訊達人
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 阿達自製工具
    • 非記不可:絕不會錯過重要事件
    • Gemini 即時語音翻譯
    • 名片辨識王:免費的名片整理App
    • LINE貼圖裁切去背神器
    • Nano Banana Pro 去浮水印工具
    • 最愛提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 通訊達人
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 阿達自製工具
    • 非記不可:絕不會錯過重要事件
    • Gemini 即時語音翻譯
    • 名片辨識王:免費的名片整理App
    • LINE貼圖裁切去背神器
    • Nano Banana Pro 去浮水印工具
    • 最愛提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
電腦王阿達
No Result
View All Result

首頁 » AI 新聞與教學 » AI 趨勢與相關新聞

Tags: aiGithubHuggingFaceTTSVibeVoice微軟開源

微軟開源 VibeVoice 語音 AI 模型:60 分鐘長音頻一次轉寫、90 分鐘多角色 TTS 轉錄文字

達小編 by 達小編
2026 年 06 月 06 日
in AI 趨勢與相關新聞, 最新科技新聞
讀取中...

微軟亞洲研究院近日推出開源語音 AI 模型 VibeVoice 系列,這套模型涵蓋語音辨識(ASR)、文字轉語音(TTS)與即時串流 TTS 三大方向,主打「長音頻一次處理」與「多人語音同時辨識」的商務應用能力,突破傳統模型必須將音頻切成短片段再拼接的限制。截至目前,VibeVoice 在 GitHub 上已累積超過 4.8 萬顆 Star,是 2025 年下半年以來最受關注的開源語音專案之一。
微軟開源 VibeVoice 語音 AI 模型:60 分鐘長音頻一次轉寫、90 分鐘多角色 TTS 轉錄文字 - 電腦王阿達

三大模型,各自解決不同痛點

VibeVoice 並非單一模型,而是一系列模型家族,目前包含三個成員:

  • VibeVoice-ASR(7B):語音轉文字模型,可一次處理長達 60 分鐘的連續音頻,輸出結構化結果,同時包含「誰說的」(Speaker Diarization)、「什麼時候說的」(Timestamp)和「說了什麼」(Content)。支援超過 50 種語言,還允許使用者提供自訂關鍵詞(Hotwords)來提升特定領域術語的辨識準確率。
  • VibeVoice-TTS(1.5B):文字轉語音模型,可合成最長 90 分鐘的語音,支援最多 4 個不同角色同時對話,每位角色擁有獨立音色與說話風格,且在整段對話中保持一致。支援中文、英文等多語言。此模型的論文已被 ICLR 2026 接受為 Oral。
  • VibeVoice-Realtime(0.5B):輕量級即時 TTS 模型,首音延遲約 300 毫秒,支援串流文字輸入,適合嵌入對話式 AI 應用。近期還新增了 9 種語言(德、法、義、日、韓、荷、波、葡、西)的實驗性聲音,以及 11 種英文風格聲音。

技術核心:7.5Hz 超低幀率 + 自回歸擴散生成

VibeVoice 的關鍵技術突破在於「連續語音 tokenizer」。傳統語音模型通常以每秒 50 到 100 幀的頻率來表示語音,這在處理短音頻時沒問題,但面對 90 分鐘的長音頻,計算量會暴增到數十萬個 token,遠超當前大模型的處理能力。

VibeVoice 將幀率壓縮至 7.5Hz,生成 90 分鐘對話只需處理約 6.4 萬個 token,在大幅降低計算成本的同時,音質並未明顯受損。底層架構採用基於 Qwen2.5 的 LatentLM next-token diffusion 框架:先用變分自编码器(VAE)將語音波形編碼為連續潛在向量序列,再透過因果 Transformer 逐步預測下一個語音片段,實現「一句接一句」的自回歸式連續語音生成。

微軟開源 VibeVoice 語音 AI 模型:60 分鐘長音頻一次轉寫、90 分鐘多角色 TTS 轉錄文字 - 電腦王阿達

這種做法與傳統 TTS 一次性輸出整段音頻的方式截然不同。它讓模型能更好地理解上下文邏輯,避免前後語意不連貫的問題,在多人對話場景中也能自然呈現呼吸聲、停頓、口音變化等非語言提示。

ASR 實測:超越閉源多模態大模型

在語音辨識方面,VibeVoice ASR 的表現令人印象深刻。根據微軟的技術報告,在 AISHELL-4、AMI 和 AliMeeting 等五項權威基準測試中,VibeVoice ASR 的效能一致超越了此前領先的閉源多模態大模型。
微軟開源 VibeVoice 語音 AI 模型:60 分鐘長音頻一次轉寫、90 分鐘多角色 TTS 轉錄文字 - 電腦王阿達

與 OpenAI 的 Whisper 相比,VibeVoice ASR 的優勢主要在於兩個層面:第一,Whisper 需要將長音頻切成短片段分別處理,容易在切割點丢失上下文;第二,Whisper 不具備原生的說話人分離能力,多人同時說話的場景下錯誤率較高。VibeVoice ASR 則是將轉錄、說話人識別和時間戳標記整合在一次推理中完成。Reddit 上有用戶對 31 款語音轉文字模型進行醫療音頻基準測試,VibeVoice 9B 版本也名列前茅。

我對 31 個語音轉文字模型在醫療音頻上進行了基準測試——VibeVoice 9B 以 8.34%的字錯誤率成為新的開源領先者,但它體積龐大且速度緩慢:r/LocalLLaMA — I benchmarked 31 STT models on medical audio — VibeVoice 9B is the new open-source leader at 8.34% WER, but it’s big and slow : r/LocalLLaMA

TTS 應用:有聲書、播客、會議紀錄

TTS 方面,VibeVoice 的應用場景相當明確。傳統 AI 播客生成通常只能產出幾分鐘的雙人對話,VibeVoice 則支援最長 90 分鐘、最多 4 人同時對話。使用者只需提供一份帶角色標註的文字腳本,模型就能自動生成包含自然呼吸、停頓、語調變化的對話音頻。

0.5B 的 Realtime 版本則更適合嵌入實際產品。300 毫秒的首音延遲加上串流文字輸入能力,讓它可以直接接入對話式 AI Agent,作為即時語音合成引擎使用,不需要再另外串接第三方 TTS 服務。

開源授權與部署

VibeVoice 全系列採用 MIT 授權開源,允許本地部署,對重視數據隱私的企業尤其有吸引力。模型權重發佈在 Hugging Face 上,目前已整合進 Hugging Face Transformers 生態系統,也支援 vLLM 推理加速。

不過 VibeVoice 曾在 2025 年 9 月因被發現遭濫用(用於深偽音訊等不當用途)而被暫時下架,微軟當時表示「負責任的使用 AI 是微軟的指導原則之一」。後來 TTS 代碼恢復上架,但這段插曲也凸顯了高品質語音合成技術在防範 Deepfake 方面的潛在風險。微軟在 README 中明確提醒使用者「必須確保生成內容的可靠性,避免以誤導方式使用」。

資料來源

Tags: aiGithubHuggingFaceTTSVibeVoice微軟開源

您也許會喜歡:

立達合法徵信社-讓您安心的選擇

網站搜尋

No Result
View All Result

廣告


歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 通訊達人
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
    • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 阿達自製工具
    • 超好用懶人包
    • Nano Banana Pro 去浮水印工具
    • 自製LINE 貼圖裁切去背神器
    • 阿達的提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 通訊達人
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
    • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 阿達自製工具
    • 超好用懶人包
    • Nano Banana Pro 去浮水印工具
    • 自製LINE 貼圖裁切去背神器
    • 阿達的提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技