長期以來,語音合成技術大多依賴於將聲音切碎成「Token」的離散化處理,雖然解決了傳輸與運算的難題,卻也因此失掉了人類聲音中那份細微的感情起伏與音質細節。然而,由 OpenBMB 團隊最新推出的開源模型 VoxCPM2,正以「Tokenizer-Free」(無分詞器)的全新架構,徹底打破了這層天花板,僅需 8GB 顯存的普通消費級顯卡即可運行,讓「電影級」的語音克隆正式進入尋常百姓家。

開源語音模型 VoxCPM2 :8GB 顯存即可運行的語音克隆神器
解密無 Tokenizer 的技術優勢
傳統的 TTS 系統(如早期版本或其他主流模型)通常使用「Tokenizer」將語音轉換為離散代碼,再進行語言建模。這種做法的缺點在於「數位化」的過程中會導致嚴重的聲學細節損失,造成合成出來的聲音雖然清晰,卻帶有一股揮之不去的「機器味」。
VoxCPM2 則採用了端到端的擴散自回歸架構 (Diffusion Autoregressive Architecture),結合了 LocEnc、TSLM、RALM 與 LocDiT 等多項先進技術 。最核心的突破在於它完全跳過了離散化步驟,直接處理連續的聲學特徵。這意味著模型能夠捕捉到呼吸音、鼻音、甚至是說話時的細微顫抖,實現了真正的「真偽難辨」。
根據官方測試數據與 Demo 頁面顯示,VoxCPM2 在國語(普通話)的發音準確性與情感表現力上,已經超越了許多商用等級的閉源 API 模型。
極致克隆:僅需 3 秒音頻,AI 就能成為你
對於創作者來說,VoxCPM2 最具吸引力的功能莫過於其「極致克隆 (Ultimate Cloning)」。不同於以往需要數小時訓練數據的語音克隆技術,VoxCPM2 僅需提供 3 到 10 秒的參考音頻(Reference Audio),就能在極短時間內捕捉到說話者的音色、語速與語調風格。
更強大的是,它具備「情境感知 (Context-Aware)」能力。當你輸入一段帶有情感標籤的文字時,模型會自動根據上下文調整語氣。例如,當文字描述是憤怒的,生成的語音不僅會放大音量,連說話的節奏與咬字力度也會隨之改變,這在目前的開源界是極其罕見的成就。
輕量化神話:只要 8GB 顯存消費級顯卡就可運行
過去,運行高品質的 2B(20 億)參數級別語音模型,往往需要 A100 或 RTX 4090 等頂級工作站配備。但 VoxCPM2 在架構優化上展現了驚人的輕量化優勢。對於一般使用者與 AI 玩家來說,不再需要支付昂貴的訂閱費給 OpenAI 或 ElevenLabs,只要有一張中階的 RTX 3060 或 4060 顯示卡(市價約新台幣 9,000 至 13,000 元),就能在本地端建立起一套私人專屬的配音工作室。
多語種支援:跨越 30 種語言的溝通橋樑
雖然 VoxCPM2 在國語表現上最為出色,但它本身也支援多國語言。該模型基於超過 200 萬小時的多語種語音數據訓練而成,支援包括中文、英文、日文、韓文、法文等在內的 30 種主要語言。
更驚人的是,VoxCPM2 具備「跨語言克隆」的能力。你可以餵入一段自己的中文錄音,然後讓 AI 用你的聲音去說流利的德文或阿拉伯文。這種技術在跨境電商、國際教育以及影視內容的出海中,具有極高的商業價值。
如何開始?從 Hugging Face 到 ComfyUI
VoxCPM2 的生態體系發展極快,目前已經有多種方式可以讓用戶體驗這款開源模型:
- Hugging Face 在線體驗: 官方已在 Hugging Face Spaces 部署了 Live Demo,用戶可以直接上傳音頻進行測試 。
- 本地部署: 開發者可以透過
pip install voxcpm快速安裝。對於 Mac 用戶,Hugging Face 社群甚至已經推出了專為 Apple Silicon(M1/M2/M3)優化的 MLX 版本 (8-bit 壓縮),進一步降低了硬體門檻。 - ComfyUI 整合: 針對喜歡圖形化介面的創作者,GitHub 上已出現
ComfyUI-VoxCPM插件,讓你可以將語音生成無縫嵌入到 AI 繪圖或影片生成的流程中。
