阿里巴巴旗下通義千問團隊於 2026 年 1 月正式發布 Qwen3-TTS,這款開源語音合成模型被業界稱為語音 AI 的「核彈」級產品。僅需 3 秒鐘的音訊即可克隆任何人的聲音,效果甚至超越 ElevenLabs 等付費訂閱服務,徹底終結了高價語音克隆(VoiceClone)的時代。

3 秒克隆:技術門檻歸零
Qwen3-TTS 最令人震撼的特性是其極低的語音克隆門檻。傳統語音克隆技術通常需要數分鐘甚至數小時的訓練音訊,而 Qwen3-TTS 只需 3 秒鐘的參考音訊即可生成高度相似的克隆聲音。這意味著從一段短暫的語音訊息、影片片段,甚至電話錄音中,就能提取並複製一個人的聲音特徵。
根據官方技術報告,Qwen3-TTS 在 Seed-TTS-Eval 基準測試中表現優異:中文詞錯誤率(WER)僅 2.12%,英文 WER 2.58%,說話人相似度達到 0.89。在多語言 TTS 測試中,其表現更勝 ElevenLabs 和 MiniMax 等商業競品。
X平台上就有網友分享了 Qwen3-TTS 克隆 Sam Altman 聲音的驚人效果,如果被用來詐騙將會非常可怕:
开源语音 AI 的“核弹”来了
刚发布的 Qwen3-TTS 彻底终结了昂贵语音克隆的时代
1.7B 参数量,效果直接干翻市面上的付费订阅
3秒克隆,只要你一段 3s 的录音,你的声音就“开源”了
毫秒级延迟,97ms 响应,比你眨眼还快
WER 暴打竞品
发音比 ElevenLabs 更像真人,完全听不出机器人感
最可怕的是… pic.twitter.com/gxjU6LuoMg
— 比特币橙子Trader (@chengzi_95330) February 18, 2026
毫秒級延遲:比眨眼還快
Qwen3-TTS 採用創新的 Dual-Track 雙軌流式生成架構,實現了 97 毫秒的端到端合成延遲。相比之下,人類眨眼一次約需 100-150 毫秒,這意味著 Qwen3-TTS 的反應速度比眨眼還快。這項突破使其適用於即時互動場景,如 AI 語音助理、線上客服、直播互動等。
模型支援 10 種主要語言:中文、英文、日文、韓文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文,並具備跨語言語音克隆能力:可用中文聲音說英文,或用英文聲音說日文,且保持音色一致性。
| Model | Features | Language Support | Streaming | Instruction Control |
|---|---|---|---|---|
| Qwen3-TTS-12Hz-1.7B-VoiceDesign | Performs voice design based on user-provided descriptions. | Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian | ✅ | ✅ |
| Qwen3-TTS-12Hz-1.7B-CustomVoice | Provides style control over target timbres via user instructions; supports 9 premium timbres covering various combinations of gender, age, language, and dialect. | Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian | ✅ | ✅ |
| Qwen3-TTS-12Hz-1.7B-Base | Base model capable of 3-second rapid voice clone from user audio input; can be used for fine-tuning (FT) other models. | Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian | ✅ | |
| Qwen3-TTS-12Hz-0.6B-CustomVoice | Supports 9 premium timbres covering various combinations of gender, age, language, and dialect. | Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian | ✅ | |
| Qwen3-TTS-12Hz-0.6B-Base | Base model capable of 3-second rapid voice clone from user audio input; can be used for fine-tuning (FT) other models. | Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian | ✅ |
三大核心功能
Qwen3-TTS 提供三種主要功能模式:
- VoiceClone(語音克隆):基於 3 秒參考音訊克隆特定說話人聲音,支援長達 10 分鐘的連續語音生成
- VoiceDesign(語音設計):透過自然語言描述創建全新聲音,如「低沉帶沙啞的男聲,略帶英國口音」
- CustomVoice(自定義聲音):內建 9 種高品質預設聲音,支援情感、語調、語速等多維度控制
免費開源 vs 昂貴訂閱
Qwen3-TTS 採用 Apache 2.0 開源授權,提供 0.6B 和 1.7B 兩種參數規模。1.7B 模型需 6-8GB VRAM,0.6B 模型僅需 4-6GB VRAM,消費級顯卡即可運行。這與 ElevenLabs 每月 $5-330 的訂閱費用形成鮮明對比:開發者和內容創作者現在可以零成本獲得頂尖語音合成能力。
自研的 Qwen3-TTS-Tokenizer-12Hz 語音編碼器實現了高效的聲學壓縮,同時保留副語言資訊(情感、語調)和聲學環境特徵。非 DiT 輕量級架構讓模型能在普通硬體上實現高速、高保真度的語音重建。
Qwen3-TTS huggingface / GitHub
技術紅利與濫用風險並存
Qwen3-TTS 的開源釋出無疑是語音 AI 領域的重大突破,但正如開頭提到的:「僅需 3 秒鐘的音訊即可克隆任何人的聲音,而且它沒有任何倫理限制」,意味著這項技術可能被有心人士輕易的濫用(其實現在一樣可以,只是門檻更低)。當詐騙者可以用你的 3 秒鐘語音片段生成完整的對話內容,當親人接到「你的」語音電話要求轉帳,如何證明那真的是你?現有的語音驗證、銀行電話確認、甚至法律證據都可能受到衝擊。
技術本身是中性的,但開源且無使用限制的釋出策略,確實讓風險指數級增長。這需要社會各界共同思考:如何建立新的身分驗證機制?如何制定 AI 語音使用的法律框架?當技術發展速度遠超監管能力時,個人防護意識的提升或許是最後一道防線。
