阿里巴巴推出 Qwen3-TTS 開源語音模型：3 秒任何人克隆聲音、97ms 超低延遲，消費級顯卡即可運行

阿里巴巴旗下通義千問團隊於 2026 年 1 月正式發布 Qwen3-TTS，這款開源語音合成模型被業界稱為語音 AI 的「核彈」級產品。僅需 3 秒鐘的音訊即可克隆任何人的聲音，效果甚至超越 ElevenLabs 等付費訂閱服務，徹底終結了高價語音克隆（VoiceClone）的時代。

3 秒克隆：技術門檻歸零

Qwen3-TTS 最令人震撼的特性是其極低的語音克隆門檻。傳統語音克隆技術通常需要數分鐘甚至數小時的訓練音訊，而 Qwen3-TTS 只需 3 秒鐘的參考音訊即可生成高度相似的克隆聲音。這意味著從一段短暫的語音訊息、影片片段，甚至電話錄音中，就能提取並複製一個人的聲音特徵。

根據官方技術報告，Qwen3-TTS 在 Seed-TTS-Eval 基準測試中表現優異：中文詞錯誤率（WER）僅 2.12%，英文 WER 2.58%，說話人相似度達到 0.89。在多語言 TTS 測試中，其表現更勝 ElevenLabs 和 MiniMax 等商業競品。

X平台上就有網友分享了 Qwen3-TTS 克隆 Sam Altman 聲音的驚人效果，如果被用來詐騙將會非常可怕：

开源语音 AI 的“核弹”来了

刚发布的 Qwen3-TTS 彻底终结了昂贵语音克隆的时代

1.7B 参数量，效果直接干翻市面上的付费订阅

3秒克隆，只要你一段 3s 的录音，你的声音就“开源”了

毫秒级延迟，97ms 响应，比你眨眼还快

WER 暴打竞品

发音比 ElevenLabs 更像真人，完全听不出机器人感

最可怕的是… pic.twitter.com/gxjU6LuoMg

— 比特币橙子Trader (@chengzi_95330) February 18, 2026

毫秒級延遲：比眨眼還快

Qwen3-TTS 採用創新的 Dual-Track 雙軌流式生成架構，實現了 97 毫秒的端到端合成延遲。相比之下，人類眨眼一次約需 100-150 毫秒，這意味著 Qwen3-TTS 的反應速度比眨眼還快。這項突破使其適用於即時互動場景，如 AI 語音助理、線上客服、直播互動等。

模型支援 10 種主要語言：中文、英文、日文、韓文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文，並具備跨語言語音克隆能力：可用中文聲音說英文，或用英文聲音說日文，且保持音色一致性。

Model	Features	Language Support	Streaming	Instruction Control
Qwen3-TTS-12Hz-1.7B-VoiceDesign	Performs voice design based on user-provided descriptions.	Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian	✅	✅
Qwen3-TTS-12Hz-1.7B-CustomVoice	Provides style control over target timbres via user instructions; supports 9 premium timbres covering various combinations of gender, age, language, and dialect.	Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian	✅	✅
Qwen3-TTS-12Hz-1.7B-Base	Base model capable of 3-second rapid voice clone from user audio input; can be used for fine-tuning (FT) other models.	Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian	✅
Qwen3-TTS-12Hz-0.6B-CustomVoice	Supports 9 premium timbres covering various combinations of gender, age, language, and dialect.	Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian	✅
Qwen3-TTS-12Hz-0.6B-Base	Base model capable of 3-second rapid voice clone from user audio input; can be used for fine-tuning (FT) other models.	Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian	✅

三大核心功能

Qwen3-TTS 提供三種主要功能模式：

VoiceClone（語音克隆）：基於 3 秒參考音訊克隆特定說話人聲音，支援長達 10 分鐘的連續語音生成
VoiceDesign（語音設計）：透過自然語言描述創建全新聲音，如「低沉帶沙啞的男聲，略帶英國口音」
CustomVoice（自定義聲音）：內建 9 種高品質預設聲音，支援情感、語調、語速等多維度控制

免費開源 vs 昂貴訂閱

Qwen3-TTS 採用 Apache 2.0 開源授權，提供 0.6B 和 1.7B 兩種參數規模。1.7B 模型需 6-8GB VRAM，0.6B 模型僅需 4-6GB VRAM，消費級顯卡即可運行。這與 ElevenLabs 每月 $5-330 的訂閱費用形成鮮明對比：開發者和內容創作者現在可以零成本獲得頂尖語音合成能力。

自研的 Qwen3-TTS-Tokenizer-12Hz 語音編碼器實現了高效的聲學壓縮，同時保留副語言資訊（情感、語調）和聲學環境特徵。非 DiT 輕量級架構讓模型能在普通硬體上實現高速、高保真度的語音重建。

Qwen3-TTS huggingface / GitHub

技術紅利與濫用風險並存

Qwen3-TTS 的開源釋出無疑是語音 AI 領域的重大突破，但正如開頭提到的：「僅需 3 秒鐘的音訊即可克隆任何人的聲音，而且它沒有任何倫理限制」，意味著這項技術可能被有心人士輕易的濫用（其實現在一樣可以，只是門檻更低）。當詐騙者可以用你的 3 秒鐘語音片段生成完整的對話內容，當親人接到「你的」語音電話要求轉帳，如何證明那真的是你？現有的語音驗證、銀行電話確認、甚至法律證據都可能受到衝擊。

技術本身是中性的，但開源且無使用限制的釋出策略，確實讓風險指數級增長。這需要社會各界共同思考：如何建立新的身分驗證機制？如何制定 AI 語音使用的法律框架？當技術發展速度遠超監管能力時，個人防護意識的提升或許是最後一道防線。

Tags: Qwen3 Qwen3-TTS VoiceClone 通義千問阿里巴巴

阿里巴巴推出 Qwen3-TTS 開源語音模型：3 秒任何人克隆聲音、97ms 超低延遲，消費級顯卡即可運行

您也許會喜歡：

網站搜尋

廣告