你有沒有注意到,跟 AI 語音助理對話時,總是得「輪流講話」?你說完一句,等它回應,它說完了,你才能接著講。這種「對講機模式」跟真人對話的體驗差距巨大,畢竟人類在日常聊天時,隨時會插嘴、附和、或是同時開口說話。而 NVIDIA 在 2026 年 1 月發布的開源模型 PersonaPlex-7B,正是要徹底打破這個限制。

NVIDIA 發布 PersonaPlex-7B:100% 開源全雙工語音 AI 模型
PersonaPlex-7B 是一個擁有 70 億參數的全雙工(Full-Duplex)語音 AI 模型,基於法國 Kyutai 團隊開發的 Moshi 架構,採用雙串流 Transformer 設計。傳統語音 AI 的運作方式是三段式管線:先用自動語音辨識(ASR)把你的話轉成文字,再丟給大型語言模型(LLM)生成回覆文字,最後透過文字轉語音(TTS)唸出來。這三個步驟加起來,延遲動輒超過一秒,更別提每個模組之間還會產生資訊損耗。
PersonaPlex-7B 把這三個階段合併為單一端到端模型——直接吃進音訊、直接吐出音訊,中間不經過文字轉換。這不只是工程上的簡化,更是架構層級的革命。而且,它是 100% 開源的。模型權重已上架 HuggingFace,任何人都可以免費下載使用。發布首月,下載量就突破了 33 萬次。
核心技術突破:真正的全雙工對話
PersonaPlex-7B 最核心的技術突破,就是全雙工通訊——模型可以同時聆聽和說話,不需要等對方講完才回應。
NVIDIA just dropped PersonaPlex-7B 🤯
A full-duplex voice model that listens and talks at the same time.
No pauses. No turn-taking. Real conversation.100% open source. Free.
Voice AI just leveled up.https://t.co/YfzFQfBzMS pic.twitter.com/bVwJ5EFJFB— Hugging Models (@HuggingModels) February 15, 2026
這聽起來簡單,實現起來卻極為困難。模型必須在自己「說話」的同時,持續監聽使用者的音訊輸入,判斷對方是要插嘴、附和,還是只是背景噪音。PersonaPlex 在這方面的表現令人驚豔:
- 對話轉換延遲僅 0.170 秒:幾乎感受不到停頓
- 打斷處理延遲 0.240 秒:你一開口插嘴,它立刻停下來聽
- 在 FullDuplexBench 基準測試中,打斷成功率達到 100%
- 支援自然的回應詞(backchannel),如「嗯」「對」「我懂」等附和語
在對話自然度的人類評分中,PersonaPlex 拿下 3.90 分(滿分 5 分),超越 Google 的 Gemini Live 的 3.72 分。 換句話說,跟 PersonaPlex 聊天的體驗,比 Google 目前最好的語音 AI 還要自然。
混合提示系統:聲音和角色都能自訂
PersonaPlex 的另一大亮點是其混合提示系統(Hybrid Prompting),結合了兩種控制方式:
- 語音提示(Voice Prompt):提供一段音頻樣本,模型就能學習並模仿該聲音的音色、語調和說話風格
- 文字提示(Text Prompt):用自然語言描述角色設定,例如「你是一位耐心的銀行客服專員」或「你是火星基地的太空人,正在跟地球通訊」
這意味著開發者可以打造出各種場景的語音 AI 角色——銀行客服、醫療接待、線上教師,甚至遊戲中的 NPC:同時保有全雙工的自然對話體驗。這是業界首次實現「對話真實感」與「角色控制」兼得的開源方案。
訓練資料:真人對話 + 合成數據的混合策略
PersonaPlex 的訓練資料結合了兩大來源:
- 7,303 段真人對話,總計 1,217 小時,來自經典的 Fisher English 語料庫。這些資料提供了真實的語音模式——包括猶豫、重疊、插嘴等自然對話特徵
- 超過 140,000 段合成對話,涵蓋客服、助理等任務場景。這些資料強化了模型在特定任務上的遵從能力
這種「真人資料學自然、合成資料學任務」的混合策略,讓模型既能像真人一樣對話,又能準確完成指定任務。
硬體需求與成本:單張 A100 就能跑
PersonaPlex-7B 的一大優勢是硬體門檻相對親民。單張 NVIDIA A100 GPU 即可運行完整模型,自託管成本大約在每小時 0.50 至 2.00 美元之間。
對比之下,OpenAI 的 Realtime API 收費為輸入每分鐘 0.06 美元、輸出每分鐘 0.24 美元。如果是高通話量的客服中心,自建 PersonaPlex 的成本優勢相當明顯。
與競品比較:各有強項
目前語音 AI 市場的主要玩家各有特色:
- vs ChatGPT Voice:OpenAI 的語音模式仍是輪流制(half-duplex),無法真正同時聽說。PersonaPlex 在對話自然度上有結構性優勢
- vs Gemini Live:Google 的方案部分支援全雙工,但並非開源,開發者無法自行部署或修改
- vs ElevenLabs:ElevenLabs 擁有超過 10,000 種聲音選擇,音質業界頂尖,但底層仍是輪流制架構
- vs Moshi:Kyutai 的 Moshi 是全雙工架構的先驅,PersonaPlex 正是基於其架構發展,但 Moshi 缺乏角色自訂和聲音克隆功能
目前的限制
儘管技術突破令人興奮,PersonaPlex-7B 仍有幾個明顯的限制:
- 音質偏「電話感」:24kHz 的取樣率在 2026 年顯得不夠精緻,與 ElevenLabs 等商業方案的音質仍有差距
- 語言支援有限:目前英文表現最強,其他語言尚未充分優化
- 需要 GPU 基礎設施:沒有官方的雲端託管服務,NVIDIA 不提供託管 API
- 仍處於研究階段:尚未完全適合直接投入生產環境
產業影響:NVIDIA 的「免費模型、賣 GPU」策略
PersonaPlex-7B 的開源策略背後,是 NVIDIA 一貫的生態系布局。NVIDIA 不靠模型本身賺錢,它靠的是運行這些模型所需的 GPU 硬體。當越來越多新創公司和企業採用 PersonaPlex 自建語音 AI 服務時,每一家都需要購買或租用 NVIDIA 的 GPU。這是一個精心設計的飛輪效應:
- 免費開源模型 → 降低語音 AI 開發門檻
- 更多開發者採用 → 語音 AI API 成為大宗商品
- 商業語音 API 的利潤被壓縮 → 價值從應用層向硬體層遷移
- 每個自託管的團隊 → 都是 NVIDIA GPU 的潛在客戶
這跟 Meta 開源 LLaMA 系列的邏輯如出一轍:當模型免費時,賣鏟子的人才是最大贏家。
觀點
PersonaPlex-7B 的最大意義,或許不只在於「全雙工」這個技術突破本身,而在於它代表的產業趨勢:語音 AI 正在被大宗商品化。過去,打造一個自然的語音對話系統,需要串接 ASR、LLM、TTS 三家不同供應商的 API,光是延遲調校和錯誤處理就足以讓小團隊望而卻步。現在,一個開源的端到端模型加上一張 GPU,就能搞定。這對整個語音 AI 生態的影響是深遠的。
但也必須正視其限制。24kHz 的音質在需要品牌形象的商業場景中仍嫌不足;英文以外的語言支援尚不成熟;缺乏雲端託管意味著沒有 GPU 資源的團隊仍然被排除在外。短期內,PersonaPlex 更適合作為研究基礎和概念驗證,而非直接取代現有的商業語音方案。
對台灣的開發者來說,最關鍵的問題恐怕是:中文支援何時到來?以目前的訓練資料來看,模型幾乎完全基於英語語料,中文的全雙工對話體驗還需要社群或在地團隊的進一步微調。但開源的本質就在於此:程式碼和權重都在那裡,誰都可以接手。無論如何,當 NVIDIA 把全雙工語音 AI 變成「免費下載」的東西時,這個領域的遊戲規則已經改變了。