Google 推出 Gemini 3.1 Flash TTS 新一代文字轉語音模型！你現在可以在 Googel AI Studio 免費體驗

Artificial Analysis TTS 排行榜直接拿下第二名

隨著 Google 推出 Gemini 3.1 Flash 模型，終於也更新了旗下的 AI 文字轉語音模型，正式推出 Gemini 3.1 Flash TTS。這次的升級重點放在「可控性」、「表現力」和「語音品質」三個方向，不只加入多達 200 個以上的音訊標籤，讓你可以像導演指揮演員那樣，精準控制想要的語氣、節奏、口音，在第三方評測網站 Artificial Analysis 的 TTS 排行榜中，也一口氣衝到 Elo 1,211 分，排名全球第二。

Google 發表 Gemini 3.1 Flash TTS：支援 200+ 音訊標籤、70+ 語言，Elo 分數衝上 1,211

Google 近日於官方部落格中宣布推出 Gemini 3.1 Flash TTS 新一代文字轉語音模型，這次升級比較明顯的亮點有四個。

首先是全新的「音訊標籤」系統。這是 Gemini 3.1 Flash TTS 最大的特色，開發者只需要在文字中加入類似 [興奮]、[停頓]、[笑聲] 這樣的指令，模型就會照著指示調整語氣、節奏、甚至是加入音效。

舉例來說，你可以這樣輸入：「[興奮] 歡迎收看今天的節目！[停頓] 今晚我們要討論的是要如何活得更加快樂」，就會自動產生一段先興奮、再短暫停頓的說話過程：

根據 Google 說明，目前支援超過 200 種音訊標籤，涵蓋情緒、節奏、口音、格式四大類別。

接著是原生支援多角色對話，這主要是針對 API 用戶設計。過去想要生成多人對話，通常需要分別呼叫 API 再自己接起來，現在 Gemini 3.1 Flash TTS 能在單一 API 呼叫中同時處理多位角色，還能替每位角色設定不同的聲線、口音和個性。像是 Podcast 對談、有聲書多角色朗讀等場景，都能直接搞定。

第三個是更多的語言與口音支援。現在 Gemini 3.1 Flash TTS 支援超過 70 種語言，其中有 24 種還被 Google 列為「高品質評估」語言，包含日文、韓文、印地語、德語、法語、西班牙語、葡萄牙語、義大利語、簡體中文等。英文部分也支援多種口音，像是美國南部腔、英國 RP 腔、大西洋兩岸的 Transatlantic 腔都有，對需要在地化內容的創作者來說很實用。

最後是內建「SynthID 浮水印」。所有 Gemini 3.1 Flash TTS 生成的音訊都會嵌入 Google DeepMind 自家「SynthID」浮水印，人的耳朵雖然聽不出來，但可以用工具驗證是否為 AI 生成內容，目的是防止 AI 語音被拿去做不實資訊、詐騙等惡意用途。

在 Artificial Analysis 的 TTS 語音排行榜中，Gemini 3.1 Flash TTS 拿到 Elo 1,211 分，全球排名第二，僅次於 ElevenLabs（約 1,280 分）。Google 也形容：「這是我們目前最自然、最具表現力的語音模型」：