隨著 Google 推出 Gemini 3.1 Flash 模型,終於也更新了旗下的 AI 文字轉語音模型,正式推出 Gemini 3.1 Flash TTS。這次的升級重點放在「可控性」、「表現力」和「語音品質」三個方向,不只加入多達 200 個以上的音訊標籤,讓你可以像導演指揮演員那樣,精準控制想要的語氣、節奏、口音,在第三方評測網站 Artificial Analysis 的 TTS 排行榜中,也一口氣衝到 Elo 1,211 分,排名全球第二。
Google 發表 Gemini 3.1 Flash TTS:支援 200+ 音訊標籤、70+ 語言,Elo 分數衝上 1,211
Google 近日於官方部落格中宣布推出 Gemini 3.1 Flash TTS 新一代文字轉語音模型,這次升級比較明顯的亮點有四個。
首先是全新的「音訊標籤」系統。 這是 Gemini 3.1 Flash TTS 最大的特色,開發者只需要在文字中加入類似 [興奮]、[停頓]、[笑聲] 這樣的指令,模型就會照著指示調整語氣、節奏、甚至是加入音效。
舉例來說,你可以這樣輸入:「[興奮] 歡迎收看今天的節目![停頓] 今晚我們要討論的是要如何活得更加快樂」,就會自動產生一段先興奮、再短暫停頓的說話過程:
根據 Google 說明,目前支援超過 200 種音訊標籤,涵蓋情緒、節奏、口音、格式四大類別。
接著是原生支援多角色對話,這主要是針對 API 用戶設計。過去想要生成多人對話,通常需要分別呼叫 API 再自己接起來,現在 Gemini 3.1 Flash TTS 能在單一 API 呼叫中同時處理多位角色,還能替每位角色設定不同的聲線、口音和個性。像是 Podcast 對談、有聲書多角色朗讀等場景,都能直接搞定。
第三個是更多的語言與口音支援。現在 Gemini 3.1 Flash TTS 支援超過 70 種語言,其中有 24 種還被 Google 列為「高品質評估」語言,包含日文、韓文、印地語、德語、法語、西班牙語、葡萄牙語、義大利語、簡體中文等。英文部分也支援多種口音,像是美國南部腔、英國 RP 腔、大西洋兩岸的 Transatlantic 腔都有,對需要在地化內容的創作者來說很實用。
最後是內建「SynthID 浮水印」。 所有 Gemini 3.1 Flash TTS 生成的音訊都會嵌入 Google DeepMind 自家「SynthID」浮水印,人的耳朵雖然聽不出來,但可以用工具驗證是否為 AI 生成內容,目的是防止 AI 語音被拿去做不實資訊、詐騙等惡意用途。
在 Artificial Analysis 的 TTS 語音排行榜中,Gemini 3.1 Flash TTS 拿到 Elo 1,211 分,全球排名第二,僅次於 ElevenLabs(約 1,280 分)。Google 也形容:「這是我們目前最自然、最具表現力的語音模型」:
Gemini 3.1 Flash TTS 目前以 Preview(預覽)版本的形式開放,API 識別碼為 gemini-3.1-flash-tts-preview,可以透過以下幾個平台使用:
- Gemini API、Google AI Studio
- Vertex AI
- Google Vids
API 價格部分,Gemini 3.1 Flash TTS 屬於偏平價的級距:文字輸入每百萬 tokens 約 1 美元、音訊輸出每百萬 tokens 約 20 美元。以每秒音訊約 25 tokens 換算,生成一分鐘音訊大約只會用掉 1,500 個 tokens,成本相當親民。
如何在 Google AI Studio 免費使用 Gemini 3.1 Flash TTS
你只要有 Google 帳號,就能在 Google AI Studio 中免費體驗 Gemini 3.1 Flash TTS 新一代文字轉語音模型,方法很簡單。
按上方連結進到 Google AI Studio 後,登入你的 Google 帳號,就會看到有幾個範本能直接使用:
隨便選一個範本進到內頁,右邊就會看到 Gemini 3.1 Flash TTS Preview 模型,下方 Speaker settings 可更換其他聲音:
有非常多聲音選項,也會註明特色是什麼,每一個都能試聽:
Accent 可設定腔調:
生成好的音訊都能下載下來:







