隨著 Google I/O 2025 登場,Google 的 AI 功能可說是超級大幅提升阿,不只有新模型,如:更強大的 Gemini 2.5 Pro 和 Flash、Imagen 4、Veo 3 等,Google AI Studio 也添加了二個新功能,分別是「Native speech generation(自然語音生成)」和「Live audio-to-audio dialog(與 Gemini 對話)」,前者就能將你提供的文字內容,轉換成自然語音,聽起來比我們之前介紹過都使用微軟 TTS 相比,真的自然超級多,而且還支援多位角色對談的 Podcast 模式,類似 NotebookLM 的 Audio Overview,只是在這邊做你可以完全控制對談的內容,免費使用。
如何使用 Google AI Studio 的文字轉語音功能?
要使用 Google AI Studio 的功能,首先你要有 Google 帳號,有的話就能免費使用了。
目前操作介面雖然只有英文,但還蠻簡單的,下面會一步步教你。目前 Native speech generation 所使用的模型是「Gemini 2.5 Flash Preview TTS」,還處於預覽狀態,因此生成後記得要檢查一下,可能會出錯,像我測試的其中一個就有重複生成的狀況發生。
按上方連結進到 Google AI Studio 後,首頁下方就會看到新推出的 Native speech generation:
進到 Native speech generation 介面後,右邊 Run Settings 中第一個是模型,目前就只有 Gemini 2.5 Flash Preview TTS。下方 Mode 是模式,預設是多人對談語音,如果你只想要一個聲音,就切換到 Single-speaker audio。左邊 Raw structure 是輸入內容的地方,Speaker 1 代表第一位,Speaker 2 則是第二位,名字也能更改,右邊 Voice Settings 下方的 Name 欄位。而輸入好的內容,可以參考中間 Script builder,AI 會根據這裡來生成:
Voice 可以更改聲音,沒意外的話每一個都支援繁體中文,可以都玩玩看:
我先測試單人語音生成模式,內容填到左邊的輸入框內,沒想法的話,也可以按底部的提示詞,讓 AI 自行生成,不過目前僅支援英文內容:
我測試我們的另一篇「RTX 5080 SUPER 規格最新爆料:配備有最快的 GDDR7,記憶體也加大」文章,聲音選好後,按下方 Run 就會開始生成:
生成好後,語音會自動播放,滿意的話打開右邊 … 選單,即可找到下載按鈕:
這是生成結果,下面還會有二人對話的測試:
多人對話部份如果對內容沒有想法,可以使用其他 AI 工具來生成,如:ChatGPT、Gemini 之類,把內容丟給 AI,然後輸入類似的提示詞,如:我希望你針對以下內容,幫我生成一個 2 人生動且講解清晰專業的對話,分別以「Speaker 1:」和「Speaker 2:」來表示其中一人的內容:
接著就能獲得一個初步的對話,不錯的話可直接使用,不滿意也能手動修改:
然後把內容貼到 Google AI Studio,並確保中間顯示的每一位對話內容都正確:
生成好後,試聽後滿意的話就能下載下來:
這是結果,整體都不錯,但前面有一句重複,所以說生成好後一定要檢查一下,如果有錯誤,可以自行剪輯,或是再次嘗試生成:
Google 並沒有說明 Google AI Studio 的 Native speech generation 是否有使用限制,我也沒看到 Tokens 消耗數量,因此有可能目前可以一直免費使用。即便有限制,通常每日都會更新,隔天再嘗試看看就好。