Google AI Studio 現在也能製作文字轉語音了！聲音更自然，還提供 Podcast 對話模式

可將你輸入的文字內容轉成語音，提供超多人聲選項

隨著 Google I/O 2025 登場，Google 的 AI 功能可說是超級大幅提升阿，不只有新模型，如：更強大的 Gemini 2.5 Pro 和 Flash、Imagen 4、Veo 3 等，Google AI Studio 也添加了二個新功能，分別是「Native speech generation（自然語音生成）」和「Live audio-to-audio dialog（與 Gemini 對話）」，前者就能將你提供的文字內容，轉換成自然語音，聽起來比我們之前介紹過都使用微軟 TTS 相比，真的自然超級多，而且還支援多位角色對談的 Podcast 模式，類似 NotebookLM 的 Audio Overview，只是在這邊做你可以完全控制對談的內容，免費使用。

如何使用 Google AI Studio 的文字轉語音功能？

前往 Google AI Studio

要使用 Google AI Studio 的功能，首先你要有 Google 帳號，有的話就能免費使用了。

目前操作介面雖然只有英文，但還蠻簡單的，下面會一步步教你。目前 Native speech generation 所使用的模型是「Gemini 2.5 Flash Preview TTS」，還處於預覽狀態，因此生成後記得要檢查一下，可能會出錯，像我測試的其中一個就有重複生成的狀況發生。

按上方連結進到 Google AI Studio 後，首頁下方就會看到新推出的 Native speech generation：

進到 Native speech generation 介面後，右邊 Run Settings 中第一個是模型，目前就只有 Gemini 2.5 Flash Preview TTS。下方 Mode 是模式，預設是多人對談語音，如果你只想要一個聲音，就切換到 Single-speaker audio。左邊 Raw structure 是輸入內容的地方，Speaker 1 代表第一位，Speaker 2 則是第二位，名字也能更改，右邊 Voice Settings 下方的 Name 欄位。而輸入好的內容，可以參考中間 Script builder，AI 會根據這裡來生成：