Google 最近模型數量似乎有越來越多的趨勢。稍早再度推出針對即時語音翻譯打造的 Gemini 3.5 Live Translate,可自動偵測 70 種以上語言,並產生自然流暢的翻譯語音,同時還會盡量保留說話者的語調、節奏與音高。
更重要的是,它不是等對方整句講完才開始翻,而是邊聽邊翻。目前在 Gemini Live API 和 Google AI Studio 已經能體驗,Google 翻譯、Google Meet 也會陸續導入。
Gemini 3.5 Live Translate 登場:支援 70+ 語言即時語音翻譯
根據 Google 介紹,Gemini 3.5 Live Translate 模型最大特色是,採用「連續串流處理」。
過去很多語音翻譯系統都接近一問一答,通常要等使用者講完一段話,系統才有足夠上下文做翻譯,結果就是中間容易出現不自然的停頓。
Gemini 3.5 Live Translate 則會在說話者持續講話時同步產生翻譯語音,Google 表示它會在「等待更多上下文以提高品質」和「立刻翻譯跟上說話速度」之間取得平衡,進而減少中間的空白,實現說話者講完後幾秒鐘就完成翻譯。
Google 雖然沒有提供測試數據,不過有分享參與早期測試的企業回饋。
Grab 產品長 Philipp Kandal 表示,在測試 Gemini 3.5 Live Translate 時,他們很看重它自動偵測多種語言,並以低延遲準確翻譯語音的能力。
CJ ENM 首席人工智慧長 Bella Baek 表示,早期測試顯示,這項技術展現出令人期待的品質,有助於為全球與韓國觀眾帶來更真實的體驗。
Agora 開發者傳教士 Mason Adams 表示,他們測試了 Gemini 3.5 Live Translate 模型,並認為它提供了最先進等級的成果,具備低延遲與高準確度,為即時翻譯立下了新的標準。
目前開發者已經可以透過 Gemini Live API 和 Google AI Studio 使用公眾預覽版,模型名稱是 gemini-3.5-live-translate-preview。
Google 也提到,Google Meet 的語音翻譯接下來會改用 Gemini 3.5 Live Translate,語言支援會從原本只有 5 種,提升到 70 種以上。而且不再只是英文與其他語言之間互翻,而是能在同一場會議中,支援超過 2,000 種語言組合。
預計會先提供給特定商務 Google Workspace 客戶私人預覽版,之後今年稍晚才會進一步擴大推出。
Android 與 iOS 版 Google 翻譯應用程式也會陸續推出。使用 Live Translate 功能時,只要連接任一款耳機,就能體驗這款新模型,
除此之外,Android 用戶還有一個好消息,未來會多一個全新的 Gemini 3.5 Live Translate「聆聽模式」,不用帶耳機,透過手機聽筒就能聽到翻譯。
