Google 為了讓 Gemini 壯大起來,不斷 AI 功能融入旗下各種服務中,而對於 Gemini 自身,Google 也積極加入更多吸引人的新功能。現在,Gemini 終於增加了上傳和分析音訊檔案的功能。這項新功能在獲取你的 MP3、M4A 和 WAV 等常見格式音訊檔後,可以進行轉錄、總結和提取內容中的關鍵細節。
Gemini 現在可以分析你的音訊檔案了
新的音訊檔案分析功能現在已經可以在 Android、iOS 和網頁版本上使用。你可以透過 Gemini 行動應用程式上的「+」號選單或網頁上的「上傳檔案」選項存取新功能。只需要從設備中選擇一個音訊文件,然後它會分析你上船的內容,並且非常輕鬆地找到內容中的詳細資訊,無論是錄製的會議、採訪、講座,甚至是個人語音記事等。
不幸的是,新的轉錄服務是有階層限制的,免費用戶與付費訂閱用戶遭遇的限制有所不同。免費用戶可以上傳和分析的音訊總長度上限為 10 分鐘。這看起來不多,但相較於其他免費轉錄服務來說,Google 已經非常慷慨。時間限制並不是唯一要注意的。預設情況下,你最多可以在單一指令上傳 10 個任何支援格式的檔案,這包括最多 5,000 個檔案的程式碼資料夾、GitHub 儲存庫以及包含最多 10 個 ZIP 檔案。音訊更新不會擴大此限制,但會被計入一次可上傳的 10 個檔案中。
上傳音訊檔案後,Gemini 可以做的不僅僅是將其轉換為文字,用戶可以輸入指令請 AI 為你總結要點、識別不同的演講者,甚至提取特定的項目或內容。這能夠將原始音訊檔案轉換為結構化、可搜尋且非常有幫助的檔案。如果你要用它來轉錄,建議可以把腳本交給 Gemini,並且詢問是否有音訊檔案中沒有的內容。這是為了防止 AI 在任何時候出錯,因為 10 分鐘到 3 小時對於任何 AI 來說都會是很長的時間,你不該太過全身心相信它,要養成重複審查的習慣。
對於需要更廣泛轉錄功能的高級用戶和專業人士,Google 提供了更寬裕的限制。Google AI Pro 或 Google AI Ultra 訂閱者最多可以上傳 3 小時的音訊。這是一個非常大的擴充,使該服務非常適合用來轉錄 Podcast、完整採訪或研討會等長篇內容。新功能可以為你節省很多時間,將 YouTube 連結放入 Gemini,很快就可以在長達一小時的影片中找到正在尋找的內容位置。Gemini 非常擅長關注影片連結中發生的事情,所以音訊升級可能對用戶非常實用。
編按:其實也可以用免費的 AI STUDIO 來進行音效檔辨識,方法請看下方的連結。