最近 Gemini 加入了音訊檔案的分析功能之後,每個人現在都能直接利用 Gemini,來免費將錄音轉成逐字稿,不用再靠其他 App,而且轉錄速度還非常快,我測試約 20 分鐘的音訊檔,1 分鐘左右就完成,這真的很讚。另外我也有測試字幕部分,雖然可以生成我要求字幕格式,但時間部分只有前面幾秒對,後面都跑掉了。
Gemini 也能將錄音檔免費轉成逐字稿,20 分鐘內容 1 分鐘就轉完
Gemini 的錄音檔轉逐字稿功能,免費版和付費版都能使用,不過長度限制和上下文不太一樣
- 免費:每次上傳最多 10 分鐘、上下文只有 32K tokens
- Pro / Ultra:每次上傳最多 3 小時,上下文達 1M tokens
上下文長度不僅能生成更長的逐字稿,也會影響轉文字後的處理深度。音訊檔也有檔案上限,目前是 100MB。
使用方式也很簡單,打開 Gemini 並登入你的 Google 帳號後,上傳錄音檔,並下提示詞就會開始轉錄了。我用的提示詞很簡單:
請幫我生成完整的繁體中文逐字稿
接著 Gemini 就會開始轉錄,10 分鐘內錄音檔基本上 1 分內就會完成,速度很快:
當你獲得完整逐字稿之後,就可以開始跟 Gemini 聊天你想要了解的內容。像是類似跟 ChatGPT 的錄音模式一樣,獲得這次逐字稿內容的重點摘要。網路上已經有人破解並分享 ChatGPT 錄音模式使用的提示詞,如果你想要獲得幾乎一樣的回答,可以拷貝過來試試看:
還有像是開完會後,你可能會想知道接下來該準備什麼,也能這樣直接問它:
不過要注意是,畢竟是透過 AI 轉錄,就跟 OpenAI 的 Whisper 一樣,有些地方可能還是會發生內容漏掉、重複轉錄的情況,因此轉錄完後,建議一定要自己全部閱讀一遍。
我也有測試生成字幕檔,轉錄內容要加上我指定的時間戳格式,下方是我給的提示詞:
雖然 Gemini 正確生成出指定格式,但很可惜還是失敗了,前幾秒的字幕和時間都對,但之後的時間就錯了,字幕都會比較快跑出來,甚至有一些內容沒轉錄到,由此可見現階段還沒辦法產生有時間戳的字幕:
如果你不知道可以怎麼詢問 Gemini,以下幾個常見用法分享給你:
- 摘要與重點整理:整理要點、關鍵句、章節大綱,快速掌握訪談/會議/課程重點。
- 各種決議:從錄音檔找出代辦事項、決策、後續負責人等(很適合用於會議記錄)。
- 內容問答(查找特定片段):直接問「關於 X 有提到什麼?」,或是要求標出提到某主題的段落/時間點。
除此之外,你還可以要求 Gemini 輸出帶「Speaker 1/2…」的說話者標記,方便後續整理,不過取決於錄音檔的品質,如果太差,有可能無法辨識出。