現在網路上真的越來越多語音轉文字工具,除了幾週前我們介紹的 Gemini,近日又發現到這款「TransPocket」,不僅完全免費用,使用的還是知名 Whisper 最新模型,而且不只是上傳錄音檔、直接錄音,連 YouTube 轉錄也支援,意味著可以直接貼上 YouTube 影片將內容轉成文字,轉錄速度非常快。
TransPocket 語音轉文字線上工具介紹與操作教學
TransPocket 是一個標榜完全免費的語音/影片轉文字工具,利用 Whisper 模型將音檔或 YouTube 影片裡的內容,快速轉成文字,介面操作簡單,註冊後就能使用,每日有 120 分鐘額度,絕對夠絕大多數人的需求。除了支援多國語言轉錄,還可以辨識不同講話者,可輸出成有時間戳的字幕格式。目前提供的模型有 Whisper Large‐v3 以及 Turbo,你可以根據需求來選擇。
不過我試用後有幾個小缺點,首先是中文,目前僅支援轉錄成簡體中文,後續還需要透過簡轉繁或 AI 工具,來變成繁體。其次是轉錄後的文字沒有標點符號,這兩個部分我是都丟給 ChatGPT 處理,要求 ChatGPT 幫我內容加上標點符號,以及轉成繁體。
主要特色
- 完全免費
- 支援多種格式(MP3、MP4、WAV、M4A 等)
- 可直接處理 YouTube 影片
- 能辨識講話者
- 可輸出成 DOCX、SRT、VTT、CSV 等格式
按上方連結進到 TransPocket 後,點畫面中的 START FREE:
接著需要註冊帳號,提供 Google 帳號快速登入:
登入後就會進到後台,功能表位於右上方,有錄製音頻、上傳、導入三個:
錄製音頻就是錄音,錄製完後就會直接進行轉換:
上傳文件支援非常多格式,除了有音訊的 MP3、WAV、AAC 等這些,還提供影片格式如 MP4、WebM 等等。你可以設定要使用的模型,我個人建議用 Large-v3,雖然處理時間比 Turbo 長,但準確度高一些,我測試即便是快 10 分鐘的內容,Large-v3 也在短短 1~2 分鐘就轉錄完成,速度很快。目標語言還支援英文、日文、韓文等,如果你的內容是多人說話,可以設定說話人數:
導入就是從 YouTube 匯入,將影片網址貼上,一樣能設定模型、語言和說話人數:
我匯入阿達的 YouTube 影片,首先它會在背景先下載這部,然後再開始轉錄:
狀態顯示已完成,就代表轉錄好了,按一下文件名稱來打開:
轉錄結果如下,每一段都會標示說話人和內容,可以按上方的播放鍵來聆聽轉錄的內容對不對。從下圖可以看到,內容是簡體,也沒有任何標點符號,閱讀起來很困難:
我的話是將內容全部複製,然後要求 ChatGPT “轉成繁體中文,並於文字間加入適當的標點符號,以方便閱讀。格式不要變,文字也要一模一樣,不要自行添加或刪除內容“。ChatGPT 改完後,內容就變得很容易閱讀了:
右上角導出功能,可以將文字輸出成不同格式,包括 SRT 字幕:
字幕檔有時間戳,也會移除說話人:
每日有 120 分鐘用量,左下角會統計已經用了多少: