OpenAI Whisper 可說是目前最強的語音轉文字模型之一,不過不是每個人都知道怎麼在電腦裡安裝並使用,而這篇就要推薦一個簡單好用的 Vibe 開源工具,有 Windows、Mac 安裝檔,安裝後會自動下載模型,接著就能開始轉換,就算是完全不懂電腦的人,也能輕鬆上手,而且不只是常見的麥克風和影音檔,也支援 YouTube 影片轉錄功能,這相當特別。
Vibe 免費 OpenAI Whisper 語音轉文字工具介紹
Vibe 是一款開源工具,有興趣取得原始程式碼的人,可以到 GitHub 專案,而上方連結是至官網下載 Windows、Mac 的安裝檔。Mac 部分 Apple Silicon、Intel 處理器都支援:
首次打開會自動下載 OpenAI Whisper 模型:
下載完成後,就會進入到主畫面,提供三種模式,麥克風、匯入檔案和 YouTube 轉錄,以匯入檔案來說,先選擇語言你要轉錄的語言:
支援多國語言,無論是繁體中文、簡體中文,都選 Chinese,Whisper 會自動判斷,我測試都蠻準確的。Advanced 選單可以設定一些選項,如果英文看不懂,可以打開左上角 … 選單的設定,裡面就能調整語言:
如下圖所示,按 Settings:
裡面就能找到介面語言,中文是簡體中文,Chinese(HK)則是繁體中文:
變成中文後,你就不用擔心看不懂的問題了,下方還能設定要用的 Whisper 模型,預設是 large-v3-turbo,這模型速度非常快且準確率高,基本上不太需要換:
如果想要嘗試其他模型,可以按下方的「下載模型」,會進到一個網頁,裡面就能找到各模型連結:
再來回到匯入檔案轉錄部分,選擇檔案後,按下方的 Transcribe 就會開始轉錄:
More Options 裡面還有更多設置選項,像是演講者辨識、AI 摘要(支援 Ollama 和 Claude)等:
還有一個翻譯選項,不過 Whisper 僅支援將其他語言翻譯成英文,沒辦法翻成中文:
接著就會開始轉錄,Vibe 有特別針對 Nvidia / AMD / Intel GPU (Vulkan/CoreML) 進行優化,如果你有的話,轉錄速度非常快:
轉好之後,下方就會顯示所有轉錄文字,左側有複製、下載、列印功能:
可保存多種檔案格式,包括 Text、html、pdf、docx、srt、vtt 和 json:
切換檔案格式會自動改變轉錄內容的格式,這點相當不錯,像我改成 srt 後,上方的時間戳就會變成符合字幕的格式:
下載後檢查,字幕的確可以直接用:
也支援麥克風錄音轉錄:
還有 YouTube 轉錄: