在 AI 狂潮的時代裡,許多工作以及服務都已經大幅與 AI 進行連動了。像阿達自己有在經營部落格跟 YouTube 影像創作,有 AI 協助真的是幫了不少忙。尤其是影音剪輯部分,現在都透過 AI 來進行語音辨識字幕,大幅省去聽音打字的時間,剪輯的效率也比以往高出很多。
之前我們已經介紹過不少語音輸入的軟體,有的可以本地端使用,有的則是得依賴網路連線,各有各的特色及缺點。而最近我們又發現一款不錯用的「本地端」語音輸入軟體,名字叫「聲聲慢 SpeakSlow」。主打「最快的本地端運算」,號稱要為中文使用者帶來了前所未有的流暢體驗 :

(圖片來源 : AI 生成)
聲聲慢 SpeakSlow下載
聲聲慢 SpeakSlow 可至上方的官網網址下載,除了有 Windows 版外,也有 macOS、 Linux beta,基本功能可用 :
聲聲慢 SpeakSlow 是由 jeffrey0117 開發的,主打就是「完全免費」。使用者只要下載檔案把模型裝進你的電腦,就能直接本地端使用。同時他也強調,聲聲慢 SpeakSlow 是專為中文打造、最快的本地語音輸入,實際效果如何待會我們會一一解答 :
聲聲慢 SpeakSlow安裝
聲聲慢 SpeakSlow 檔案大約 600MB 左右,下載後進行安裝並一直下一步即可 :
聲聲慢 SpeakSlow使用介紹
安裝完後,雙擊即可執行應用程式,最大的視窗畫面如下,無法開啟全視窗 :
在設定內可以進行辨識功能的調整,如果你的電腦年紀較大的話,也可以開啟快速模式來執行應用 :
雖然強調是本地端模型運作,但該軟體也提供外掛 API KEY 的功能,如果你本身就有 API KEY 然後又想要辨識能力更好的話,建議可以掛上 :
因為語音輸入 + 辨識功能不太可能會有 100% 的正確度,你可以透過這個熱詞設定,先新增特定的人名、公司名、產品名,這樣辨識的效果就會提升很多 :
甚至還能在你講到特定名詞時,直接幫你加上 Emoji 符號,這麼一來你就不用那邊辛苦地去 Emoji 網站上複製貼上 :
在使用軟體前,記得到權限管理這邊將權限打開 :
使用方式分為好幾種,第一個是語音輸入並辨識文字的功能,只要按下畫面中的按鍵或是快捷鍵就能開始錄音 :

說完話再按一次開關即可結束錄音,下方的欄位處就會出現你剛剛講的詞句,老實說辨識速度真的滿快的。當然!辨識的準確度並非 100% ( 也有可能是我念的不夠標準 ),但這樣的辨識速度跟精準度其實也已經相當不錯了,畢竟是免費軟體 😐
如果文字辨識錯誤,你也可以直接反白該文字,就會出現可修改文字的視窗 :
同時它也具備語音下指令的功能,按下 Ctrl+Shift+K 就能進入操作模式 :
在操作模式下,你可以叫它翻譯、總結、摘要重點…等等。使用方式也很簡單,開啟操作模式後,例如你想要翻譯,對著你想翻譯的文字反白,並用語音對軟體說請幫我翻譯成英文 :
翻譯完後,在軟體的視窗下方會出現翻成英文 (已複製) :
接著你隨便找個文件檔案按下貼上,就能把剛剛翻譯後的文字貼上了,非常不錯用 :
在設定裡還能透過歷史紀錄看你使用了多久,平均口述的速度為何 :
甚至曾經說過的話也能重新檢視、重新播放、下載音檔、重新轉譯,功能做的相當多 :
而它另一項對我比較實用的功能就是逐字稿 & 字幕 SRT 功能,支援影片 MP4、MOV、WEBM 跟音檔 MP3、WAV、m4a、ogg、flac…等檔案 :

辨識速度的話,個人覺得比之前同樣也是本地端的 WhisperDesktop 還快,但辨識度差 WhisperDesktop 不少,尤其是英文的部分。但基本上中文就比較少錯字,唯一比較覺得困擾的就是它會把 123 的數字換成國字的一二三,這部分就得再花時間自己處理 :
SRT 辨識功能測試也沒任何問題 :
只不過有些影片中有些口說跟空檔的地方它會自行腦補,如果拿來跟 WhisperDesktop 做比較的話,WhisperDesktop 的辨識準確度會比這個好不少,但相對速度就慢了些 :
使用心得
簡單測試完這款軟體後,也大略說一下使用心得。與同為本地端的 WhisperDesktop 相比,聲聲慢的轉譯速度極快,中文辨識表現不錯。缺點是英文辨識稍弱、阿拉伯數字會自動轉成中文(如 123 變一二三),且在影片無聲空檔偶有自行腦補錯字的現象,精準度也稍微低一點。但本身軟體也支援擴充 API KEY,利用這點其實是可以提升精準度的。另一項特色就是它整體檔案會比 WhisperDesktop 小一點 (不過也要看你選擇什麼模型 ),對於電腦空間較小的使用者來說,這點就滿有吸引力的。整體而言,這也是一款能替創作者大幅節省聽打時間的高效免費工具。




















