雖然現在大部分的作業系統都有內建語音輸入功能,但有用過的人都知道,辨識精準度其實蠻差的,講完之後,你可能還需要做大幅的修改。而這篇介紹的「Wispr Flow」AI 語音輸入工具就完全不同,不僅精準度超級高,轉換速度也很快。比如說你講完二十個字之後,只需要等待約兩秒的時間,結果就出來了,而且每句之間還會加上正確的標點符號。
另外對於你常用的一些詞句,也可以加入到個人字典中讓 AI 學習,進而提升準確度。還能建立語音快捷片語,只需要講一個簡單的字或句子,它就會自動展開你設定的完整文字內容(如:說「電子郵件」-> example@gmail.com)。
Wispr Flow 超好用 AI 語音輸入文字工具介紹與操作教學
Wispr Flow 是一款結合語音辨識(ASR)與大型語言模型(LLM)的 AI 語音輸入工具,ASR 負責將語音轉成文字,LLM 則是智慧清理內容,去除多餘的語助詞,如:呃、嗯等等,並自動調整標點、文法與語氣,使輸出的文字更符合書寫習慣。
使用者在任何應用程式中,都能直接透過 Wispr Flow 來輸入文字,無論是寫電子郵件、筆記、聊天或是文件編輯,都能用講的來完成文字輸入。 延遲也相當低,從語音輸入到最終文字輸出最快僅需約 0.7 秒。
支援 Windows、macOS 與 iOS 平台,有免費與付費版本,免費版每週有字數限制,使用下方連結首次註冊可以獲得一個月的專業版試用。
主要特色
- 自建 ASR 語音辨識模型,辨識準確且低延遲(<0.7 秒)
- 使用 Llama LLM 進行後處理,自動修正文法與語氣
- 支援多語言語音輸入(超過 100 種語言)
- 可建立個人辭典
- 具備 Snippets(語音快捷片語)功能,透過語音觸發常用文字範本
- 跨平台支援:Windows、macOS、iOS
- 免費與付費版本可選
我用的是 Mac 作業系統,所以下面操作展示會以 Mac 為主。
首次打開會需要註冊和登入 Wispr Flow 帳號,也支援 Google、Microsoft、Apple、SSO 快速登入:
接著會問一些基本資料,像是你是從哪裡聽到這款工具的、你的職業是什麼:
也會問你要不要分享使用數據給他們,如果不想要的話,記得切換成 Privacy Mode:
Mac 版需要允許一些權限,像是麥克風:
接著會測試麥克風正不正常。如果看到右邊畫面有在動的話,就代表正常:
也會先預設好快捷鍵,如果你想要修改的話,就按一下旁邊的 Change Shortcut,而快捷鍵測試按下有變色的話,就可以按 Yes 進入下一步:
Wispr Flow 支援超過一百種語言,預設是全部打勾,就是讓它自動偵測你講的是什麼語言。但是我會建議修改一下,因為它支援簡體中文和繁體中文。如果你使用 Auto,你講出來的字有很高機率會變成簡體中文:
就把你常用的語言都勾選起來就好,像我是英文、繁體中文,還有日文:
最後就測試一下是否正常運作。你按下快捷鍵講話(講話時持續按著),結束後放開,看畫面有沒有正確出現文字:
這是 Wispr Flow 的主控台,下方會記錄你最近語音轉文字的活動內容:
使用過程可以參考下圖的 GIF 檔,按著快捷鍵講話時,下方會出現一個黑色的條狀,放開後它就會開始辨識,然後等待個幾秒鐘,畫面就會出現你剛講的內容。在任何應用程式中,都可以喚醒 Wispr Flow 進行 AI 語音輸入文字 :
主控台的 Dictionary 就可以加入你常用的字或詞句,讓 AI 學習起來,這樣你之後講一些相關的字詞時,就不用擔心說 AI 辨識成另外一個字。我會建議你可以先使用 AI 語音輸入文字,等到發生 AI 一直辨識錯誤時,再把這些內容加到這裡:
Snippets 就是語音快捷片語,你可以設定講出某個字或句子時,會自動變換成指定內容:
像我設定電子郵件,未來我只要講「電子郵件」,內容會是我的 Email 地址,而不是電子郵件這四個字:
它還有提供一個語音筆記的功能,可以將你平常一些需要先記錄下的東西(如:創意想法、待辦事項、工作事物等),先儲存在這邊: