現在網路上有很多本地語音轉字幕的工具,但有用過的人都知道, 如果是用 CPU 轉換速度都很慢,操作介面對一些不太懂電腦新手來說,也比較難上手。而這篇要介紹的「Qwen3 ASR MiniTool」就是很不錯新選項,提供免安裝檔,下載後就能直接打開使用,無需下載模型或進行任何設定。更重要是,就算只用 CPU 跑,其轉字幕或語音辨識的速度也很快,很推薦大家試試。目前只有 Windows 版。

Qwen3 ASR MiniTool 本地語音轉字幕免費工具介紹和操作教學
Qwen3 ASR MiniTool 是一款主打「本地端語音辨識與字幕生成」的免費開源工具,核心基於 Qwen3-ASR 模型,並透過 OpenVINO INT8 量化技術讓一般電腦 CPU 就能順利運行,不需要昂貴顯示卡也能快速完成語音轉文字。對於需要製作影片字幕、會議紀錄、Podcast 逐字稿,或日常語音輸入的人來說,是一個相當不錯的免費解決方案。作者是FB上的高手松音大大:
支援多種音訊格式,例如 MP3、WAV、FLAC、M4A、OGG 等,使用者只要匯入音檔,就能自動生成 SRT 字幕檔,操作簡單直覺。也提供麥克風即時字幕辨識功能,說話之後會直接辨識出其內容,速度部分跟 Typeless 等這類語音輸入文字工具相比,當然還是慢一些。
另一個亮點是「說話者分離」功能,Qwen3 ASR MiniTool 能辨識不同說話者並在字幕中標記,例如「說話者 1」「說話者 2」,非常適合訪談、會議或對談節目使用。支援 30 種語言辨識,包括中文、日文、英文等,也可以設定自動偵測語言。如果有 NVIDIA RTX 顯示卡,還能啟用 GPU 模式。
特色重點
- 本地端 AI 語音辨識,不需連網即可使用
- CPU 即可運行,硬體需求門檻低
- 支援多種音訊格式轉 SRT 字幕
- 即時麥克風語音轉文字功能
- 說話者分離的字幕標記功能
- 支援 30 種語言與自動語言偵測
- 提供 EXE 免安裝版本,使用門檻低
按上方連結進到 Qwen3 ASR MiniTool 的下載頁面後,如果你要免安裝檔,請下載 Portable 名字的檔案:
下載之後解壓縮,有三個檔案,點兩下 QwenASR.exe 來執行:
操作介面很簡單,預設會用 CPU 來跑,語系基本上設定自動偵測就好,除非你覺得辨識不正確再改。有「音檔轉字幕」和「即時轉換」兩種模式:
音檔匯入後,按「開始轉換」按鈕就會運行,下方會顯示最新狀態:
我轉的這個音檔有 33 分鐘,即便是用 CPU 轉字幕,也只花 277.6 秒,約 4 分多鐘,速度真的很快:
辨識效果基本上都不錯,不過英文有可能會出錯,像下圖的 OpenCloud,應該是 OpenClaw:
「即時轉換」模式會把麥克風錄音到的內容,即時轉成字幕。速度部分我覺得還是有點慢,講完話後要等個 1、2 秒才會完成,當內容一多時,也可能出現漏字的狀況:
如果你是下載安裝檔,首次運行會自動下載 Qwen3 ASR 模型:
啟用 GPU 則需要用 Git 方式將來源整個複製下載,操作稍微複雜一點:








