現在 AI 翻譯這麼強,很多人一定會希望看國外影片時,都能獲得即時翻譯,而最近就發現能做到這個效果的「Studio0808 LiveCaption」免費開源工具,這是一款專為瀏覽器開發的即時網頁影音雙語字幕翻譯,意味著不限定平台使用,它會擷取分頁播放的音訊數位輸出,自動進行語音辨識 + Ollama 或線上翻譯,同時利用即時句級串流偵測與翻譯技術,做到幾乎是「隨說隨翻」的效果,而不是整段影片播完才處理。
Windows、macOS 都能裝,不過 Windows 有提供一鍵執行離線整合包,這對科技小白來說比較簡單,macOS 的話,可以要求 AI 代理工具幫忙安裝和教你怎麼使用。

Studio0808 LiveCaption 即時網頁影音雙語字幕翻譯工具介紹和操作教學
Studio0808 LiveCaption 是一款專為瀏覽器影片打造的即時雙語字幕工具,讓使用者在觀看 YouTube、線上課程、直播、會議影片或其他網頁影音內容時,可以即時取得語音辨識字幕與翻譯結果。最大的特色是,採用本機優先的運作架構,透過 Chrome 擴充功能直接擷取目前分頁播放的音訊,再把音訊串流傳送到本機 Python 後端處理,因此不需要使用電腦麥克風,也不會錄到環境雜音或其他分頁聲音。
這款工具整合 Whisper 多國語言辨識引擎與 SenseVoice-Small 亞太語言辨識引擎,支援中文、英文、日文、韓文、粵語,以及法文、德文、西班牙文、義大利文、俄文等多種語言。搭配 Silero VAD 語音活動偵測,系統能在偵測到一句話結束時自動斷句,並快速產生字幕。
翻譯部分則支援本機 Ollama 離線翻譯,也能搭配 DeepSeek 翻譯服務作為備用。
如果你很注重隱私,那就建議使用 Ollama,音訊與文字內容都留在自己的電腦中處理。字幕顯示方面,LiveCaption 提供懸浮字幕視窗,可自訂字體大小、顏色與位置,也支援保留歷史字幕,讓字幕不會一閃就消失。
特色列表:
- 支援瀏覽器影片即時語音辨識與雙語字幕翻譯
- 透過 Chrome 擴充功能擷取分頁音訊,不佔用麥克風
- 整合 Whisper 與 SenseVoice-Small,支援多國語言辨識
- 可搭配 Ollama 進行本機離線翻譯,提升隱私保護
- 支援 Google 翻譯、DeepSeek API 等備用翻譯方式
- 具備即時斷句與低延遲字幕顯示,適合看影片邊理解內容
- 支援保留多行歷史字幕,降低漏看內容的機率
- 提供 Windows 離線整合包,也可用原始碼方式跨平台執行
下面我會示範 Windows 版 + Ollama。如果你的電腦還沒有裝 Ollama,記得先到官網下載安裝。
開發者建議搭配的模型是 Qwen 2.5 7B 或 3B,7B 的品質最佳,3B 則是速度更快。如果你對電腦硬體不太熟悉,可以先嘗試 3B,翻譯品質覺得不行再改試 7B。
在終端機直接輸入以下指令即可安裝該模型:
ollama run qwen2.5:3b-instructollama run qwen2.5:7b-instruct

Windows 一鍵執行離線整合包解壓縮後,會有兩個資料夾,上方是本機伺服器,下方是要匯入到 Chrome 擴充功能(只要是 chromium 核心開發的瀏覽器都能裝):

在 LiveCaptionServer 資料夾中點兩下打開 LiveCaptionServer.exe,來啟用伺服器:

可能會跳出這個藍色畫面,按其他資訊:

再點「仍要執行」:

接著畫面出現 running on http://127….. 就代表啟用完成了,這個視窗記得維持開著:

再來是將擴充功能匯入到瀏覽器裡,我使用的是 Chrome。進到擴充功能頁面後,打開右上角的「開發人員模式」:

左側就會看到「載入未封裝項目」:

選擇剛剛的 extension 資料夾:

Studio0808 LiveCaption 擴充功能就成功匯入,可將其釘選在右上角:

當你要使用即時字幕翻譯時,就按「啟動即時字幕」:
兩種語音辨識引擎:

影片來源語言也能指定,但大多數情況用自動偵測即可:

下方 Ollama 設置保持預設就好。也能調整字幕外觀設定:

我測試一部日本 YouTube 新聞直播,這沒有任何字幕,結果真的成功出現雙語翻譯字幕(原文 + 譯文):

國外 POPCORNFLIX 沒有中文字幕,透過這工具就能輕鬆解決:

不過不知道是不是我的電腦硬體不夠,我模型用 3B 或 7B,測試多部影片還沒辦法做到即時翻譯效果,翻譯後的雙語字幕都會慢一句,這部分大家可以測測看。