真沒想到有紳士們特地針對日本的成人動作片,來優化 Whisper 模型的轉錄能力。GitHub 有一個 WhisperJAV 的開源專案,就如同名字的 “JAV”,專為日本 AV 影片打造的開源工具,跟傳統 AI 語音辨識模型(如:Whisper)不一樣的地方在,它可以解決 JAV 影片時間長、過程高噪音且即興,經常發生的辨識錯誤率高、幻覺文字多、以及穩定性不足的問題。簡單來說,就是能更精準的辨識影片中字幕。更棒的地方在,也有整合翻譯功能,不過目前只支援日翻英,日翻中還不行。Windows 有提供安裝檔,Mac 和 Linux 則需要自行安裝。

WhisperJAV 專為日本成人動作片而開發的免費字幕生成工具,標榜效果比一般 Whisper 模型更好
一般像 Whisper 的語音轉文字模型,多半都是用「乾淨、短時間、明確對話」的語音資料訓練,但 JAV 影片充滿喘息、呼吸聲、輕聲耳語,以及音量變大化,這些都會嚴重干擾模型判斷,導致把不是語言的聲音,轉成不存在的句子,甚至在長時間沉默時產生大量「模型腦補」的幻覺字幕。
WhisperJAV 不是單純的模型,是從整個推論流程下手,結合場景切分、語音活動偵測(VAD)、日文語言後處理,以及防幻覺解碼策略,實現讓模型只在「真的有人說話」的情境下工作,並主動放棄低信心、可疑的輸出內容。
內建多種模式,包括速度優先、精準度高等,來滿足不同使用需求。也支援 HuggingFace 的日文優化模型,甚至可以使用「雙模型兩階段集成(Two-Pass Ensemble Mode)」的方式,讓不同模型互補彼此的盲點,大幅提升字幕完整度與可讀性。功能非常豐富就是。
主要特色
- 專為 JAV 影片聲音特性優化:有效處理喘息、耳語、擬聲語與低訊噪比環境
- 場景式音訊切分:避免固定長度切割造成句子被截斷
- 語音活動偵測(VAD):降低背景音與沉默時的錯誤轉錄
- 防幻覺解碼機制:主動過濾 Whisper 常見的「腦補字幕」
- 日文後處理優化:正確處理語尾助詞、應答語、方言與語氣差異
- 多種處理模式可選:速度、平衡、最高精準度自由切換
- 雙模型集成模式:結合不同模型優點,提高字幕完整度
按上方進到 WhisperJAV 專案的下載頁面後,如果你是用 Windows,可以直接下載 .exe 安裝檔:
安裝過程沒特別需求的話,一直按下一步就好:
安裝過程會花一點時間,就耐心等它跑完:
安裝好後打開,會看到這樣的介面,有點複雜但如果只是單純的生成某部 JAV 影片字幕,那很簡單。按上方 SOURCE 的增加檔案或增加資料夾,來匯入你要轉換的 JAV 影片。接著輸出(Output)資料夾位置看你要不要變,不動也行。隨後就設定你要使用的模式(Mode ASR Engine options)、靈敏度(Sensitivity)、語言,按下 Start 就完成了:
模式部分共有以下,預設是 balanced,可以先試試看這一個,覺得還是有錯誤的話,再改 fidelity 或 transformers:
| 模式 | 後端 | 場景偵測 | VAD | 適合用途 |
|---|---|---|---|---|
| faster | stable-ts(turbo) | 否 | 否 | 速度優先、音訊乾淨 |
| fast | stable-ts | 是 | 否 | 一般用途、品質混合 |
| balanced | faster-whisper | 是 | 是 | 預設,噪音多、對話多 |
| fidelity | OpenAI Whisper | 是 | 是(Silero) | 最高準確度、速度慢 |
| transformers | HuggingFace | 可選 | 內建 | 日文優化模型、可高度自訂 |
按下 Start 後,就等它跑完,VRAM 越大會越快完成:
顯示 Completed 就代表完成了:
打開輸出資料夾,就會看到字幕了:
如果有翻譯為中文欣賞需求的話,可以丟給沉浸式翻譯文件就可以轉中文字幕了:







