以往的ASR(語音轉文字)系統,一般只能辨識國語,如果你講:「你這個 kha-bang 有夠媠(包包有夠漂亮),在哪裡買的」,這種混雜著國語和台語的日常對話,過去的語音辨識系統幾乎無法正確理解。聯發創新基地(MediaTek Research)近日發表 Breeze 3 系列模型,其中最受矚目的 Breeze-ASR-26,是台灣首個針對台語設計的開源語音辨識模型,能夠處理國台語夾雜的真實對話場景。這不僅是技術上的突破,更代表台灣本土 AI 團隊正在為母語保存與數位平權做出實質貢獻。
從「花生什麼事」到聽懂台語:Breeze 系列的演進
聯發創新基地在 2025 年曾推出 Breeze-ASR-25,這款基於 OpenAI Whisper 架構的語音辨識模型,專門針對台灣國語的口音與用語進行最佳化。當時解決了一個令台灣使用者頭痛的問題:國際語音辨識系統經常把「發生什麼事」誤聽為「花生什麼事」。ASR-25 將本地語音辨識準確度提升了約 10%,國台英語夾雜(code-switching)的辨識能力更大幅提升 56%。
然而,ASR-25 僅支援台灣國語,對於台語的辨識能力仍然有限:在台語測試中,字元錯誤率(CER)高達 49.99%,幾乎每兩個字就錯一個。這次發表的 Breeze-ASR-26 正是為了解決這個問題而生。
Breeze-ASR-26 技術架構與訓練方式
Breeze-ASR-26 同樣基於 OpenAI 的 Whisper large-v2 架構進行微調,模型參數量為 20 億(2B),採用 Safetensors 格式儲存,並以 Apache 2.0 授權開源釋出。
在訓練資料方面,研究團隊使用了約 10,000 小時的合成台語語音資料進行訓練。這些合成資料涵蓋了多樣化的說話者、說話風格、聲學環境,以及國台語夾雜的對話情境。值得注意的是,訓練資料刻意採用自然對話模式,而非正式朗讀材料,以捕捉台語在日常生活中的真實使用樣態。
模型的輸出採用國語漢字形式,而非台語本字(如教育部台語正字)。研究團隊在論文中指出,由於台語與國語之間並非一對一的對應關係,因此即使是完美的台語辨識,以國語漢字呈現時也不會達到 0% 的字元錯誤率,CER 數值更適合用於不同系統之間的相對比較。
效能表現:超越商用系統與 Gemini 3 Flash
為了公平評估台語語音辨識的效能,聯發創新基地同步建立了「Breeze Taigi Benchmark」標準化評測基準,包含 30 組從行政院公共服務宣導影片中精選的國台語對照音檔,每段約 30 秒,涵蓋交通、勞工、司法等多元領域。
在這個基準測試中,Breeze-ASR-26 以 30.13% 的平均字元錯誤率(CER)拿下最佳成績,表現優於市面上多個知名系統:
| 系統 | 平均 CER(%) |
|---|---|
| Breeze-ASR-26(聯發創新基地) | 30.13% |
| 教育部台灣台語輸入法 | 30.70% |
| 雅婷逐字稿 | 32.11% |
| Google Gemini 3 Flash | 32.52% |
| Breeze-ASR-25(前代,僅支援國語) | 49.99% |
相較於前代 ASR-25 在台語測試中 49.99% 的錯誤率,ASR-26 大幅降低了近 20 個百分點,充分說明針對台語進行專門微調的重要性。不過,模型在不同語料上的表現仍有差異,最佳樣本的 CER 為 14.49%,最具挑戰性的樣本則達到 52.78%。
不只聽懂,還能開口說:BreezyVoice-26 台語語音合成
Breeze 3 系列不僅讓 AI 聽懂台語,還能讓 AI 說出道地的台語。同步發表的 BreezyVoice-26 是一款台語語音合成(TTS)模型,基於 CosyVoice 2 架構打造。在人工評測中,BreezyVoice-26 獲得了 MOS(平均意見分數)滿分 5.0 的成績,評測者認為其生成的台語語音在語調、韻律方面幾乎與真人無異,對於聽不懂國語的老年人來說相當便利。
Breeze Guard 26:為台灣量身打造的 AI 安全護欄
Breeze 3 系列的第三個成員是 Breeze Guard 26,這是一款專為台灣社會情境設計的內容安全模型。它基於 Breeze 2 8B 基礎模型,使用超過 12,000 筆針對台灣特有風險場景的訓練資料進行微調,能夠偵測不雅言論、詐騙話術、假訊息、歧視性言論及政治操弄等內容。聯發創新基地同時發表了「TS-Bench」台灣安全評測基準,為台灣 AI 安全建立了標準化的評估框架。
開源釋出與未來展望
Breeze-ASR-26 與 Breeze Guard 26 均採開源方式釋出,模型可在 HuggingFace 上免費下載使用。此外,三款模型也已整合至 Breeze AI 的 LINE 官方帳號,一般使用者可直接透過 LINE 體驗台語語音辨識、語音合成與內容安全偵測等功能。有興趣的朋友可以到 LINE 官方帳號(請點我)試用看看。
研究團隊在 arXiv 上發表的論文中強調,Breeze Taigi 框架提供了標準化的評估協定、多樣化的訓練資料集與開放的基線模型,建立了一套可複製的方法論,不僅適用於台語,也能推廣到其他低資源語言的語音技術開發。
從 2025 年的 ASR-25 讓 AI 聽懂台灣國語,到 2026 年的 ASR-26 讓 AI 聽懂台語,聯發創新基地正一步步填補台灣本土語言在 AI 技術上的空白。對於台語使用者而言,這意味著智慧客服、會議逐字稿、無障礙字幕等應用場景,將不再只是國語的專利。



