近日,在 AI 領域動作相當積極的微軟一口氣發布了三款語音轉文字、語音生成、圖像生成的全新自研模型:專精語音轉文字的 MAI-Transcribe-1、自然語音生成的 MAI-Voice-1,以及圖像生成能力大幅躍進的 MAI-Image-2。並即日起同步開放給開發者透過 Microsoft Foundry 平台使用,收費相當具有競爭力。這也是微軟 AI 超智能團隊成立六個月以來,首次向外界展示的重量級成果:而這支團隊的負責人,正是曾任 Google AI 高層、2025 年加入微軟的穆斯塔法·蘇萊曼(Mustafa Suleyman)。
微軟一口氣發布三款MAI模型
MAI-Transcribe-1:25 語言稱霸業界,錯誤率僅 3.9%
MAI-Transcribe-1 是本次發布的最大亮點。這款語音轉文字模型在業界標準的 FLEURS 多語言語音基準測試中,於全球使用量前 25 大語言(包含日語)的平均單字錯誤率(Word Error Rate,WER)僅有 3.9%,是該基準測試中所有模型裡的最低紀錄。微軟同時發布了與競爭對手的詳細比較數據,MAI-Transcribe-1 在這 25 種語言上全面擊敗 OpenAI 的 Whisper-large-v3,在其中 22 種語言上勝過 Google 的 Gemini 3.1 Flash,更在 15 種語言上分別擊敗 ElevenLabs 的 Scribe v2 與 OpenAI 的 GPT-Transcribe。
除了精準度領先,MAI-Transcribe-1 的處理速度更是宣稱比 Azure 既有的 Fast 語音服務快了 2.5 倍。該模型支援 MP3、WAV、FLAC 等主流音訊格式,最高可接受 200MB 的檔案。說話者分離(Diarization)、上下文偏置、串流等功能目前列為「即將推出」。在商業應用上,MAI-Transcribe-1 的定價為每小時語音 0.36 美元(約新台幣 12 元),性價比極高。
MAI-Voice-1:一秒生成 60 秒自然語音
MAI-Voice-1 是微軟最新的文字轉語音(TTS)模型,專為生成自然且富有情感的語音而設計。根據官方說明,MAI-Voice-1 能夠在 1 秒鐘內生成長達 60 秒的高品質語音內容,兼具極高的 GPU 利用效率,在生成速度與成本之間取得了出色的平衡。
這款模型的一大賣點是能長時間維持說話者的音色與個人特徵不變。開發者僅需提供短短數秒的語音樣本,即可透過 Microsoft Foundry 建立專屬的自訂語音設定檔。MAI-Voice-1 目前已應用於 Copilot Audio Expressions 功能當中。收費標準為每 100 萬字元 22 美元(約新台幣 720 元)。
MAI-Image-2:圖像生成躋身 Arena.ai 前三強
MAI-Image-2 並非全新亮相:它在 2026 年 3 月 19 日就已經低調發布,如今正式納入 MAI 模型家族並全面開放商用。這款圖像生成模型已在業界著名的 Arena.ai 圖像生成排行榜上躋身前三大,上線以來持續為 Copilot 的圖像生成能力提供支撐。微軟表示,MAI-Image-2 可生成自然的光照效果、精準的肌腑色調與質感,圖表、版面編排乃至于圖片內的文字都能清晰呈現。與前代相比,MAI-Image-2 在 Foundry 與 Copilot 平台上以相同品質輸出時,生成速度提升了 至少 2 倍。全球最大廣告集團之一的 WPP 已率先成為企業合作夥伴,大規模採用 MAI-Image-2 投入商業創作。
MAI-Image-2 的定價為:文字輸入每 100 萬 token 5 美元(約新台幣 165 元),圖像生成每 100 萬 token 33 美元(約新台幣 1,080 元)。
蘇萊曼首度受訪:打破 OpenAI 獨家合約的六年束縛
這次三連發的意義遠不止於模型本身,國外媒體專訪揭示了微軟背後真正的原因:微軟與 OpenAI 之間那份始於 2019 年的合約,直到 2025 年 9 月才完成重大修訂。根據蘇萊曼的說法,舊版合約中明訂微軟在 2032 年之前不得獨立從事通用人工智慧(AGI)或超智能的研發,這讓微軟在 AI 前沿模型開發上長期受限於 OpenAI 的技術路徑。2025 年 10 月的新合約終於為微軟解開了這道枷鎖。
蘇萊曼表示:「去年 9 月,我們與 OpenAI 重新談判了合約,這讓我們能夠獨立追求自己的超智能研發。此後,我們集結了所需的算力、組建了團隊、採購了必要的資料。」他也強調,與 OpenAI 的合作關係維持不變,至少將持續到 2032 年。
蘇萊曼進一步透露了他對這次發布的自豪:「這次發布的模型,在語音轉文字領域是全世界最頂尖的:不僅如此,我們能以競爭對手一半的 GPU 運算資源來交付同等級的品質。」這番話的背景是:微軟股價剛創下 2008 年金融危機以來最差的單季表現,投資人對鉅額 AI 基礎建設投入能否轉化為實質營收的質疑聲浪高漲。這三款 MAI 模型,可以說是蘇萊曼與微軟高層對華爾街的第一份正式答卷。


