OpenAI 近期正式推出三款全新的即時音訊模型,為開發者提供更強大的工具,用於建構語音應用程式與智慧型代理系統。這三款模型分別是 GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper。它們的核心目標在於提升語音互動的自然度、加快翻譯速度,以及降低語音轉文字的延遲,讓語音技術更貼近人類的溝通方式。
OpenAI 推出三款即時音訊模型,支援下一代語音代理
GPT-Realtime-2:核心旗艦模型
在三款模型之中,GPT-Realtime-2 被視為最重要的突破,它專為即時語音互動而設計,能夠理解使用者的請求、呼叫外部工具、處理語音更正,並以自然的方式延續對話。這使得語音代理不再只是單向的指令執行者,而是能夠像人類助手般靈活應對。
GPT-Realtime-2 帶來了多項新功能:
- 前言能力:在執行任務前,模型能先以簡短語句回應,例如「讓我檢查一下」,讓互動更貼近人類對話習慣。
- 並行工具呼叫:它可以同時啟動多個工具,並即時向使用者回報進度。
- 更佳的恢復能力:當遇到錯誤或問題時,模型不會靜默失敗,而是能以更優雅的方式回應。
- 更長的上下文:上下文視窗由原本的 32K 提升至 128K,能處理更複雜的語境。
- 專業領域理解:在醫療、技術或專業術語方面,模型能更準確保留原意。
- 語調控制:可依情境調整語氣,讓回應更符合場合需求。
- 推理難度可調:開發者可選擇不同等級的推理深度,從最低到極高,依需求調整效能。
在基準測試中,GPT-Realtime-2 的表現顯著超越前代。高推理版本在 Big Bench Audio 測驗中取得 96.6% 的分數,而 GPT-Realtime-1.5 僅有 81.4%。在 Audio MultiChallenge 指令跟隨測驗中,GPT-Realtime-2 的極高推理版本得分 48.5%,同樣遠高於前代的 34.7%。
GPT-Realtime-Translate:即時多語言翻譯
另一款新模型 GPT-Realtime-Translate,專注於即時多語言語音體驗,它能將超過 70 種輸入語言翻譯成 13 種輸出語言。OpenAI 強調,即使使用者在對話中切換語境、使用地方口音或專業詞彙,模型仍能保持語速並準確保留語意。這意味著跨語言交流將更流暢,無論是國際會議、跨境客服,或是多語學習場景,都能受益。
GPT-Realtime-Whisper:低延遲語音轉文字
第三款模型 GPT-Realtime-Whisper,則是一個專為低延遲設計的串流轉錄系統,它能在說話的同時即時轉錄音訊,適合用於即時字幕、會議紀錄、課堂筆記等場景。這項技術的價值在於,它不僅提升了效率,也讓語音資料能更快轉化為文字,方便後續搜尋、整理與分析。
收費標準與應用場景
這三款模型目前已可透過 OpenAI 的即時 API 使用,並有明確的收費標準:
- GPT-Realtime-2:音訊輸入令牌每百萬個 32 美元,快取輸入令牌每百萬個 0.40 美元,音訊輸出令牌每百萬個 64 美元。
- GPT-Realtime-Translate:每分鐘 0.034 美元。
- GPT-Realtime-Whisper:每分鐘 0.017 美元。
開發者可以在 Playground 中直接試用這些模型,快速體驗其功能;至於一般用戶,OpenAI 仍持續努力,將這些技術整合到 ChatGPT 的語音體驗中,讓更多人能享受到自然、即時的語音互動。


