OpenAI 推出三款即時音訊模型，支援下一代語音代理

開發者可透過 API 建立語音應用和智慧代理

OpenAI 近期正式推出三款全新的即時音訊模型，為開發者提供更強大的工具，用於建構語音應用程式與智慧型代理系統。這三款模型分別是 GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper。它們的核心目標在於提升語音互動的自然度、加快翻譯速度，以及降低語音轉文字的延遲，讓語音技術更貼近人類的溝通方式。

OpenAI 推出三款即時音訊模型，支援下一代語音代理

GPT-Realtime-2：核心旗艦模型

在三款模型之中，GPT-Realtime-2 被視為最重要的突破，它專為即時語音互動而設計，能夠理解使用者的請求、呼叫外部工具、處理語音更正，並以自然的方式延續對話。這使得語音代理不再只是單向的指令執行者，而是能夠像人類助手般靈活應對。

GPT-Realtime-2 帶來了多項新功能：

前言能力：在執行任務前，模型能先以簡短語句回應，例如「讓我檢查一下」，讓互動更貼近人類對話習慣。
並行工具呼叫：它可以同時啟動多個工具，並即時向使用者回報進度。
更佳的恢復能力：當遇到錯誤或問題時，模型不會靜默失敗，而是能以更優雅的方式回應。
更長的上下文：上下文視窗由原本的 32K 提升至 128K，能處理更複雜的語境。
專業領域理解：在醫療、技術或專業術語方面，模型能更準確保留原意。
語調控制：可依情境調整語氣，讓回應更符合場合需求。
推理難度可調：開發者可選擇不同等級的推理深度，從最低到極高，依需求調整效能。

在基準測試中，GPT-Realtime-2 的表現顯著超越前代。高推理版本在 Big Bench Audio 測驗中取得 96.6% 的分數，而 GPT-Realtime-1.5 僅有 81.4%。在 Audio MultiChallenge 指令跟隨測驗中，GPT-Realtime-2 的極高推理版本得分 48.5%，同樣遠高於前代的 34.7%。

GPT-Realtime-Translate：即時多語言翻譯

另一款新模型 GPT-Realtime-Translate，專注於即時多語言語音體驗，它能將超過 70 種輸入語言翻譯成 13 種輸出語言。OpenAI 強調，即使使用者在對話中切換語境、使用地方口音或專業詞彙，模型仍能保持語速並準確保留語意。這意味著跨語言交流將更流暢，無論是國際會議、跨境客服，或是多語學習場景，都能受益。

GPT-Realtime-Whisper：低延遲語音轉文字

第三款模型 GPT-Realtime-Whisper，則是一個專為低延遲設計的串流轉錄系統，它能在說話的同時即時轉錄音訊，適合用於即時字幕、會議紀錄、課堂筆記等場景。這項技術的價值在於，它不僅提升了效率，也讓語音資料能更快轉化為文字，方便後續搜尋、整理與分析。

收費標準與應用場景

這三款模型目前已可透過 OpenAI 的即時 API 使用，並有明確的收費標準：

GPT-Realtime-2：音訊輸入令牌每百萬個 32 美元，快取輸入令牌每百萬個 0.40 美元，音訊輸出令牌每百萬個 64 美元。
GPT-Realtime-Translate：每分鐘 0.034 美元。
GPT-Realtime-Whisper：每分鐘 0.017 美元。

開發者可以在 Playground 中直接試用這些模型，快速體驗其功能；至於一般用戶，OpenAI 仍持續努力，將這些技術整合到 ChatGPT 的語音體驗中，讓更多人能享受到自然、即時的語音互動。

Tags: ai GPT OPENAI 模型翻譯語音模型轉錄

OpenAI 推出三款即時音訊模型，支援下一代語音代理

開發者可透過 API 建立語音應用和智慧代理

您也許會喜歡：

網站搜尋

廣告