ChatGPT 語音最大規模升級！OpenAI 籌備推出 GPT-Bidi-1 雙向語音模型

據 X 平台知名 AI 開發者爆料，OpenAI 正在籌備推出代號為 GPT-Bidi-1 的新一代語音模型，這將是 ChatGPT 語音模式有史以來最大規模的升級。根據科技媒體 testingcatalog 的報導，GPT-Bidi-1 採用「雙向」（BiDi）架構，能夠同時聽和說，在對話過程中吸收使用者的打斷，並即時調整回應內容。這項升級被認為將徹底改變 ChatGPT 語音對話的流暢度與自然度，讓 AI 語音對話首次接近真人互動水準，也將使 ChatGPT 在語音助理市場中更具競爭力，與 Google 和 Apple 等巨頭正面對決。

OpenAI 籌備推出 GPT-Bidi-1 雙向語音模型

這項消息由開發者 M1Astra 在 X 上率先曝光，貼文中寫道：「OpenAI 新語音模型 GPT-Bidi-1 即將推出，帶來『智慧的重大飛躍』：下一代語音、更自然的對話。」相關跡象已在網頁版和行動版 ChatGPT 中出現，暗示消費者端的正式 rollout 即將到來。開發者社群對此反應熱烈，許多人認為這是 ChatGPT 語音功能最重要的一次更新，將直接挑戰 Google Gemini Live 和 Apple Siri 的語音對話能力，為 AI 語音助理市場注入新變數。

New OpenAI voice model “GPT-Bidi-1”

Coming soon with a “major leap in intelligence”

– The next generation of Voice
– More natural conversations, powered by our next-generation voice model https://t.co/mvH9TSisgO pic.twitter.com/Ka3Mk2LpXV

— M1 (@M1Astra) June 16, 2026

雙向架構：語音對話的重大突破

GPT-Bidi-1 的核心技術是「雙向」（BiDi）架構，這是 OpenAI 從 2026 年初開始研發的新一代語音處理方式。與現有語音模式最大的不同在於，BiDi 模型能夠同時處理聽覺輸入與語音輸出，而不是像現行系統那樣必須等使用者說完才能開始回應。這項技術最初由 The Information 在 2026 年初率先報導，當時 OpenAI 內部將其定位為語音技術的下一代核心架構，目標是讓 AI 語音對話達到與真人對話同等的流暢度與自然度，實現真正的雙向交流。

這意味著使用者可以在 ChatGPT 說話的過程中打斷它、修正方向，或是發出「嗯哼」這類確認訊號，模型都能即時感知並調整回應。相比之下，目前的 ChatGPT 語音模式一旦開始說話就會鎖定回應，使用者的中途打斷往往會讓對話卡住，需要重新開始。BiDi 架構讓對話更像真實的人類交流，而非機器的輪流發言，大幅降低了語音對話的僵硬感，讓整體使用者體驗更加直覺自然。

根據 OpenAI 內部消息，GPT-Bidi-1 上線後，使用者可以根據需求在雙向模式和現有的進階語音模式之間切換，並支援 High、Medium 以及 Instant 三種智慧等級，方便使用者依任務需求調整回應速度與深度。例如需要快速查詢天氣或時間時可選 Instant 模式獲得即時回應，進行複雜討論或頭腦風暴時則可切換到 High 模式獲得更深入、更具洞察力的回答。

語音技術的落後與追趕

目前，OpenAI 的文字模型已經快速進化到 GPT-5.5 世代，但語音功能仍停留在較舊的音訊技術路線，導致口語對話能力明顯落後於文字表現。GPT-Bidi-1 的推出正是為了彌補這個差距，讓 ChatGPT 的語音對話能力追上文字水準。這也意味著 ChatGPT 的語音模式將首次採用與文字模型同等的智慧等級，不再只是一個「會說話的文字模型」。

這個差距對 OpenAI 來說至關重要，該公司正押注語音（而非文字）將成為人類與 AI 互動的主要方式。OpenAI 與前 Apple 設計長 Jony Ive 合作開發的 AI 智慧音箱（預計售價 200 至 300 美元，約新台幣 6,500 至 9,750 元，最快 2027 年 2 月推出），正需要 GPT-Bidi-1 這樣的雙向語音引擎作為核心。沒有螢幕的裝置上，自然對話能力不是加分項，而是整個使用介面。這也解釋了為何 OpenAI 如此重視語音技術的升級，不惜投入大量資源追趕 Google 和 Apple 在語音領域的領先地位，確保未來硬體產品擁有足夠的競爭力。

OpenAI 與 Jony Ive 攜手打造劃時代無螢幕 AI 裝置，預計 2026 年亮相

開發歷程與上市時程

OpenAI 的 BiDi 語音模型最初目標是在 2026 年第一季推出，但據傳原型在連續對話數分鐘後會出現異常聲音等問題，導致時程推遲到第二季或更晚。如今 GPT-Bidi-1 的相關準備跡象已在 ChatGPT 網頁版和行動版中出現，顯示消費者端的發布已近在咫尺，不過最終命名可能還會調整。外界預期 GPT-Bidi-1 可能在未來幾週內正式亮相，屆時將與 Google 的 Gemini Live 以及 Apple 的 Siri 等競品正面交鋒，掀起新一波 AI 語音大戰，也將重新定義 AI 語音對話的標準。

GPT-Bidi-1 也被認為將大幅提升 ChatGPT 在客服場景中的應用能力。BiDi 架構能夠在說話的同時呼叫外部工具和應用程式，這對於需要即時查詢資料庫或執行操作的客服場景來說是關鍵需求。OpenAI 一直將客服自動化視為語音技術的重要應用場景，GPT-Bidi-1 的雙向對話能力讓 AI 客服可以更自然地處理客戶的提問與需求，同時在背景中查詢訂單資訊或執行退款操作，讓服務流程更加順暢。

總結

GPT-Bidi-1 的推出將是 ChatGPT 語音模式自推出以來最大的一次升級。從「輪流說話」到「同時聽與說」的轉變，看似只是技術細節的調整，但實際上將徹底改變人與 AI 語音互動的體驗。對於正在打造無螢幕 AI 硬體的 OpenAI 來說，這項技術更是不可或缺的關鍵拼圖。隨著 GPT-Bidi-1 發布在即，ChatGPT 的語音對話能力可望迎來一次真正的質變，讓使用者與 AI 的對話更加自然流暢，也為 OpenAI 的語音生態系與未來硬體產品奠定更加穩固的基礎。

Tags: BiDi ChatGPT GPT-Bidi-1 OPENAI 語音模型

ChatGPT 語音最大規模升級！OpenAI 籌備推出 GPT-Bidi-1 雙向語音模型

您也許會喜歡：

網站搜尋

廣告