據 X 平台知名 AI 開發者爆料,OpenAI 正在籌備推出代號為 GPT-Bidi-1 的新一代語音模型,這將是 ChatGPT 語音模式有史以來最大規模的升級。根據科技媒體 testingcatalog 的報導,GPT-Bidi-1 採用「雙向」(BiDi)架構,能夠同時聽和說,在對話過程中吸收使用者的打斷,並即時調整回應內容。這項升級被認為將徹底改變 ChatGPT 語音對話的流暢度與自然度,讓 AI 語音對話首次接近真人互動水準,也將使 ChatGPT 在語音助理市場中更具競爭力,與 Google 和 Apple 等巨頭正面對決。
OpenAI 籌備推出 GPT-Bidi-1 雙向語音模型
這項消息由開發者 M1Astra 在 X 上率先曝光,貼文中寫道:「OpenAI 新語音模型 GPT-Bidi-1 即將推出,帶來『智慧的重大飛躍』:下一代語音、更自然的對話。」相關跡象已在網頁版和行動版 ChatGPT 中出現,暗示消費者端的正式 rollout 即將到來。開發者社群對此反應熱烈,許多人認為這是 ChatGPT 語音功能最重要的一次更新,將直接挑戰 Google Gemini Live 和 Apple Siri 的語音對話能力,為 AI 語音助理市場注入新變數。
New OpenAI voice model “GPT-Bidi-1”
Coming soon with a “major leap in intelligence”
– The next generation of Voice
– More natural conversations, powered by our next-generation voice model https://t.co/mvH9TSisgO pic.twitter.com/Ka3Mk2LpXV— M1 (@M1Astra) June 16, 2026
雙向架構:語音對話的重大突破
GPT-Bidi-1 的核心技術是「雙向」(BiDi)架構,這是 OpenAI 從 2026 年初開始研發的新一代語音處理方式。與現有語音模式最大的不同在於,BiDi 模型能夠同時處理聽覺輸入與語音輸出,而不是像現行系統那樣必須等使用者說完才能開始回應。這項技術最初由 The Information 在 2026 年初率先報導,當時 OpenAI 內部將其定位為語音技術的下一代核心架構,目標是讓 AI 語音對話達到與真人對話同等的流暢度與自然度,實現真正的雙向交流。
這意味著使用者可以在 ChatGPT 說話的過程中打斷它、修正方向,或是發出「嗯哼」這類確認訊號,模型都能即時感知並調整回應。相比之下,目前的 ChatGPT 語音模式一旦開始說話就會鎖定回應,使用者的中途打斷往往會讓對話卡住,需要重新開始。BiDi 架構讓對話更像真實的人類交流,而非機器的輪流發言,大幅降低了語音對話的僵硬感,讓整體使用者體驗更加直覺自然。
根據 OpenAI 內部消息,GPT-Bidi-1 上線後,使用者可以根據需求在雙向模式和現有的進階語音模式之間切換,並支援 High、Medium 以及 Instant 三種智慧等級,方便使用者依任務需求調整回應速度與深度。例如需要快速查詢天氣或時間時可選 Instant 模式獲得即時回應,進行複雜討論或頭腦風暴時則可切換到 High 模式獲得更深入、更具洞察力的回答。
語音技術的落後與追趕
目前,OpenAI 的文字模型已經快速進化到 GPT-5.5 世代,但語音功能仍停留在較舊的音訊技術路線,導致口語對話能力明顯落後於文字表現。GPT-Bidi-1 的推出正是為了彌補這個差距,讓 ChatGPT 的語音對話能力追上文字水準。這也意味著 ChatGPT 的語音模式將首次採用與文字模型同等的智慧等級,不再只是一個「會說話的文字模型」。
這個差距對 OpenAI 來說至關重要,該公司正押注語音(而非文字)將成為人類與 AI 互動的主要方式。OpenAI 與前 Apple 設計長 Jony Ive 合作開發的 AI 智慧音箱(預計售價 200 至 300 美元,約新台幣 6,500 至 9,750 元,最快 2027 年 2 月推出),正需要 GPT-Bidi-1 這樣的雙向語音引擎作為核心。沒有螢幕的裝置上,自然對話能力不是加分項,而是整個使用介面。這也解釋了為何 OpenAI 如此重視語音技術的升級,不惜投入大量資源追趕 Google 和 Apple 在語音領域的領先地位,確保未來硬體產品擁有足夠的競爭力。
開發歷程與上市時程
OpenAI 的 BiDi 語音模型最初目標是在 2026 年第一季推出,但據傳原型在連續對話數分鐘後會出現異常聲音等問題,導致時程推遲到第二季或更晚。如今 GPT-Bidi-1 的相關準備跡象已在 ChatGPT 網頁版和行動版中出現,顯示消費者端的發布已近在咫尺,不過最終命名可能還會調整。外界預期 GPT-Bidi-1 可能在未來幾週內正式亮相,屆時將與 Google 的 Gemini Live 以及 Apple 的 Siri 等競品正面交鋒,掀起新一波 AI 語音大戰,也將重新定義 AI 語音對話的標準。
GPT-Bidi-1 也被認為將大幅提升 ChatGPT 在客服場景中的應用能力。BiDi 架構能夠在說話的同時呼叫外部工具和應用程式,這對於需要即時查詢資料庫或執行操作的客服場景來說是關鍵需求。OpenAI 一直將客服自動化視為語音技術的重要應用場景,GPT-Bidi-1 的雙向對話能力讓 AI 客服可以更自然地處理客戶的提問與需求,同時在背景中查詢訂單資訊或執行退款操作,讓服務流程更加順暢。
總結
GPT-Bidi-1 的推出將是 ChatGPT 語音模式自推出以來最大的一次升級。從「輪流說話」到「同時聽與說」的轉變,看似只是技術細節的調整,但實際上將徹底改變人與 AI 語音互動的體驗。對於正在打造無螢幕 AI 硬體的 OpenAI 來說,這項技術更是不可或缺的關鍵拼圖。隨著 GPT-Bidi-1 發布在即,ChatGPT 的語音對話能力可望迎來一次真正的質變,讓使用者與 AI 的對話更加自然流暢,也為 OpenAI 的語音生態系與未來硬體產品奠定更加穩固的基礎。

