沒想到 OpenAI 推出 GPT-5.4 才過一個多月,GPT-5.5 稍早又接著登場,跟 Claude 一樣,新模型迭代的速度真的越來越快,由此可見現在競爭有多激烈。雖然時間沒有很長,但 GPT-5.5 進步幅度也很不錯,寫程式、操作電腦、做簡報和文件等都有升級,而且回應速度幾乎沒有變慢。跟競爭對手 Claude Opus 4.7、Gemini 3.1 Pro 相比,多項評測數據也是領先。

GPT-5.5 正式登場!速度跟前代一樣、智慧大幅升級,程式碼、電腦操作、數學推理全面超車
這次 OpenAI 形容 GPT-5.5 是「更懂你在做什麼、自己能扛更多工作」。
簡單來說,過去你可能要一步一步拆解任務、寫得很清楚才能獲得理想結果,現在 GPT-5.5 會自己規劃、呼叫工具、檢查過程、在不清楚的狀況下繼續推進,直到整件事做完。
OpenAI 特別強調這次改版,不是單純把模型做得更大,也同時顧到速度。GPT-5.5 在實際執行中的每 token 延遲跟 GPT-5.4 幾乎一樣,但智慧等級更高,而且處理同樣的 Codex 任務時還比前代更省 token。能做到這點,主要靠 OpenAI 跟 NVIDIA 合作、針對 GB200 與 GB300 NVL72 系統重新設計整個推論流程,甚至讓 GPT-5.5 自己分析幾週的流量資料、寫出新的分配演算法,最後讓 token 生成速度多了 20% 以上。
程式碼能力是這次升級最明顯的地方。OpenAI 表示 GPT-5.5 是目前他們最強的代理式寫程式模型,處理長時間、多步驟的工程任務時更穩,能跨大型系統掌握脈絡、在失敗的地方自己 debug,改完一段還會順手把周圍受影響的程式碼一起處理好。
電腦操作(Computer Use)與知識工作方面,GPT-5.5 搭配 Codex 的電腦操作能力後,跟前一代相比更接近模型跟你一起用電腦的感覺,會看螢幕、點擊、打字、在不同工具之間切換,也比前代更會做文件、試算表和簡報。
科學研究這塊也有進展。OpenAI 用一個客製版本的 GPT-5.5 搭配特製架構,協助證明了一項關於「Ramsey 數」的長期漸近結論,並在 Lean 上完成驗證。這是 GPT-5.5 第一次拿得出像樣的、屬於發現等級的數學成果,不只是寫程式或解釋而已。
OpenAI 分享的測試項目非常多,這裡挑幾個重點整理。
Terminal-Bench 2.0 代理式終端機操作部分,GPT-5.5 拿到 82.7%,GPT-5.4 只有 75.1%,而 Claude Opus 4.7 為 69.4%、Gemini 3.1 Pro 為 68.5%,這項領先幅度相當大。BrowseComp 代理式瀏覽也相當不錯,GPT-5.5 Pro 以 90.1% 拿下第一,GPT-5.5 也有 84.4%,競爭對手 Gemini 3.1 Pro 則是 85.9% ,更比 Opus 4.7 的 79.3% 多出不少:
OSWorld-Verified 真實電腦操作為小幅領先,GPT-5.5 達到 78.7%,小贏 Opus 4.7 的 78.0%,前代 GPT-5.4 則是 75.0%。
而 SWE-Bench Pro 真實 GitHub issue 解題雖然 GPT-5.5 為 58.6%,領先 GPT-5.4 的 57.7%,但這項 Claude Opus 4.7 的 64.3% 成績還是更好。
GPT-5.5 目前已經在 ChatGPT、Codex 上線,Plus、Pro、Business、Enterprise 等付費用戶都能用。在 ChatGPT 中稱作 GPT-5.5 Thinking,GPT-5.5 Pro 則限定 Pro、Business、Enterprise 用戶。
API 部分官方說很快就會上線。定價方面,GPT-5.5 為每百萬輸入 Token 5 美元、輸出 30 美元,GPT-5.5 Pro 則更貴,分別是 30 美元與 180 美元。
OpenAI 也承認跟 GPT-5.4 相比,GPT-5.5 價格確實更高,但強調因為更會省 token,實際用起來總成本不一定會差太多。
Codex 也因為 GPT-5.5 加入,進化成跨瀏覽器、檔案與電腦操作,自主點擊、測試流程、分析畫面並持續迭代直到完成任務的 AI 代理。也支援自動做 Excel / 試算表、生成簡報等:
