隨著 OpenAI 推出 Codex 桌面版 App 後,很快的也宣布新一代 GPT-5.3-Codex 模型,就版本來說,看起來只是小更新,但實際上改變還蠻大的,GPT-5.3-Codex 是把 Codex 原本從「只是寫與檢查程式碼」的代理,變成能「在電腦上完成整段流程」的代理。

這次更新重點:GPT 5.3 Codex 的新改變與特色
OpenAI 表示「GPT-5.3-Codex 同時推進了 GPT-5.2-Codex 的前沿寫程式能力,以及 GPT-5.2 的推理與專業知識能力,並整合到同一個模型中,速度還提升 25%。在 SWE-Bench Pro、Terminal-Bench、OSWorld 與 GDPval 這四項評測中創下業界新高。」
簡單來說,GPT-5.3-Codex 的重點不是在寫程式碼更強,而是更能把一個任務拆成步驟、用工具、跑流程、最後把結果做出來,過程中還可以像引導同事一樣,隨時介入調整方向,不需要等它把整份成果都生成出來才發現走偏。
GPT-5.3-Codex 擁有更強的 agentic 能力,能在工作時持續互動、保持上下文不掉線。
官方公布的數據裡,GPT-5.3-Codex 相較 GPT-5.2-Codex 的提升,最明顯的是在「終端操作與桌面環境完成任務的電腦使用」的能力。
- Terminal-Bench 2.0,GPT-5.3-Codex 是 77.3%,GPT-5.2-Codex 是 64.0%。
- OSWorld-Verified(桌面環境完成任務的電腦使用能力),GPT-5.3-Codex 是 64.7%,GPT-5.2-Codex 是 38.2%。
- SWE-Bench Pro(更接近真實工程情境)則是 56.8% 對 56.4%,差距不大。
OpenAI 更強調,GPT-5.3-Codex 在完成這些任務時所使用的 token 數量比過往任何模型都更少,讓使用者能打造更多成果:
具體來說,有三個主要變化在日常使用上會比較明顯感受到差異。
第一是「長任務」的可用性,這次速度提升多達 25%,代表說更有機會將需要研究、需要使用工具、需要多步執行的任務跑到底,而不是卡在等待或反覆確認。
第二個是處理時「更像思考整個專案」而不是「思考單一答案」。OpenAI 舉例說,要求它製作兩款遊戲:
- Codex App 發表時的賽車遊戲第二版
- 一款潛水探索遊戲
僅使用「修 bug」或「改進遊戲」等通用後續指令的情況下,GPT-5.3-Codex 就能在數百萬 token 的過程中自主迭代與改進這些作品。
第三個則是「不只寫程式碼」,GPT-5.3-Codex 被設計來支援整個軟體生命週期中的所有工作,包括除錯、部署、監控、撰寫 PRD、改文案、做使用者研究、補測試、整理指標等;甚至也提到可做投影片、試算表這類「知識工作產物」。
除此之外,GPT-5.3-Codex 也會更頻繁更新目前進度、關鍵決策,你也能即時提問、改需求、調整做法,而不是等它跑完整段流程才驗收。
更有趣的地方在,同一天 Claude 其實也發表 Claude Opus 4.6 新模型, Terminal-Bench 2.0 成績為 65.4%,當時比所有競爭對手都高:
但沒想到不到一個小時,OpenAI 就發表的 GPT-5.3-Codex 且立刻以 77.3% 成績超越,許多網友就笑稱,Claude 被狙擊了。
付費 ChatGPT 用戶現在已經能使用 GPT-5.3-Codex,可透過以下平台使用:
- App
- CLI
- IDE 擴充
- Web



