GPT-5.3-Codex 和 GPT-5.3 Instant 陸續登場之後,原本以為 GPT-5.3 應該也要來了,沒想到這次 OpenAI 跳過,直接帶來更大規模升級的「GPT-5.4」,從電腦自主操控能力,到上下文視窗突破百萬 Token,再到大幅降低幻覺錯誤率,可說是 GPT-5 系列目前最全面升級的一次。ChatGPT 訂閱用戶現在就能使用到。
GPT-5.4 系列正式亮相,共有兩個版本
GPT-5.4 是 OpenAI 在 GPT-5 系列架構下推出的最新旗艦模型,整合先前 GPT-5.3 Codex 的程式能力,同時大幅強化推理、電腦使用(Computer Use)和知識工作三大面向。有兩個版本:
- GPT-5.4
- GPT-5.4 Pro
在 ChatGPT 中,GPT-5.4 Thinking 就是 GPT-5.4。以下是這次幾個值得關注的核心特色。
首先是「原生電腦控制能力」,這是 GPT-5.4 最受矚目的新功能之一。
過去 OpenAI 的電腦操作能力都需仰賴其他模型,而這次 GPT-5.4 是 OpenAI 第一款具備原生電腦使用能力的通用模型,可直接透過截圖、滑鼠與鍵盤控制電腦,開發者無需另外整合專用模型。也就是說,開發者可以直接用 GPT-5.4 打造 AI Agent,讓它自動瀏覽網站、操作軟體、執行多步驟任務,而不再只是「生成文字」而已。
再來是「百萬 Token 超大上下文視窗」,在 API 和 Codex 平台上,GPT-5.4 支援最高 100 萬個 Token 的上下文視窗,是 OpenAI 目前開放過最大的容量。這讓 AI Agent 可以在極長的工作流程中,持續追蹤前面的每一個步驟,不容易因為忘記先前內容而出錯。
不過需注意的是,超過標準 272,000 Token 的部分,會以 2 倍用量計入使用額度/限制,因此規劃成本時要特別留意。
除了 Token 變大,OpenAI 還特別強調這次的效率也有顯著提升。在 Scale 的 MCP Atlas 評測中,啟用 Tool Search(工具搜尋)功能後,整體 Token 用量可減少約 47%,同時維持相同的準確度:
圖像辨識方面,GPT-5.4 新增支援「原始畫質」的輸入模式,可處理最高 1024 萬像素或 6000 像素長邊的高解析度圖像(取較小者)。OpenAI 表示這在圖像定位能力、點擊精準度等方面都有明顯改善。
此外,ChatGGPT 使用 GPT-5.4 Thinking 時,如果遇到較複雜的問題,模型現在會先說明自己的工作方向,讓使用者審查,甚至可以中途調整指令。
GPT-5.4 的實測效能:跟上一代、競爭對手比起來如何?
這次 OpenAI 公佈了一系列基準測試成績,與前一代 GPT-5.2 和競爭對手相比,進步幅度都非常顯著,下面就取幾個比較重要的。
電腦桌面操作(OSWorld-Verified),這是測試衡量模型透過截圖和鍵盤滑鼠操作真實桌面環境的能力:
- GPT-5.4:75.0%(新高)
- 人類表現:72.4%
- Claude Opus 4.6:72.7%
- GPT-5.2:47.3%
GPT-5.4 不只超越了上一代近 28 個百分點,也是首度超越人類平均表現的模型。
橫跨 44 種職業類別的知識工作綜合測試(GDPval):
- GPT-5.4:83.0%(新高)
- GPT-5.4 Pro:82.0%
- GPT-5.2:70.9%
- GPT-5.2 Pro:74.1%
- Claude Opus 4.6:78%
幻覺錯誤率部分,與 GPT-5.2 相比,單一事實主張出錯的機率降低 33%,含錯誤的整體回應機率降低 18%。
OpenAI 各項測試數據和 Claude Opus 4.6、Gemini 3.1 Pro 差距:
如何使用 GPT-5.4?
目前在 ChatGPT、Codex 和 API 中都已經開放 GPT-5.4 模型。GPT-5.4 Thinking 會陸續逐步推出給 ChatGPT Plus、Team 和 Pro 付費方案的用戶,取代原本的 GPT-5.2 Thinking,GPT-5.2 Thinking 將於 2026 年 6 月 5 日退役。
除了模型本身,這次 OpenAI 也同步推出幾項企業導向的新功能:
- ChatGPT for Excel 和 Google Sheets(測試版):直接嵌入試算表,能建立和分析複雜的財務模型
- 新的金融數據整合:包含 FactSet、MSCI、Moody’s 等金融資料供應商的串接功能





