OpenAI 推出 GPT-5.6 Sol 新一代模型！代理任務更強，找漏洞能力媲美 Mythos Preview

來了

果然就如同先前傳聞，GPT-5.6 這次推出不像過往模型一樣，發布後就直接大規模開放。OpenAI 稍早正式預覽新一代 GPT-5.6 系列，目前率先亮相的是 GPT-5.6 Sol，跟 GPT-5.5 相比，代理任務能力更上一層，資安部分也能跟 Mythos Preview 並肩，一開始只會開放給小部分可信任合作夥伴，後續才逐步擴大。

GPT-5.6 Sol 新增 max／ultra 推理模式，資安、生物能力都升級

這次 GPT-5.6 系列的命名，跟過往相比有一些改變。

OpenAI 表示，從 GPT-5.6 開始，數字代表模型世代，而 Sol、Terra、Luna 則代表固定的能力層級。Sol 是最強的旗艦模型；Terra 是比較平衡日常工作與成本的版本；Luna 則是最快、最便宜的版本。

這樣的命名方式，跟過去 mini、nano、pro 或 Thinking 更直覺一點，至少一般使用者可以比較快理解，Sol 就是最強，Terra 是中間，Luna 是便宜快速路線。

這次率先亮相的是 GPT-5.6 Sol 模型，提供兩個推理模式：

max reasoning effort 模式：讓 Sol 可以花更多時間處理複雜問題。
ultra 模式：更像現在大家熟悉的 AI 代理工作流，它不只靠單一代理完成任務，而是會使用 subagents 來加速複雜工作。簡單來說，ultra 會將任務拆給多個 AI 分工處理，最後再把結果整合。

能力測試部分，GPT-5.6 Sol 在「用指令操作電腦完成複雜任務」和「處理漏洞利用相關工作提升」最明顯。

首先是 TerminalBench 2.1，測試模型能不能在命令列環境中自己規劃、輸入指令、看錯誤訊息、修正方向，最後把任務完成。

GPT-5.6 Sol Ultra 拿到 91.9%，GPT-5.6 Sol 是 88.8%，超過 Claude Mythos 5 的 88.0% 一點點。GPT-5.6 Terra 則是 84.3%，和 Claude Fable 5 一樣，就算是最便宜的 GPT-5.6 Luna 也有 82.5%。也就是說，這次不只是 Sol 變強，連 Terra、Luna 都已經貼近或超過 GPT-5.5 等級：

再來是 GeneBench v1，這項測試能快速看出花多少輸出 Token，換到多少成果。

官方圖表顯示，GPT-5.6 Sol 的曲線一路拉到 30% 以上，明顯高於 GPT-5.5 約 23% 左右的最高點，而且 Sol 達到更高分數時使用的輸出 Token，也沒有 Terra 那麼誇張。Terra 雖然也能逼近 30% 左右，但需要用到接近 50K output tokens。Luna 就是低成本，分數大約落在 10% 到 15% 區間：

ExploitBench 是測試資安能力。從圖表中可以明顯看到，Sol 的成功率曲線可以衝到 70% 以上，接近 Mythos Preview 的位置，而且用的 output tokens 明顯少於 Mythos Preview：

相較之下，GPT-5.5 大約停在 40% 多，Terra 可以往 50% 以上推進，Luna 則大約落在 30% 多。這也是 OpenAI 說 Sol 接近 Mythos Preview、但輸出 Token 約只有三分之一的原因。不是單純分數高，而是效率也明顯提高。

最後的 ExploitGym 是測試 AI 是否能自主發現漏洞並完成漏洞利用，也呈現類似趨勢。

GPT-5.6 Sol 的 6 小時曲線來到 30% 以上，2 小時曲線也明顯高於 GPT-5.5。Terra 在延長時間後也能達到 20% 以上，但 Luna 就需要非常多 output tokens 才能慢慢往上爬：

也就是說，GPT-5.6 Sol 不只找漏洞能力更強，在長時間、多步驟的漏洞研究流程裡，也更能持續推進。

GPT-5.6 Sol 更擅長協助使用者發現並修復漏洞，而不是可靠地執行端到端攻擊。隨著這些能力持續進步，我們的優先事項是確保這些能力能到達並幫助防禦者，讓他們用來找出弱點、開發修補程式，並更廣泛地強化系統。 — OpenAI

為了避免 GPT-5.6 被拿來從事惡意網路攻擊，GPT-5.6 也採用多層安全防護機制，不僅模型本身會拒絕協助違規的網路攻擊請求，系統還會在生成內容時即時檢查高風險回應，必要時暫停生成並交由更大型推理模型再次審查。

如果判定違反政策，內容會在送達使用者前直接攔截。此外，OpenAI 也會結合帳號層級的風險訊號與持續監控，降低模型遭惡意濫用的可能性。

GPT‑5.6 Sol launches with our most robust safety stack yet.

We strengthened real-time protections against high-risk cyber activity and repeated misuse, then spent weeks hardening the system with human red teaming and over 700,000 A100-equivalent GPU hours of automated testing.

— OpenAI (@OpenAI) June 26, 2026

最後是可用性部分，GPT-5.6 目前還沒有全面開放。OpenAI 表示，在預覽期間，GPT-5.6 模型一開始會先透過 API 和 Codex，提供給部分可信任合作夥伴與組織使用；之後才會逐步擴大，開放給更多 ChatGPT、Codex 和 API 使用者。

OpenAI 也在公告中表示，雖然這次應美國政府要求，先向一小群可信任合作夥伴展開限量預覽，但它不認為這種政府優先存取流程應成為長期的預設做法，因為這會讓需要先進 AI 工具的使用者、開發者、企業、資安防守者及全球合作夥伴，無法及時取得最新能力。

Tags: ai GPT-5.6 OPENAI 人工智慧

OpenAI 推出 GPT-5.6 Sol 新一代模型！代理任務更強，找漏洞能力媲美 Mythos Preview

來了

您也許會喜歡：

網站搜尋

廣告