果然就如同先前傳聞,GPT-5.6 這次推出不像過往模型一樣,發布後就直接大規模開放。OpenAI 稍早正式預覽新一代 GPT-5.6 系列,目前率先亮相的是 GPT-5.6 Sol,跟 GPT-5.5 相比,代理任務能力更上一層,資安部分也能跟 Mythos Preview 並肩,一開始只會開放給小部分可信任合作夥伴,後續才逐步擴大。
GPT-5.6 Sol 新增 max/ultra 推理模式,資安、生物能力都升級
這次 GPT-5.6 系列的命名,跟過往相比有一些改變。
OpenAI 表示,從 GPT-5.6 開始,數字代表模型世代,而 Sol、Terra、Luna 則代表固定的能力層級。Sol 是最強的旗艦模型;Terra 是比較平衡日常工作與成本的版本;Luna 則是最快、最便宜的版本。
這樣的命名方式,跟過去 mini、nano、pro 或 Thinking 更直覺一點,至少一般使用者可以比較快理解,Sol 就是最強,Terra 是中間,Luna 是便宜快速路線。
這次率先亮相的是 GPT-5.6 Sol 模型,提供兩個推理模式:
- max reasoning effort 模式:讓 Sol 可以花更多時間處理複雜問題。
- ultra 模式:更像現在大家熟悉的 AI 代理工作流,它不只靠單一代理完成任務,而是會使用 subagents 來加速複雜工作。簡單來說,ultra 會將任務拆給多個 AI 分工處理,最後再把結果整合。
能力測試部分,GPT-5.6 Sol 在「用指令操作電腦完成複雜任務」和「處理漏洞利用相關工作提升」最明顯。
首先是 TerminalBench 2.1,測試模型能不能在命令列環境中自己規劃、輸入指令、看錯誤訊息、修正方向,最後把任務完成。
GPT-5.6 Sol Ultra 拿到 91.9%,GPT-5.6 Sol 是 88.8%,超過 Claude Mythos 5 的 88.0% 一點點。GPT-5.6 Terra 則是 84.3%,和 Claude Fable 5 一樣,就算是最便宜的 GPT-5.6 Luna 也有 82.5%。也就是說,這次不只是 Sol 變強,連 Terra、Luna 都已經貼近或超過 GPT-5.5 等級:
再來是 GeneBench v1,這項測試能快速看出花多少輸出 Token,換到多少成果。
官方圖表顯示,GPT-5.6 Sol 的曲線一路拉到 30% 以上,明顯高於 GPT-5.5 約 23% 左右的最高點,而且 Sol 達到更高分數時使用的輸出 Token,也沒有 Terra 那麼誇張。Terra 雖然也能逼近 30% 左右,但需要用到接近 50K output tokens。Luna 就是低成本,分數大約落在 10% 到 15% 區間:
ExploitBench 是測試資安能力。從圖表中可以明顯看到,Sol 的成功率曲線可以衝到 70% 以上,接近 Mythos Preview 的位置,而且用的 output tokens 明顯少於 Mythos Preview:
相較之下,GPT-5.5 大約停在 40% 多,Terra 可以往 50% 以上推進,Luna 則大約落在 30% 多。這也是 OpenAI 說 Sol 接近 Mythos Preview、但輸出 Token 約只有三分之一的原因。不是單純分數高,而是效率也明顯提高。
最後的 ExploitGym 是測試 AI 是否能自主發現漏洞並完成漏洞利用,也呈現類似趨勢。
GPT-5.6 Sol 的 6 小時曲線來到 30% 以上,2 小時曲線也明顯高於 GPT-5.5。Terra 在延長時間後也能達到 20% 以上,但 Luna 就需要非常多 output tokens 才能慢慢往上爬:
也就是說,GPT-5.6 Sol 不只找漏洞能力更強,在長時間、多步驟的漏洞研究流程裡,也更能持續推進。
GPT-5.6 Sol 更擅長協助使用者發現並修復漏洞,而不是可靠地執行端到端攻擊。隨著這些能力持續進步,我們的優先事項是確保這些能力能到達並幫助防禦者,讓他們用來找出弱點、開發修補程式,並更廣泛地強化系統。 — OpenAI
為了避免 GPT-5.6 被拿來從事惡意網路攻擊,GPT-5.6 也採用多層安全防護機制,不僅模型本身會拒絕協助違規的網路攻擊請求,系統還會在生成內容時即時檢查高風險回應,必要時暫停生成並交由更大型推理模型再次審查。
如果判定違反政策,內容會在送達使用者前直接攔截。此外,OpenAI 也會結合帳號層級的風險訊號與持續監控,降低模型遭惡意濫用的可能性。
最後是可用性部分,GPT-5.6 目前還沒有全面開放。OpenAI 表示,在預覽期間,GPT-5.6 模型一開始會先透過 API 和 Codex,提供給部分可信任合作夥伴與組織使用;之後才會逐步擴大,開放給更多 ChatGPT、Codex 和 API 使用者。
OpenAI 也在公告中表示,雖然這次應美國政府要求,先向一小群可信任合作夥伴展開限量預覽,但它不認為這種政府優先存取流程應成為長期的預設做法,因為這會讓需要先進 AI 工具的使用者、開發者、企業、資安防守者及全球合作夥伴,無法及時取得最新能力。




