距離上一次 Claude Opus 4.6 發表才過約兩個月,Anthropic 稍早再度推出新一代旗艦模型 Claude Opus 4.7,AI 模型的進化速度真的是有夠快啊!而這次的升級重點主要集中在程式碼開發能力和視覺理解上,根據多項基準測試的結果,Opus 4.7 在程式碼相關任務中的表現不僅大幅超越前一代,甚至在部分指標上還贏過競爭對手 OpenAI 最新的 GPT-5.4。
不過跟之前沒有公開釋出的 Claude Mythos Preview 相比,Claude Mythos Preview 還是強很多。
Anthropic 發表 Claude Opus 4.7:程式碼能力大幅躍進、視覺解析度提升 3 倍,SWE-bench 分數超越 GPT-5.4
Opus 4.7 這次的升級主要可以分成三大部分,首先是很多人關心的「程式碼開發能力」,當然是大幅提升。
Anthropic 表示,Opus 4.7 在處理複雜、長時間運行的程式碼任務時,穩定性和嚴謹度都有明顯進步,特別是能自主完成的高難度任務。它的指令遵循能力和自我驗證機制也加強,簡單來說,就是你交代它做的事,它更能照著做,而且做完還會自己檢查一遍。
根據早期測試用戶的回饋,有人用 Opus 4.7 自主從零開始建造一個完整的 Rust 文字轉語音引擎,做完後還自動用語音辨識器去比對結果是否正確,這種自己驗收自己的能力是前一代做不到的。
再來是「視覺能力」的大幅強化。 Opus 4.7 支援的最大圖片解析度,從前一代的 1,568 像素,大幅提升到 2,576 像素,等於是超過 3 倍的視覺處理能力。在閱讀螢幕截圖、理解圖表、辨識技術細節等場景下會更加準確。對於需要用 AI 來操作電腦的使用者來說,這是一個非常棒的改進。
第三個則是「設計與文件處理方面的提升」。 Anthropic 表示,Opus 4.7 在製作儀表板、簡報、資料密集型介面等內容時,會做出更精緻的美學選擇,如:版面配置、配色、層次結構等都更有設計感。文件推理方面,Opus 4.7 的錯誤率比前一代降低了 21%。
測試數據部分,SWE-bench Pro 程式碼基準測試中(Agentic Coding),Opus 4.7 拿到 64.3% 的分數,前一代 Opus 4.6 是 53.4%,進步幅度超過 10 %。而 OpenAI 的 GPT-5.4 的成績是 57.7%,Opus 4.7 領先非常多。不過,Anthropic 自家的 Mythos Preview 拿到了 77.8%,差距還是很明顯:
OSWorld-Verified 的電腦操作任務測試中,Opus 4.7 也是有些微進步,拿到 78.0%,比 GPT-5.4 的 75.0% 和 Opus 4.6 的 72.7% 還高,更接近 Mythos Preview 的 79.6%。
視覺推理 CharXiv Reasoning 部分,Opus 4.7 在無工具輔助的情況下拿到 82.1%,Opus 4.6 只有 69.1%,進步了 13%,離 Mythos Preview 的 86.1% 也不算太遠。搭配工具使用後更達到 91.0%,Opus 4.6 則是 84.7%:
Cursor 表示,在程式碼開發工具 CursorBench 上,Opus 4.7 的分數為 70%,Opus 4.6 只有 58%,大幅提升不少。在 CodeRabbit 的程式碼審查測試中,召回率(Recall)也提升超過 10%。
日本電商平台 Rakuten 也分享測試結果,Opus 4.7 能解決的任務數量是 Opus 4.6 的 3 倍。Notion 表示在複雜工作流程中的成功率提升了 14%,工具呼叫錯誤也減少了:
值得一提的是,Anthropic 這次刻意降低 Opus 4.7 的網路安全攻擊能力,因此跟 Mythos Preview 相比,Opus 4.7 的資安攻擊能力有被刻意削弱,並加入了自動化防護機制,會偵測並封鎖涉及高風險網路安全操作的請求。
Opus 4.7 目前已經全面上線,包括 Claude 官方所有產品、Claude API、Amazon Bedrock、Google Cloud Vertex AI 以及 Microsoft Foundry。
Opus 4.7 的 API 定價跟前一代完全一樣:每百萬輸入 Token 為 5 美元、每百萬輸出 Token 為 25 美元,



