Claude Opus 4.7 上線 48 小時評價兩極：跑分衝上並列第一，開發者卻抱怨代碼與長上下文推理退化

這兩天 Anthropic 發表最新的 Claude Opus 4.7 在第三方評測機構 Artificial Analysis 的 Intelligence Index 上，新模型以 57 分追平 GPT-5.4 與 Gemini 3.1 Pro，並列全球第一；在衡量知識工作能力的 GDPval-AA 評測中更以 1,753 Elo 大幅領先第二名 79 分。然而模型上線不到 48 小時，Reddit、X、GitHub Issue 上卻湧現大量開發者抱怨，質疑其在真實程式碼編輯與長上下文推理上「斷崖式退化」，讓「跑分第一、實戰崩盤」的評價在中外社群迅速擴散。

官方基準測試：多數項目進步、少數明顯退步

依 Artificial Analysis 公布的資料，Opus 4.7 在多項主流基準測試呈現正向表現：IFBench 提升 5.5 個百分點、TerminalBench Hard 上升 5.3 個百分點、HLE 增加 2.9、SciCode 上升 2.6、GPQA Diamond 進步 1.8；代理能力指標 GDPval-AA 則從 Opus 4.6 的 1,619 Elo 一口氣拉升至 1,753 Elo，躍進 134 分。

在「誠實度」面向上，Opus 4.7 將幻覺率從 4.6 的 61% 大幅壓低至 36%，下降 25 個百分點，嘗試作答比例從 82% 降到 70%，顯示新模型更傾向於在不確定時選擇「我不知道」、而非自信地胡謅；至於在完成相同工作量下所消耗的輸出 token，則從 4.6 的 1.57 億下降到 1.02 億，減幅約 35%。

不過並非所有基準都攀升。在 Anthropic 自家 NYT Connections Extended 的 940 題推理測試中，Opus 4.6 原本繳出 94.7% 的高分，Opus 4.7 卻暴跌至 41.0%；在評估 100 萬 token 長上下文檢索能力的 MRCR v2 基準上，Opus 4.6 取得 78.3%，4.7 則掉至 32.2%，一口氣少了 46 個百分點；τ²-Bench 則出現 3.5 個百分點的退步。

開發者實戰回饋：代碼補全遲鈍、語氣變硬

基準數字以外，真正在社群引爆爭議的是「實戰手感」。根據部分社群開發者的說法，Opus 4.7 在代碼補全反應、跨檔案上下文理解、複雜推理的連貫度等方面皆被用戶判定為「不如 4.6」，部分案例中原本一問一答即可解決的問題，新模型卻需要反覆追問才能逼近正確答案。

《Pragmatic Engineer》作者 Gergely Orosz 則在社群公開表示，新模型語氣「出人意料地帶有攻擊性（combative）」，他個人已改回使用 Opus 4.6；r/ClaudeAI 也出現標題為「Claude Opus 4.7 is a serious regression, not an upgrade.」的長文，在短時間內衝上版面高位。

I am not kidding, Opus 4.7 just keeps pushing back when I ask anything conversational from the start.

I gave up and went back to 4.6.

First time a new model feels like a regression (for non-coding work in this case: for research). Yes feels like this:https://t.co/Fco0YcQLii

— Gergely Orosz (@GergelyOrosz) April 17, 2026

Token 用量爭議：新分詞器讓相同任務成本反升

雖然 Opus 4.7 在 Artificial Analysis 的整合測試中總體 token 用量下降，但現實世界的開發流程未必複製這個結果。用戶實測指出，Opus 4.7 搭載的新分詞器（tokenizer）會讓相同任務的 token 消耗量增加 1.0 至 1.35 倍；由於 Anthropic 並未調整單價，仍維持每百萬輸入 token 5 美元、每百萬輸出 token 25 美元（約新台幣 NT$162 與 NT$810）的定價，實際上不少用戶的每月支出因此變高。

Anthropic 官方回應：鼓勵耐心，部分 bug 已修

面對社群質疑，Anthropic 員工 Alex Albert 在 X 上回應，團隊在模型發布次日已修復多項問題，並呼籲用戶給予「包容與耐心」；Claude Code 創建者 Boris Cherny 則證實 4.7 在相同任務下確實會消耗更多 thinking token，公司為此已提高速率限制，但未公布具體幅度。

支持者亦不在少數：「第一個真正懂我工作的模型」

儘管批評聲音在社群相當顯眼，仍有不少開發者給予 Opus 4.7 高度評價。創業者 Jeremy Howard 稱其為「第一個真正理解我在工作時到底在做什麼的模型」；Y Combinator 執行長 Garry Tan 表示正在用它開發新專案；Cursor 設計師 Ryo Lu 則認為 4.7 更精確、更字面的指令遵循，正是他做代理工作流時所需要的特性。

結語：旗艦模型升級進入「陣痛期」成常態

Claude Opus 4.7 的反差式評價，凸顯出現階段前沿模型升級的一個常見問題：模型在新版對齊策略下學會更克制、更字面，跑分與可靠度同步提升；但對已經深度整合舊模型工作習慣的開發者而言，這種「行為風格轉變」本身就是一種退化。對一般用戶而言，若主要工作為知識查詢、代理任務或長週期項目管理，新版 Opus 4.7 仍是目前體感最強的 Claude 選項之一；但若是將模型嵌入在高頻代碼補全、既有提示詞庫已微調過的流水線上，則建議在 API 層暫時維持 Opus 4.6，並在驗證通過後再切換。

Tags: ai Claude Opus 4.7

Claude Opus 4.7 上線 48 小時評價兩極：跑分衝上並列第一，開發者卻抱怨代碼與長上下文推理退化

您也許會喜歡：

網站搜尋

廣告