這兩天 Anthropic 發表最新的 Claude Opus 4.7 在第三方評測機構 Artificial Analysis 的 Intelligence Index 上,新模型以 57 分追平 GPT-5.4 與 Gemini 3.1 Pro,並列全球第一;在衡量知識工作能力的 GDPval-AA 評測中更以 1,753 Elo 大幅領先第二名 79 分。然而模型上線不到 48 小時,Reddit、X、GitHub Issue 上卻湧現大量開發者抱怨,質疑其在真實程式碼編輯與長上下文推理上「斷崖式退化」,讓「跑分第一、實戰崩盤」的評價在中外社群迅速擴散。
官方基準測試:多數項目進步、少數明顯退步
依 Artificial Analysis 公布的資料,Opus 4.7 在多項主流基準測試呈現正向表現:IFBench 提升 5.5 個百分點、TerminalBench Hard 上升 5.3 個百分點、HLE 增加 2.9、SciCode 上升 2.6、GPQA Diamond 進步 1.8;代理能力指標 GDPval-AA 則從 Opus 4.6 的 1,619 Elo 一口氣拉升至 1,753 Elo,躍進 134 分。
在「誠實度」面向上,Opus 4.7 將幻覺率從 4.6 的 61% 大幅壓低至 36%,下降 25 個百分點,嘗試作答比例從 82% 降到 70%,顯示新模型更傾向於在不確定時選擇「我不知道」、而非自信地胡謅;至於在完成相同工作量下所消耗的輸出 token,則從 4.6 的 1.57 億下降到 1.02 億,減幅約 35%。
不過並非所有基準都攀升。在 Anthropic 自家 NYT Connections Extended 的 940 題推理測試中,Opus 4.6 原本繳出 94.7% 的高分,Opus 4.7 卻暴跌至 41.0%;在評估 100 萬 token 長上下文檢索能力的 MRCR v2 基準上,Opus 4.6 取得 78.3%,4.7 則掉至 32.2%,一口氣少了 46 個百分點;τ²-Bench 則出現 3.5 個百分點的退步。
開發者實戰回饋:代碼補全遲鈍、語氣變硬
基準數字以外,真正在社群引爆爭議的是「實戰手感」。根據部分社群開發者的說法,Opus 4.7 在代碼補全反應、跨檔案上下文理解、複雜推理的連貫度等方面皆被用戶判定為「不如 4.6」,部分案例中原本一問一答即可解決的問題,新模型卻需要反覆追問才能逼近正確答案。
《Pragmatic Engineer》作者 Gergely Orosz 則在社群公開表示,新模型語氣「出人意料地帶有攻擊性(combative)」,他個人已改回使用 Opus 4.6;r/ClaudeAI 也出現標題為「Claude Opus 4.7 is a serious regression, not an upgrade.」的長文,在短時間內衝上版面高位。
I am not kidding, Opus 4.7 just keeps pushing back when I ask anything conversational from the start.
I gave up and went back to 4.6.
First time a new model feels like a regression (for non-coding work in this case: for research). Yes feels like this:https://t.co/Fco0YcQLii
— Gergely Orosz (@GergelyOrosz) April 17, 2026
Token 用量爭議:新分詞器讓相同任務成本反升
雖然 Opus 4.7 在 Artificial Analysis 的整合測試中總體 token 用量下降,但現實世界的開發流程未必複製這個結果。用戶實測指出,Opus 4.7 搭載的新分詞器(tokenizer)會讓相同任務的 token 消耗量增加 1.0 至 1.35 倍;由於 Anthropic 並未調整單價,仍維持每百萬輸入 token 5 美元、每百萬輸出 token 25 美元(約新台幣 NT$162 與 NT$810)的定價,實際上不少用戶的每月支出因此變高。
Anthropic 官方回應:鼓勵耐心,部分 bug 已修
面對社群質疑,Anthropic 員工 Alex Albert 在 X 上回應,團隊在模型發布次日已修復多項問題,並呼籲用戶給予「包容與耐心」;Claude Code 創建者 Boris Cherny 則證實 4.7 在相同任務下確實會消耗更多 thinking token,公司為此已提高速率限制,但未公布具體幅度。
支持者亦不在少數:「第一個真正懂我工作的模型」
儘管批評聲音在社群相當顯眼,仍有不少開發者給予 Opus 4.7 高度評價。創業者 Jeremy Howard 稱其為「第一個真正理解我在工作時到底在做什麼的模型」;Y Combinator 執行長 Garry Tan 表示正在用它開發新專案;Cursor 設計師 Ryo Lu 則認為 4.7 更精確、更字面的指令遵循,正是他做代理工作流時所需要的特性。
結語:旗艦模型升級進入「陣痛期」成常態
Claude Opus 4.7 的反差式評價,凸顯出現階段前沿模型升級的一個常見問題:模型在新版對齊策略下學會更克制、更字面,跑分與可靠度同步提升;但對已經深度整合舊模型工作習慣的開發者而言,這種「行為風格轉變」本身就是一種退化。對一般用戶而言,若主要工作為知識查詢、代理任務或長週期項目管理,新版 Opus 4.7 仍是目前體感最強的 Claude 選項之一;但若是將模型嵌入在高頻代碼補全、既有提示詞庫已微調過的流水線上,則建議在 API 層暫時維持 Opus 4.6,並在驗證通過後再切換。






