Claude Code「降智」不是錯覺！Anthropic 公開承認三大工程失誤

過去一個多月以來，全球開發者社群持續出現一種共同的困惑：Claude Code 是不是變笨了？程式碼推理能力明顯下滑、對話中不斷重複相同內容、回應變得異常簡短，這些抱怨從 3 月初開始在 GitHub Issues、Reddit 與 X 平台上大量湧現。面對排山倒海的質疑，Anthropic 終於在 4 月 23 日發布了一份詳盡的官方事後檢討報告，坦承 Claude Code 確實因為三個獨立的工程錯誤，導致產品品質在近兩個月內持續惡化，並強調這些問題均已修復，同時宣布為所有訂閱用戶重置使用額度作為補償。

這份由 Anthropic 工程團隊發布的報告，是近年 AI 產業中少見的公開透明事故檢討，不僅逐一剖析了三個技術失誤的成因與時間線，更承諾了一系列防止類似事件再次發生的流程改革措施。

第一個失誤：推理努力從「高」降為「中」

時間線：2026 年 3 月 4 日至 4 月 7 日

第一個問題源自一個看似合理的產品決策。Anthropic 團隊注意到，Claude Code 在高推理模式下的回應延遲過長，導致使用者介面看起來像是當掉了。為了改善使用體驗，工程團隊將預設推理努力（reasoning effort）從「high」調降為「medium」。

根據 Anthropic 內部測試，medium 等級在多數任務上提供「略低的智能但顯著降低的延遲」。然而，這個權衡在實際用戶手中完全不被買帳。大量開發者反映 Claude Code 在程式碼推理與除錯任務上「感覺明顯變笨了」。

在收集到足夠的用戶回饋後，Anthropic 於 4 月 7 日回滾了這項變更。目前的預設值為：Opus 4.7 模型使用「xhigh」（超高）等級，其他模型則維持「high」等級。

第二個失誤：快取清理 Bug 導致「失憶症」

時間線：2026 年 3 月 26 日至 4 月 10 日

第二個問題是一個隱藏更深的技術缺陷。Anthropic 為了降低恢復閒置對話時的成本，設計了一套 prompt 快取優化機制，原意是在用戶閒置超過一小時後，清除舊的推理（thinking）區塊，以節省 token 消耗。

然而，這套機制在 Sonnet 4.6 和 Opus 4.6 模型上出現了嚴重的實作缺陷：系統並非在閒置後清除一次推理快取，而是在每一輪對話中都持續丟棄推理區塊。這直接導致 Claude 在長對話中表現出明顯的「健忘」症狀，不斷重複已經說過的內容，同時也因為反覆的快取未命中（cache miss）而加速消耗用戶的使用額度。

更令人關注的是，這個 bug 成功通過了程式碼審查（code review）、單元測試和端對端測試，之所以未被發現，是因為它只在特定邊界條件下觸發（僅影響已閒置的對話），加上同時期一個無關的顯示變更掩蓋了問題的癥狀。

一個有趣的細節是：Anthropic 事後使用自家的 Code Review 工具對該段問題程式碼進行回測時，Opus 4.7 成功偵測出了這個 bug，而 Opus 4.6 則未能發現。該問題最終在 4 月 10 日的 v2.1.101 版本中修復。

第三個失誤：25 字限制扼殺了程式碼品質

時間線：2026 年 4 月 16 日至 4 月 20 日

第三個問題的影響時間最短，但或許最令開發者感到荒謬。在為 Opus 4.7 進行上線前調校時，Anthropic 在系統提示（system prompt）中加入了一條限制指令：「工具呼叫之間的文字限制在 25 字以內，最終回應限制在 100 字以內，除非任務需要更多細節」。

這個改動的初衷是讓 Claude Code 的回應更加簡潔。經過數週的內部測試，團隊認為品質沒有明顯下降。然而，當工程師使用更嚴格的消融測試（ablation study）進行評估後，發現這條限制在 Opus 4.6 和 Opus 4.7 上均造成了約 3% 的整體智能下降。

數據證明 Claude 真的變笨了！AMD AI 總監揭露 Anthropic 偷偷降低思考深度

雖然 3% 聽起來不多，但在程式碼生成的場景中，這種程度的品質下滑足以讓開發者在日常使用中明顯感受到差異。Anthropic 在發現問題後立即於 4 月 20 日回滾了該項變更。

三個 Bug 疊加的完美風暴

從時間線來看，這三個問題存在部分重疊期。3 月 26 日至 4 月 7 日期間，推理降級與快取 bug 同時存在；而 4 月 16 日至 20 日期間，尚未完全消化的快取問題餘波又與簡潔限制疊加。這意味著部分用戶在某些時段可能同時受到兩個甚至三個問題的影響，難怪社群的憤怒情緒如此強烈。

Anthropic 在報告中也澄清，這些問題僅影響 Claude Code 產品層面，底層的 Claude API 在整個期間並未受到影響。受影響的產品範圍包括 Claude Code、Claude Agent SDK 與 Claude Cowork。

補償措施與流程改革

除了技術修復之外，Anthropic 宣布了多項補償與預防措施：

在用戶補償方面，Anthropic 於 4 月 23 日為所有 Claude Code 訂閱者重置使用額度上限。

在流程改革方面，Anthropic 承諾了以下改進：

內部測試將使用公開發行版本，而非開發版本，以確保測試環境與用戶體驗一致。所有系統提示變更都必須經過針對特定模型的基準評估與消融測試。影響智能表現的變更將加入觀察期（soak period）與漸進式發佈。增強自家 Code Review 工具的能力，支援跨儲存庫的上下文分析。針對特定模型的變更將嚴格限定在目標模型範圍內，避免波及其他模型。

此外，Anthropic 也宣布在 X 平台與 GitHub 上啟用 @ClaudeDevs 帳號，作為向開發者社群公開說明產品決策的專屬溝通管道。

We’ve refreshed Claude Code on the web and mobile. A few things that recently shipped 🧵 pic.twitter.com/hJHIckTxx3

— ClaudeDevs (@ClaudeDevs) April 24, 2026

這次事件凸顯了 AI 產品在「產品層調校」上的風險。Claude 的底層模型能力並未改變，但產品層面的三個獨立決策與 bug，就足以讓用戶體驗產生顯著退化。這也提醒了整個產業：在 AI 工具日益成為開發者核心工作流程的今天，任何看似微小的系統參數調整，都可能對實際使用品質產生難以預期的連鎖反應。

Anthropic 選擇以公開透明的方式面對這次危機，發布了詳盡的技術檢討報告，這在 AI 產業中並不常見。無論是出於對用戶信任的重視，還是對自身工程文化的堅持，這份報告都為業界樹立了一個值得參考的事故處理範例。

Tags: Anthropic Claude Claude Code Claude 降智

Claude Code「降智」不是錯覺！Anthropic 公開承認三大工程失誤

您也許會喜歡：

網站搜尋

廣告