Anthropic 在 2026 年 6 月 30 日正式發表了 Claude Sonnet 5,官方定位為「迄今最具 Agent 能力的 Sonnet 系列模型」,宣稱在大量智慧體任務上已經逼近旗艦 Opus 4.8 的水準,而且價格卻只要 Opus 的四折。官方甚至端出限時優惠,2026 年 8 月 31 日前 API 輸入僅 2 美元/百萬 token,企圖以高 CP 值吸引開發者大規模導入。然而 GitHub 個人私有評測專案「LLM Benchmark Dashboard」的測試跑分結果顯示 Sonnet 5 不僅沒能輾壓對手,反而暴露了極度難看的性價比,測試成本是中國開源模型的 6 倍以上。

官方數據 vs 真實反饋:三派論戰
Anthropic 官方公布的基準測試成績確實亮眼,Sonnet 5 在 SWE-bench Verified 上拿下 82.1%,成為首個突破 80% 天花板的模型,超越 Gemini 3.1 Pro 的 80.6% 與 GPT-5.4 的約 80%;在博士級科學問答 GPQA Diamond 上更以 96.2% 刷新紀錄;OSWorld-Verified 電腦操作測試也以 88.3% 大幅領先 GPT-5.4 的 75.0%。

但全球開發者社群的反應卻分裂成涇渭分明的三派:
「吹爆派」,以 Reddit 開發者社群為主力,大量程式設計師驚嘆於 Sonnet 5 在複雜後端開發、多檔案重構上的統治力。有開發者留下高讚評價:「它只用了一會兒,就修復了一個把 Opus 4.8 卡了好幾天的嚴重 Bug,拿到了 Opus 的智商,卻只收 Sonnet 的價格。」在 Cursor 發布的真實測試中,Sonnet 5 在 CursorBench 上的得分從前代 Sonnet 4.6 的 49% 暴漲到 57%,意味著它已能在無人干預下獨立完成超過一半的多檔案複雜重構任務。
「吐槽派」,火力集中在 Sonnet 5 的 Max 推理模式,開發者形容它是「帳單刺客」。官方設計 Max 模式的初衷是讓模型進行更深度的推理,但實測發現這模式極易陷入高成本的「過度思考」。有用戶諷刺:「它思考了整整一個世紀,燒光了我的額度,最後就吐出那麼短一句話。」在 Agent 自主規劃場景下,Sonnet 5 的調用輪次比上一代翻了 3 倍,輸出 Token 膨脹了 40%。更令企業用戶跳腳的是,Anthropic 悄悄更換了分詞器(Tokenizer),導致同樣一段文字的 Token 數量最高膨脹 35%。
「觀望派」,直接將 Sonnet 5 與 GLM-5.2、MiniMax-M3、DeepSeek V4 Pro 等中國開源模型對比。結論是能力持平、價格卻差到 56 倍。專注 AI 基準測試的 LisanBench 創辦人在 X 上直言:「Sonnet 5 應該被扔進垃圾桶,它比 DeepSeek 貴了整整 57 倍。」該貼文瀏覽量迅速突破 77 萬。
Sonnet 5 goes straight into the garbage bin
> 1.2x more expensive than Opus 4.8 Max
> 2x more expensive than GPT-5.5-xhigh
> 5x more expensive than GLM-5.2
> 7x more expensive than Kimi-K2.6
> 57x more expensive than DeepSeek-V4-Pro pic.twitter.com/J8rH06Zty3— Lisan al Gaib (@scaling01) June 30, 2026
私有評測揭開殘酷真相:6 倍價格、同等分數
點燃這場爭議的關鍵,是 GitHub 上的 LLM Benchmark Dashboard 專案。這套由個人維護的私有題庫,專注在邏輯、數學、程式設計、人類直覺等高難度推理問題上測試模型的深度思考與長思維鏈(Reasoning)表現。測試結果揭示了三個殘酷事實:
第一、極限分數上 Sonnet 5 失去了絕對統治力。在這套硬核邏輯題中,MiniMax-M3 以 61.95 分拔得頭籌,Qwen3.7-Plus 則在極限分上與 Sonnet 5 打平。這意味著中國產推理大模型在純邏輯較量上,已經有能力與矽谷頂流平起平坐。
第二、測試成本完全不在同一個量級。Sonnet 5 跑完整套測試花了 71.96 元人民幣,而 Qwen 只要 11.71 元、MiniMax 只要 11.64 元,Sonnet 5 的帳單是中國產模型的 6 倍以上。若按此比例大規模調用,企業的商業落地成本根本難以承受。
第三、Sonnet 5 平均耗時僅 404 秒,遠快於 Qwen 的 1,156 秒和 MiniMax 的 887 秒,Token 吐出速度確實快。但在面對極難邏輯題時,「快」往往意味著思考不夠深。Sonnet 5 的思維鏈(CoT)堆疊得不夠厚,自我糾錯預算受限,導致它在真正需要「絞盡腦汁」的地方,沒能靠算力把極限分拉開。
過度安全對齊引發開發者反彈
除了性能與定價爭議,Sonnet 5 過度保守的安全對齊也成為開發者集中吐槽的短板。Anthropic 官方不僅自曝家醜,表示為了防止潛在濫用,模型被硬生生塞進了一個「道德審查器」,還在發表會上大肆宣傳 Sonnet 5 在「編寫 Firefox 漏洞利用程式碼」的測試中拿了零分。
網友紛紛嘲諷:「這就像一家安全公司在驕傲地宣布,看,我們故意讓這個模型變笨、變殘廢了,這樣它就肯定不會惹麻煩。」對於需要進行網路安全攻防演練、黑箱測試的白帽工程師來說,這種過度安全對齊不僅沒有保護任何人,反而直接讓工具失去了原本該有的實用價值。
結語
Claude Sonnet 5 到底翻沒翻車?答案取決於你拿它做什麼,以及你願不願意為高昂的帳單買單。如果你的核心痛點是 Agent 程式設計、複雜後端工程重構、多檔案長程協作,它依然會讓你感到驚喜。但如果你只是想跑一些硬核邏輯題、做日常知識問答、或在預算有限的情況下追求極致性價比,那它的表現和瘋狂燃燒的 Token 帳單,有些人會覺得對不起它的身價。
過去兩年,所有人比拼的都是「誰更聰明、誰的基準分更高」;而現在的技術圈與企業界,大家都在拿著算盤計算「誰更划算、誰的商業落地成本更低」。當 DeepSeek 級別的高級推理任務綜合成本只要 0.04 美元,而 Sonnet 5 在 Max 模式下要花 2.29 美元時,跑分榜上那一兩分的微弱差距,可能已經無法支撐起高達 56 倍的恐怖價差。那麼,您會因為性價比去考慮比較便宜能力相當的中國模型?還是選擇比 Fable 5 便宜很多,能力也不差的 Sonnet 5 呢?
