Anthropic 在台灣時間 7 月 1 日凌晨正式發表 Claude Sonnet 5,這是該公司中階模型 Sonnet 系列有史以來最具代理能力(Agentic)的版本。Anthropic 在官方聲明中指出,Sonnet 5 能夠自主規劃任務、使用瀏覽器與終端機等工具,並以過去僅有旗艦 Opus 等級模型才能達到的水準獨立執行複雜工作流程。
Anthropic 發表 Sonnet 5:具備旗艦級自主代理能力,價格僅 Opus 四折
這次發表的時間點極具戰略意義,上週 OpenAI 才剛推出 GPT-5.6 Sol 預覽版,Google 的 Gemini 3.5 Flash 也在五月強調從對話機器人轉向代理型工具。Anthropic 選在此時推出 Sonnet 5,等於是向市場宣告:Agentic AI 不再是高階旗艦模型的專利,中階價格帶也能擁有強大的自主代理能力。
效能表現:逼近 Opus 4.8,知識工作甚至超越
根據 Anthropic 公布的評測數據,Sonnet 5 在多項關鍵指標上大幅領先前代 Sonnet 4.6,並與旗艦 Opus 4.8 的差距縮小到前所未有的程度。在代理編碼(Agentic Coding)測試中,Sonnet 5 獲得 63.2% 的成績,對比 Opus 4.8 的 69.2% 與 Sonnet 4.6 的 58.1%。在知識工作(Knowledge Work)評測中,Sonnet 5 甚至些微超越了以解決最困難問題聞名的 Opus 4.8。
在衡量真實經濟產出的 GDPval-AA v2 基準測試中,Sonnet 5 獲得 1,618 分,Opus 4.8 則為 1,615 分,更便宜的模型在實際工作表現上已超越旗艦。
Anthropic 也引入了「努力程度(Effort Level)」機制,讓開發者可以根據任務需求在 Sonnet 5 與 Opus 4.8 之間調整精確度與成本的平衡。在 BrowserComp(代理搜尋)與 OSWorld-Verified(電腦使用)測試中,Sonnet 5 在不同努力程度下的成本效能曲線已與 Opus 4.8 形成連續帶狀分布,而非過往 Sonnet 系列明顯落後的斷層。
定價策略:入門價僅 Opus 4.8 的四折
Sonnet 5 最令人矚目的賣點之一正是其價格。即日起至 2026 年 8 月 31 日,API 定價為輸入每百萬 tokens 僅 2 美元、輸出每百萬 tokens 10 美元(約新台幣 65 元與 325 元)。促銷期結束後調整為輸入 3 美元、輸出 15 美元(約新台幣 98 元與 488 元)。對比 Opus 4.8 的輸入 5 美元、輸出 25 美元,Sonnet 5 的標準價格僅約 Opus 的六折,促銷期間更僅有四折左右。若與競爭對手比較,Sonnet 5 比 OpenAI 的 GPT-5.5 與 Google 的 Gemini 3.1 Pro 都更便宜,但仍高於 Gemini 3.5 Flash。不過考慮到 Sonnet 5 的代理能力水準,這個價格帶極具競爭力。
此外,Sonnet 5 使用了更新版的 tokenizer(類似 Opus 4.7 的改動),相同輸入會對應約 1.0 至 1.35 倍的 tokens 數。Anthropic 表示促銷定價已經考慮到這項變化,轉換到 Sonnet 5 的成本大致與之前持平。
自我驗證:Agent 可靠性的關鍵突破
從早期測試夥伴的反饋來看,Sonnet 5 最受好評的功能之一是其「自我驗證(Self-Validation)」能力,模型會自動檢查自己的輸出結果,不需要使用者在提示詞中要求「請再次確認」。這項能力解決了 Agent 可靠性的核心瓶頸:過去各家都得靠外部防護欄(Guardrail)來補救,現在 Anthropic 把這項能力內化到模型本身了。
Zapier 資深工程師 Daniel Shepard 在聲明中表示:「我們交給 Sonnet 5 一個兩段式任務:更新 Salesforce 客戶分層、發送啟動通知給企業聯絡人,它從頭到尾獨立完成了。以前這類任務常常做到一半就卡住。對日常自動化來說,這是個不用考慮的選擇。」
ClickHouse 的 AI/ML 主任 Ryadh Dahimene 則指出:「Claude Sonnet 5 的推理步驟更精簡,用戶得到答案的速度明顯更快。這種速度是我們的客戶能實際感受到的差異。」
安全性:幻覺減少,抗拒越獄能力提升
在安全評估方面,Sonnet 5 整體優於前代 Sonnet 4.6。它在拒絕惡意請求、抵抗提示注入攻擊方面的表現更好,幻覺(Hallucination)與諂媚(Sycophancy)比率也低於前代。不過在自主行為審計中,Sonnet 5 的異常行為比率仍略高於 Opus 4.8 與 Mythos Preview。
Anthropic 特別強調,Sonnet 5 在危險的網路安全任務能力上遠低於 Opus 系列,它從未成功開發出完整的 Firefox 漏洞利用程式。儘管如此,Anthropic 仍為 Sonnet 5 預設啟用了與 Opus 4.7/4.8 相同的網路安全防護機制,即時偵測並阻止危險的網路安全用途。
可用性與生態整合
Claude Sonnet 5 即日起在所有方案上線:免費版與 Pro 版用戶預設即使用此模型,Max、Team、Enterprise 用戶也可選用。同時支援 Claude Code、Claude API(模型 ID:claude-sonnet-5),以及 Perplexity、Notion 等第三方平台的整合。Anthropic 也同步提高了所有方案的速率限制,以因應更高努力程度所帶來的 tokens 用量。
Perplexity 已在第一時間宣布 Pro 與 Max 訂閱用戶可用 Sonnet 5,並可將其選為 Computer Use 功能中的編排模型。
Claude Sonnet 5 is now available in Perplexity for Pro and Max subscribers.
You can also select it as an orchestrator model in Computer. pic.twitter.com/UktzCrUZU6
— Perplexity (@perplexity_ai) June 30, 2026
結語
Claude Sonnet 5 的發表標誌著 Agentic AI 進入一個新的價格效能階段。當 OpenAI 的 GPT-5.6 Sol、Google 的 Gemini 3.5 Flash 以及 Anthropic 的 Sonnet 5 都在同一個月內將自主代理能力推向中階價格帶,接下來競爭的焦點將不再是「誰能做 Agent」,而是「誰能用最低成本、最可靠的方式讓 Agent 跑起來」。對於開發者與企業來說,這是個好消息,高品質的 AI 代理正在變得經濟上可行,且門檻持續降低。Rust 工程師 Neel Chotai 的測試就是最佳寫照:他請 Sonnet 5 調查一個 bug,模型未經指示就自動寫出重現測試、實作修復、再 stash 掉確認 bug 回歸,全部一次完成。



