Anthropic 發表 Claude Sonnet 5：中階模型首度具備旗艦級自主代理能力，價格僅 Opus 四折

Anthropic 在台灣時間 7 月 1 日凌晨正式發表 Claude Sonnet 5，這是該公司中階模型 Sonnet 系列有史以來最具代理能力（Agentic）的版本。Anthropic 在官方聲明中指出，Sonnet 5 能夠自主規劃任務、使用瀏覽器與終端機等工具，並以過去僅有旗艦 Opus 等級模型才能達到的水準獨立執行複雜工作流程。

Anthropic 發表 Sonnet 5：具備旗艦級自主代理能力，價格僅 Opus 四折

這次發表的時間點極具戰略意義，上週 OpenAI 才剛推出 GPT-5.6 Sol 預覽版，Google 的 Gemini 3.5 Flash 也在五月強調從對話機器人轉向代理型工具。Anthropic 選在此時推出 Sonnet 5，等於是向市場宣告：Agentic AI 不再是高階旗艦模型的專利，中階價格帶也能擁有強大的自主代理能力。

效能表現：逼近 Opus 4.8，知識工作甚至超越

根據 Anthropic 公布的評測數據，Sonnet 5 在多項關鍵指標上大幅領先前代 Sonnet 4.6，並與旗艦 Opus 4.8 的差距縮小到前所未有的程度。在代理編碼（Agentic Coding）測試中，Sonnet 5 獲得 63.2% 的成績，對比 Opus 4.8 的 69.2% 與 Sonnet 4.6 的 58.1%。在知識工作（Knowledge Work）評測中，Sonnet 5 甚至些微超越了以解決最困難問題聞名的 Opus 4.8。

在衡量真實經濟產出的 GDPval-AA v2 基準測試中，Sonnet 5 獲得 1,618 分，Opus 4.8 則為 1,615 分，更便宜的模型在實際工作表現上已超越旗艦。

Anthropic 也引入了「努力程度（Effort Level）」機制，讓開發者可以根據任務需求在 Sonnet 5 與 Opus 4.8 之間調整精確度與成本的平衡。在 BrowserComp（代理搜尋）與 OSWorld-Verified（電腦使用）測試中，Sonnet 5 在不同努力程度下的成本效能曲線已與 Opus 4.8 形成連續帶狀分布，而非過往 Sonnet 系列明顯落後的斷層。

定價策略：入門價僅 Opus 4.8 的四折

Sonnet 5 最令人矚目的賣點之一正是其價格。即日起至 2026 年 8 月 31 日，API 定價為輸入每百萬 tokens 僅 2 美元、輸出每百萬 tokens 10 美元（約新台幣 65 元與 325 元）。促銷期結束後調整為輸入 3 美元、輸出 15 美元（約新台幣 98 元與 488 元）。對比 Opus 4.8 的輸入 5 美元、輸出 25 美元，Sonnet 5 的標準價格僅約 Opus 的六折，促銷期間更僅有四折左右。若與競爭對手比較，Sonnet 5 比 OpenAI 的 GPT-5.5 與 Google 的 Gemini 3.1 Pro 都更便宜，但仍高於 Gemini 3.5 Flash。不過考慮到 Sonnet 5 的代理能力水準，這個價格帶極具競爭力。

此外，Sonnet 5 使用了更新版的 tokenizer（類似 Opus 4.7 的改動），相同輸入會對應約 1.0 至 1.35 倍的 tokens 數。Anthropic 表示促銷定價已經考慮到這項變化，轉換到 Sonnet 5 的成本大致與之前持平。

自我驗證：Agent 可靠性的關鍵突破

從早期測試夥伴的反饋來看，Sonnet 5 最受好評的功能之一是其「自我驗證（Self-Validation）」能力，模型會自動檢查自己的輸出結果，不需要使用者在提示詞中要求「請再次確認」。這項能力解決了 Agent 可靠性的核心瓶頸：過去各家都得靠外部防護欄（Guardrail）來補救，現在 Anthropic 把這項能力內化到模型本身了。

Zapier 資深工程師 Daniel Shepard 在聲明中表示：「我們交給 Sonnet 5 一個兩段式任務：更新 Salesforce 客戶分層、發送啟動通知給企業聯絡人，它從頭到尾獨立完成了。以前這類任務常常做到一半就卡住。對日常自動化來說，這是個不用考慮的選擇。」

ClickHouse 的 AI/ML 主任 Ryadh Dahimene 則指出：「Claude Sonnet 5 的推理步驟更精簡，用戶得到答案的速度明顯更快。這種速度是我們的客戶能實際感受到的差異。」

安全性：幻覺減少，抗拒越獄能力提升

在安全評估方面，Sonnet 5 整體優於前代 Sonnet 4.6。它在拒絕惡意請求、抵抗提示注入攻擊方面的表現更好，幻覺（Hallucination）與諂媚（Sycophancy）比率也低於前代。不過在自主行為審計中，Sonnet 5 的異常行為比率仍略高於 Opus 4.8 與 Mythos Preview。

Anthropic 特別強調，Sonnet 5 在危險的網路安全任務能力上遠低於 Opus 系列，它從未成功開發出完整的 Firefox 漏洞利用程式。儘管如此，Anthropic 仍為 Sonnet 5 預設啟用了與 Opus 4.7/4.8 相同的網路安全防護機制，即時偵測並阻止危險的網路安全用途。

可用性與生態整合

Claude Sonnet 5 即日起在所有方案上線：免費版與 Pro 版用戶預設即使用此模型，Max、Team、Enterprise 用戶也可選用。同時支援 Claude Code、Claude API（模型 ID：claude-sonnet-5），以及 Perplexity、Notion 等第三方平台的整合。Anthropic 也同步提高了所有方案的速率限制，以因應更高努力程度所帶來的 tokens 用量。

Perplexity 已在第一時間宣布 Pro 與 Max 訂閱用戶可用 Sonnet 5，並可將其選為 Computer Use 功能中的編排模型。

Claude Sonnet 5 is now available in Perplexity for Pro and Max subscribers.

You can also select it as an orchestrator model in Computer. pic.twitter.com/UktzCrUZU6

— Perplexity (@perplexity_ai) June 30, 2026

結語

Claude Sonnet 5 的發表標誌著 Agentic AI 進入一個新的價格效能階段。當 OpenAI 的 GPT-5.6 Sol、Google 的 Gemini 3.5 Flash 以及 Anthropic 的 Sonnet 5 都在同一個月內將自主代理能力推向中階價格帶，接下來競爭的焦點將不再是「誰能做 Agent」，而是「誰能用最低成本、最可靠的方式讓 Agent 跑起來」。對於開發者與企業來說，這是個好消息，高品質的 AI 代理正在變得經濟上可行，且門檻持續降低。Rust 工程師 Neel Chotai 的測試就是最佳寫照：他請 Sonnet 5 調查一個 bug，模型未經指示就自動寫出重現測試、實作修復、再 stash 掉確認 bug 回歸，全部一次完成。

資料來源

Tags: ai Anthropic Claude Sonnet 5

Anthropic 發表 Claude Sonnet 5：中階模型首度具備旗艦級自主代理能力，價格僅 Opus 四折

您也許會喜歡：

網站搜尋

廣告