電腦王阿達
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 通訊達人
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 阿達自製工具
    • 非記不可:絕不會錯過重要事件
    • LINE貼圖裁切去背神器
    • Nano Banana Pro 去浮水印工具
    • 最愛提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 通訊達人
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 阿達自製工具
    • 非記不可:絕不會錯過重要事件
    • LINE貼圖裁切去背神器
    • Nano Banana Pro 去浮水印工具
    • 最愛提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
電腦王阿達
No Result
View All Result

首頁 » AI 新聞與教學 » AI 趨勢與相關新聞

Tags: aiClaudeOpus 4.7

Claude Opus 4.7 上線 48 小時評價兩極:跑分衝上並列第一,開發者卻抱怨代碼與長上下文推理退化

達小編 by 達小編
2026 年 04 月 19 日
in AI 趨勢與相關新聞
讀取中...

這兩天 Anthropic 發表最新的 Claude Opus 4.7 在第三方評測機構 Artificial Analysis 的 Intelligence Index 上,新模型以 57 分追平 GPT-5.4 與 Gemini 3.1 Pro,並列全球第一;在衡量知識工作能力的 GDPval-AA 評測中更以 1,753 Elo 大幅領先第二名 79 分。然而模型上線不到 48 小時,Reddit、X、GitHub Issue 上卻湧現大量開發者抱怨,質疑其在真實程式碼編輯與長上下文推理上「斷崖式退化」,讓「跑分第一、實戰崩盤」的評價在中外社群迅速擴散。
Claude Opus 4.7 上線 48 小時評價兩極:跑分衝上並列第一,開發者卻抱怨代碼與長上下文推理退化 - 電腦王阿達

官方基準測試:多數項目進步、少數明顯退步

依 Artificial Analysis 公布的資料,Opus 4.7 在多項主流基準測試呈現正向表現:IFBench 提升 5.5 個百分點、TerminalBench Hard 上升 5.3 個百分點、HLE 增加 2.9、SciCode 上升 2.6、GPQA Diamond 進步 1.8;代理能力指標 GDPval-AA 則從 Opus 4.6 的 1,619 Elo 一口氣拉升至 1,753 Elo,躍進 134 分。
Claude Opus 4.7 上線 48 小時評價兩極:跑分衝上並列第一,開發者卻抱怨代碼與長上下文推理退化 - 電腦王阿達

在「誠實度」面向上,Opus 4.7 將幻覺率從 4.6 的 61% 大幅壓低至 36%,下降 25 個百分點,嘗試作答比例從 82% 降到 70%,顯示新模型更傾向於在不確定時選擇「我不知道」、而非自信地胡謅;至於在完成相同工作量下所消耗的輸出 token,則從 4.6 的 1.57 億下降到 1.02 億,減幅約 35%。

不過並非所有基準都攀升。在 Anthropic 自家 NYT Connections Extended 的 940 題推理測試中,Opus 4.6 原本繳出 94.7% 的高分,Opus 4.7 卻暴跌至 41.0%;在評估 100 萬 token 長上下文檢索能力的 MRCR v2 基準上,Opus 4.6 取得 78.3%,4.7 則掉至 32.2%,一口氣少了 46 個百分點;τ²-Bench 則出現 3.5 個百分點的退步。

開發者實戰回饋:代碼補全遲鈍、語氣變硬

基準數字以外,真正在社群引爆爭議的是「實戰手感」。根據部分社群開發者的說法,Opus 4.7 在代碼補全反應、跨檔案上下文理解、複雜推理的連貫度等方面皆被用戶判定為「不如 4.6」,部分案例中原本一問一答即可解決的問題,新模型卻需要反覆追問才能逼近正確答案。

Claude Opus 4.7 上線 48 小時評價兩極:跑分衝上並列第一,開發者卻抱怨代碼與長上下文推理退化 - 電腦王阿達

Claude Opus 4.7 上線 48 小時評價兩極:跑分衝上並列第一,開發者卻抱怨代碼與長上下文推理退化 - 電腦王阿達

《Pragmatic Engineer》作者 Gergely Orosz 則在社群公開表示,新模型語氣「出人意料地帶有攻擊性(combative)」,他個人已改回使用 Opus 4.6;r/ClaudeAI 也出現標題為「Claude Opus 4.7 is a serious regression, not an upgrade.」的長文,在短時間內衝上版面高位。

I am not kidding, Opus 4.7 just keeps pushing back when I ask anything conversational from the start.

I gave up and went back to 4.6.

First time a new model feels like a regression (for non-coding work in this case: for research). Yes feels like this:https://t.co/Fco0YcQLii

— Gergely Orosz (@GergelyOrosz) April 17, 2026

Token 用量爭議:新分詞器讓相同任務成本反升

雖然 Opus 4.7 在 Artificial Analysis 的整合測試中總體 token 用量下降,但現實世界的開發流程未必複製這個結果。用戶實測指出,Opus 4.7 搭載的新分詞器(tokenizer)會讓相同任務的 token 消耗量增加 1.0 至 1.35 倍;由於 Anthropic 並未調整單價,仍維持每百萬輸入 token 5 美元、每百萬輸出 token 25 美元(約新台幣 NT$162 與 NT$810)的定價,實際上不少用戶的每月支出因此變高。
Claude Opus 4.7 上線 48 小時評價兩極:跑分衝上並列第一,開發者卻抱怨代碼與長上下文推理退化 - 電腦王阿達

Anthropic 官方回應:鼓勵耐心,部分 bug 已修

面對社群質疑,Anthropic 員工 Alex Albert 在 X 上回應,團隊在模型發布次日已修復多項問題,並呼籲用戶給予「包容與耐心」;Claude Code 創建者 Boris Cherny 則證實 4.7 在相同任務下確實會消耗更多 thinking token,公司為此已提高速率限制,但未公布具體幅度。

Claude Opus 4.7 上線 48 小時評價兩極:跑分衝上並列第一,開發者卻抱怨代碼與長上下文推理退化 - 電腦王阿達

 

支持者亦不在少數:「第一個真正懂我工作的模型」

儘管批評聲音在社群相當顯眼,仍有不少開發者給予 Opus 4.7 高度評價。創業者 Jeremy Howard 稱其為「第一個真正理解我在工作時到底在做什麼的模型」;Y Combinator 執行長 Garry Tan 表示正在用它開發新專案;Cursor 設計師 Ryo Lu 則認為 4.7 更精確、更字面的指令遵循,正是他做代理工作流時所需要的特性。
Claude Opus 4.7 上線 48 小時評價兩極:跑分衝上並列第一,開發者卻抱怨代碼與長上下文推理退化 - 電腦王阿達

結語:旗艦模型升級進入「陣痛期」成常態

Claude Opus 4.7 的反差式評價,凸顯出現階段前沿模型升級的一個常見問題:模型在新版對齊策略下學會更克制、更字面,跑分與可靠度同步提升;但對已經深度整合舊模型工作習慣的開發者而言,這種「行為風格轉變」本身就是一種退化。對一般用戶而言,若主要工作為知識查詢、代理任務或長週期項目管理,新版 Opus 4.7 仍是目前體感最強的 Claude 選項之一;但若是將模型嵌入在高頻代碼補全、既有提示詞庫已微調過的流水線上,則建議在 API 層暫時維持 Opus 4.6,並在驗證通過後再切換。

Tags: aiClaudeOpus 4.7

您也許會喜歡:

立達合法徵信社-讓您安心的選擇

網站搜尋

No Result
View All Result

廣告


歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 通訊達人
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
    • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 阿達自製工具
    • 超好用懶人包
    • Nano Banana Pro 去浮水印工具
    • 自製LINE 貼圖裁切去背神器
    • 阿達的提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 通訊達人
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
    • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 阿達自製工具
    • 超好用懶人包
    • Nano Banana Pro 去浮水印工具
    • 自製LINE 貼圖裁切去背神器
    • 阿達的提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技