一天部署4500次，然後呢？Anthropic與Spotify炫耀AI開發成果，社群反問「App 比以前更難用了」

Anthropic 官方帳號 ClaudeDevs 於 6 月 29 日在 X 上發布了一則 Boris Cherny 與 Spotify 工程副總 Niklas Gustavsson 的訪談內容，宣稱 Spotify 每天進行 4,500 次生產環境部署，且 73% 的 Pull Request 已由 AI 輔助完成。這則貼文迅速引發熱議，獲得超過 4,200 個讚與 500 多則留言，瀏覽量突破 340 萬次。但風向卻與 Anthropic 預期的截然不同，社群對這組數字的反應以壓倒性的負面為主，許多使用者直言：「一個音樂播放軟體到底有什麼好一天更新 4,500 次的？」更有開發者諷刺地問：「該不會是新增一首歌就部署一次吧？」

Anthropic 的宣傳：AI 賦能的工程奇蹟

在這段於 Code with Claude 2026 大會上錄製的訪談中，Gustavsson 詳細介紹了 Spotify 如何將 AI 編碼工具深度整合進工程流程。他指出 Spotify 超過 99% 的工程師每週使用 AI 編碼工具，94% 回報生產力提升，Pull Request 頻率增加 76%。

Boris sat down with Spotify VP of Engineering Niklas Gustavsson.

Spotify ships 4,500 production deploys a day, and 73% of PRs are now AI-assisted. pic.twitter.com/Bc0xPduumG

— ClaudeDevs (@ClaudeDevs) June 29, 2026

Gustavsson 還展示了名為「Honk」的背景編碼 Agent，這套系統在 Kubernetes 上運行 Claude Agent SDK，可以同時排程數十個並行 session，在超過 2,000 萬行程式碼的 monorepo 中進行程式碼修改。他本人則保持 5 到 10 個 Claude session 在 tmux 中同時運行，每個 session 對應一個 git worktree。

Honk 的前身是 Spotify 耕耘多年的 Fleet Management 系統，至今已自動合併超過 250 萬個維護性質的 PR。Gustavsson 強調，透過加入 LLM judge 來驗證 AI 生成的程式碼，PR 成功率從約 25% 提升至 80%。

社群反應：數字很漂亮，App 很難用

然而，這則貼文下方的留言呈現了截然不同的風景。根據 Digg 的統計，社群情緒中負面比例高達 92.3%。

知名工程師暨作者 Gergely Orosz 直接打臉：「巧合的是，過去 4 週中有 3 週我無法在發布 podcast 時附上 Spotify 連結，因為 Spotify 掛了。兩次是發布 podcast 時 outage，一次是整個網頁播放器掛掉。我已經很久沒看到 Spotify 的可靠性這麼差了。」他後來補充：「我不是暗示 Spotify 的可靠度問題跟 Claude Code 有關。但從我的使用者體驗來看，可靠度確實比以前糟很多。而且 Spotify 完全沒有狀態頁面，也沒有 postmortem，作為一名 podcast 製作人也是付費會員，這非常令人失望。」

另一位工程師 Taylor Eernisse 的留言則精準點出了矛盾所在：「我覺得一天部署 50 到 100 次值得拿來說嘴。但為什麼一個極其成熟的服務需要一天 4,500 次發布？你真的能直視我的眼睛說，這些變更中哪怕有四分之一為終端使用者帶來了可衡量的價值嗎？」

更多使用者的反應更直接：

Gio Casinelli：「產品這 10 年看起來都一模一樣。他們到底在部署什麼？」
hp (Planckbot)：「他們沒有任何新功能。就算把 Spotify 回退到 5 年前的版本，也沒人會發現。」
Finn Hulse：「Spotify 糟透了。他們唯一的任務就是推薦好聽的音樂，而他們連這個都做不好。」
Daniel (growing_daniel)：「任何真正用過 Spotify App 的人都知道，這對 AI 工程來說是個極其利空的訊號。」
Vighnesh：「他們是每次新增一首歌就部署一次嗎？」🤣

vik (@vikhyatk) 則簡潔地總結：「Spotify 有 10,000 名員工，然後拿這個出來說嘴。」

數字背後的真正問題

深入探究後可以發現幾個根本問題，首先，4,500 次部署的定義本身就很模糊，Spotify 可能將微服務架構中每個服務的獨立部署都計入，而非使用者感知的「App 更新」。在微服務架構下，一個變更可能是修改一行設定檔或更新一個相依套件，這與使用者看到的 Spotify App 版本更新完全是兩回事。換句話說，這個數字對工程團隊來說有意義，但對一般使用者來說完全不具參考價值。

其次，73% AI 輔助的 PR 並不代表 AI 自主撰寫了 73% 的程式碼。Spotify 官方部落格寫得更精確：「絕大多數 PR 是由開發者與 AI Agent 協作完成」。RuntimeWire 的分析也指出，這組數字反映的是在已高度標準化的工程平台上加速，而非從零開始的 AI 編碼奇蹟。Spotify 過去多年透過 Backstage 開發者入口、Fleet Management 系統與統一的技術棧建立了一套高度一致的程式碼庫，Agent 表現好的原因正是因為程式碼風格一致、測試覆蓋率高，而非模型本身有多厲害。

第三，Gustavsson 在訪談中開誠布公地承認，單純依賴 AI 生成程式碼的效果起初並不好，PR 成功率僅約 25%。改善來自於加入 LLM judge 驗證機制，讓 AI 產生完 diff 後由另一個模型比對原始需求，才將成功率拉到 80%。換句話說，如果你去掉那層審核機制，這些所謂的「AI 輔助」大部分是錯的。這也呼應了 RuntimeWire 的精闢觀察：「獲得最多價值的公司，不是 prompt 權限最大的公司，而是組件目錄最乾淨、測試覆蓋最完整、技術棧最一致的組織。」

這些高頻部署背後還有一個隱形成本：CI/CD 與可觀測性的費用，這並不是說 Claude 模型不好，而是反應了很多科技公司「為 AI 而 AI」，代表了工程師為了追求 AI 使用的 KPI 做的無意義 Tokenmaxxing 行為，燒了一大堆 Token 卻沒有換來應有的產值。

AI Token 成本已超越人力！Uber 四個月燒 34 億美元，Tokenmaxxing 狂潮下的荒誕戲碼

格局對比：華麗的後台數字 vs 使用者的真實感受

這起事件的本質是一場典型的「工程師 vs 使用者」認知斷層。從 Anthropic 和 Spotify 的角度，4,500 次部署與 73% AI 輔助 PR 是值得驕傲的工程成就，證明了 AI Agent 在大型企業的應用深度。但對每天打開 Spotify 聽音樂的一般使用者來說，App 的 Bug 沒少過、介面設計越改越糟、推薦演算法也沒變得多聰明，這些華麗的後台數字絲毫沒有轉化為更好的產品體驗。

正如推文底下的留言提問：「使用 Spotify 的人們，你們覺得過去 6 個月來 App 體驗變好了嗎？」這個問題的沉默本身就說明了答案。

Tags: Anthropic Boris Cherny Claude Spotify Tokenmaxxing

一天部署4500次，然後呢？Anthropic與Spotify炫耀AI開發成果，社群反問「App 比以前更難用了」

您也許會喜歡：

網站搜尋

廣告