AI 從過去的「聊天助手」在這幾個月已經進化為能實際操作電腦、完成複雜任務的「代理人」(Agent),而且進化幅度可能超出你我想像。近日,一位用戶在 X 平台上分享了親眼目睹 OpenAI GPT-5.5 透過 Codex 平台,使用 Computer Use 功能即時操控瀏覽器完成 Amazon 退訂流程的驚人過程,引發網友熱議。 這段實測不僅展示了 AI 代理人在真實世界場景中的執行能力,也讓外界再次關注 OpenAI 最新模型 GPT-5.5 在「電腦操控」(Computer Use)方面的突破性進展。
GPT-5.5 Codex 協助網友向真人客服要求退訂服務並成功退款
根據用戶 Chris(@chatgpt21)在 X 上的分享,他要求 GPT-5.5 透過 Codex 平台協助他處理 Amazon 訂閱服務的退訂事宜。整個過程中,AI 代理人展現了令人印象深刻的自主操作能力。Chris 描述,他坐在沙發上,親眼看著 GPT-5.5 自動導航進入 Amazon 設定頁面,找到訂閱管理選項並執行取消操作。然而,事情並沒有在取消訂閱後結束。AI 代理人進一步進入了 Amazon 的客服頁面,主動點選了「與客服代表即時聊天」的選項(下面影片有加速10倍播放)。
I literally just watched GPT-5.5 via codex beat an Amazon customer associate in real time. 💀
I asked it to get me a refund, and I watched it navigate the settings, cancel the subscription, then it went step further into the help page.
I thought it was going to request a phone… pic.twitter.com/xepKx1HIxo
— Chris (@chatgpt21) April 29, 2026
當 Amazon 客服代表回覆「您的訂閱目前處於啟用狀態」時,GPT-5.5 立即做出精準回應,解釋訂閱之所以顯示為啟用狀態,是因為取消操作會保留剩餘計費週期的存取權限,但用戶希望立即停止服務並獲得退款。客服代表最終確認了退款,而 AI 代理人毫不遲疑地結束了對話。
Chris 在推文中寫道:「這是我第一次親眼看到一個人類客服代表被 AI 即時超越。」他還補充,這次退款金額為 15 美元(約 NT$495),幾乎在 5 分鐘內就抵銷了 AI 服務的成本。
GPT-5.5 的核心能力:不只是聊天
這段實測影片之所以引起廣泛關注,是因為它完美體現了 OpenAI 在 GPT-5.5 發布時強調的「代理級智慧」(Agentic Intelligence)。根據 OpenAI 官方介紹,GPT-5.5 的核心升級方向包括:
1. 電腦操控能力(Computer Use)
GPT-5.5 搭配 Codex 的電腦操控功能,能夠實際點擊、滾動、輸入文字、截圖並理解畫面內容。 這意味著 AI 不再只是處理文字訊息,而是能像人類一樣操作網頁介面。在 Amazon 退訂案例中,GPT-5.5 正是透過這項能力完成了從導航設定頁面到與客服聊天的完整流程。
2. 工具協調與多步驟任務規劃
OpenAI 在官方部落格中指出,GPT-5.5「能理解你想做什麼,並承擔更多工作本身」。它擅長撰寫和除錯程式碼、線上研究、分析資料、建立文件和試算表,以及操作軟體和跨工具完成任務。在退訂案例中,AI 不僅執行了單一步驟,而是自主規劃了「取消訂閱→進入客服頁面→與真人客服談判→爭取退款」的完整策略。
3. 效率與成本優勢
根據 OpenAI 公布的基準測試數據,GPT-5.5 在 Terminal-Bench 2.0(複雜指令列工作流程測試)中達到 82.7% 的準確率,較前代 GPT-5.4 的 75.1% 有顯著提升。同時,GPT-5.5 在完成相同 Codex 任務時使用的 token 數量明顯更少,效率更高。
在 Artificial Analysis 的 Coding Index 中,GPT-5.5 以競爭前沿模型一半的成本,提供了頂尖的智慧表現。
安全與倫理考量
OpenAI 在發布 GPT-5.5 時同時祭出了「史上最強的安全措施」。根據官方說明,GPT-5.5 經過了完整的安全與準備框架評估,並與內外部紅隊測試人員合作,針對先進網路安全和生物學能力進行了專項測試。
在 Amazon 退訂案例中,AI 代理人的行為完全在用戶指示下進行,且目標明確(取消訂閱並爭取退款),並未涉及任何欺詐或不當行為。然而,這類能力的發展也引發了外界對 AI 代理人可能被濫用的擔憂。例如,如果 AI 能夠即時與真人客服進行談判並取得退款,未來是否可能被用於大規模的自動化詐騙或騷擾?(或之後的世界變成 AI 助理跟 AI 客服討價還價?)

