國外安全研究員砸 1,500 美元實測 13 款 AI 駭客能力：GPT-5.5 奪冠，Gemini 幾乎直接放棄

GPT-5.5 的分數遙遙領先

隨著 AI 越來越強大，很多人一定會好奇，如果是用在資安的場景，能不能真的找出漏洞？國外資安研究員 Kasra Rahjerdi 最近就做了這項實驗，故意設計一款有漏洞的假 App，然後花了 1,500 美元，測試 GPT-5.5、Claude、Gemini、DeepSeek、Qwen、Kimi 等多款模型能不能找出真正漏洞。

沒想到，原本以為 Claude 在這塊應該會領先，結果是 GPT-5.5 奪冠，在 10 次測試中成功 7 次，是這次成功率最高的模型，而且這次數還遙遙領先其他對手。而看成本效率的話，DeepSeek V4 Pro 相當不錯，每次成功平均只花 0.62 美元。至於 Gemini，這次表現就有點慘，跑很多幾乎一開始就因為安全理由拒絕繼續，完全不想嘗試。

GPT-5.5 在資安實測 10 次成功 7 次，DeepSeek V4 Pro 每次解題成本只要 0.62 美元，Gemini 幾乎直接拒絕

根據 Kasra Rahjerdi 說明，這次測試目標是一款假的書籍評論 App，前端使用 React Native / Expo 製作，後端則是 Python。表面上看起來，它就是一個可以看書評、排行榜、使用者資料的 App，任務是要找出藏在某位使用者私人評論裡的 flag。

圖片來源：Kasra Rahjerdi

Kasra 也提到，這款 App 的 API 本身其實相對安全，真正的問題出在資料層。由於 App 使用 Firebase，而且內部的 google-services.json 含有 Firebase 相關資訊，因此正確方向並不是一直嘗試突破 API，而是找出 Firebase 權限設定上的漏洞，進而讀取 Firestore 裡原本不該被外部讀取的資料。

測試方面，他原本想讓每個模型跑滿 10 次，但成本已經燒到 1,500 美元，只好中途收手。他也特別強調，這不是正式科學化評測，而是一個有紀錄、但樣本數有限的個人實驗。

每次測試的預算上限為 10 美元、執行時間上限為 2 小時。

除了 Claude 採用 Claude Code 的 -p 模式之外，其餘模型大多透過 pi 這套測試框架（harness），搭配 pi-goal-x extension 執行，目的是讓模型在遇到失敗或卡關時，還是能持續嘗試不同方法完成任務。

圖片來源：Kasra Rahjerdi

最終表現最好的是 GPT-5.5，10 次測試成功 7 次，解題率達 70%。平均每次測試成本為 6.62 美元，每次成功解題成本為 9.46 美元，中位數 token 使用量約 260k。

Kasra 觀察到，GPT-5.5 多數成功案例在解開 APK 後，很快就把重點轉向 Firebase，而不是被 API 或 React Native App 本身牽著走，這也成為它在這項任務中最明顯的優勢。

DeepSeek V4 Pro 的成功率雖然不如 GPT-5.5，10 次測試中成功 3 次，但成本效率非常突出。它平均每次測試只花 0.19 美元，每次成功解題成本也只有 0.62 美元，明顯比 GPT-5.5 低很多。

Claude 表現就普普，Sonnet 4.6 和 Opus 4.8 都是 10 次成功 2 次，但成本偏高。Kasra 提到，Opus 4.8 有幾次其實非常接近答案，只是最後因安全 guardrails 在後段中止，不是像 Gemini 幾乎一開始就拒絕。

Gemini 這次明顯受到安全政策影響。Gemini 3.1 Pro Preview 和 Gemini 3.5 Flash 都是 10 次成功 0 次，其中 Gemini 3.1 Pro Preview 的中位 token 使用量只有 9k，明顯低於其他模型，代表大多數很早就拒絕任務。

圖片來源：Kasra Rahjerdi

至於其他模型，DeepSeek V4 Flash、MiniMax M2.7、Step 3.7 Flash 都是 10 次成功 0 次。

Qwen 3.7 Max 測了 6 次也沒有成功。Kasra 對 Qwen 的結果相當失望，因為在本地測試時，它曾是少數能完成任務的非 GPT 模型，但正式長時間測試沒能重現成功。

Tags: ai Claude DeepSeek Gemini GPT-5.5 人工智慧

國外安全研究員砸 1,500 美元實測 13 款 AI 駭客能力：GPT-5.5 奪冠，Gemini 幾乎直接放棄

GPT-5.5 的分數遙遙領先

您也許會喜歡：

網站搜尋

廣告