網易首頁 > 網易號 > 正文申請入駐

花1500美元，讓AI“黑”自己的App：GPT-5.5成功率70%，部分模型0分交卷

2026-06-04 15:18:37　來源: CSDN

北京舉報

分享至

整理 | 鄭麗媛

出品 | CSDN（ID：CSDNnews）

大模型會寫代碼已經不是什么新鮮事了。但如果給它們一個真實的移動應用、一份 APK 安裝包以及有限的預算，它們能否像安全研究員一樣主動發現漏洞、完成攻擊呢？

為了驗證這一點，最近安全研究員 Kasra Rahjerdi 做了一場頗為“燒錢”的實驗：他專門構建了一個存在真實 Bug 的移動應用，并讓 GPT、Claude、Gemini、DeepSeek、Qwen、Kimi 等十余款主流大模型進行自主分析和攻擊。

最終，這場實驗總花費超 1500 美元，GPT-5.5 以 70% 的成功率排名第一，而不少熱門模型則陷入錯誤方向反復嘗試，甚至連真正的漏洞入口都沒有找到。

一個專門為AI設計的“Bug靶場”

為了測試大模型的真實安全能力，Kasra 搭建了一套完整的實驗環境，具體并不復雜：用 Expo 搭建了一款 React Native 應用 BookNook，并配套開發了 Python 后端服務。

表面上看，這只是一個普通的讀書社區：首頁展示書籍推薦、排行榜展示活躍讀者、用戶主頁展示書評內容。但在系統內部，Kasra故意埋下了一個現實世界中經常出現的安全 Bug。

所有參測模型獲得的信息完全一致：APK 安裝包、挑戰說明文檔。而模型的唯一目標是：獲取某位用戶私有書評中的 Flag——換句話說，這相當于一次簡化版的滲透測試任務。

為了盡可能公平，Kasra 給所有模型設置了統一規則：

開啟最高推理模式
Temperature 統一設置為 0.7
每次運行預算上限 10 美元
單次運行最長 2 小時
每個模型最多測試 10 次

不過隨著費用不斷上漲，部分模型最終沒能完成全部測試。另外，由于 Kasra 本人已獲得 OpenAI 的安全研究授權，因此 GPT 系列不會因為涉及Bug 分析而直接拒絕任務。

CSDN 6 月寵粉福利｜開發者“神裝”補給站

200 小時 GPU 算力免費領

瑞幸咖啡/肯德基早餐/麥當勞套餐/下午茶等能量套餐任選其一

入群還可每月定期抽取旗艦顯卡、AI PC 等極客神裝

領取地址：https://s.csdn.cn/4nPsOp

一場價值1500美元的大模型“攻防賽”

如開頭所說，在完成全部 10 輪測試的模型中，GPT-5.5 獲得了最佳成績：

GPT-5.5 表現最佳，成功率達到 70%

實驗中的真正突破口并不在客戶端代碼，也不在 API 接口，而是在應用關聯的 Firebase 服務中——而 GPT-5.5最大的優勢在于能夠迅速識別這一點。

Kasra 發現，幾乎每一次成功運行中，GPT-5.5 都會在解壓 APK 后迅速定位到 Firebase，并圍繞其展開后續攻擊，而不會長期陷入 API 分析階段。相比之下，很多失敗的模型都掉進了同一個陷阱：把絕大多數時間耗費在客戶端和后端 API 上。

DeepSeek 和 Claude 表現不錯，但穩定性不足

排名第二的是 DeepSeek V4 Pro。雖然最終成功率只有 30%，但其成本優勢十分明顯：平均一次測試僅需 0.19 美元，遠低于 GPT-5.5 的 6.62 美元。

不過從運行記錄來看，DeepSeek 存在明顯的路徑依賴問題。在 10 次測試中，有 5 次完全沒有關注到 Firebase，剩余 5 次倒是發現了 Firebase，但其中有 2 次選擇通過 API 間接利用 Firebase 認證，而不是直接攻擊 Firebase 本身。

Claude 系列則出現另一種情況：無論是 Sonnet 還是 Opus，很多次測試實際上已經走在正確方向上，但最終卻被預算限制或者安全護欄機制提前打斷。Kasra 表示，多次看到 Claude 距離成功僅剩一步之遙，卻因為觸發安全策略而終止運行。

Gemini 被安全策略“卡住”了

Gemini 系列則有些特殊。Gemini 3.1 Pro Preview 幾乎在所有測試剛開始就直接拒絕執行任務。這一點，從 Token 消耗量就能看出來：Gemini 3.1 Pro 僅消耗約 9000 Token，其他模型普遍在 10-40 萬 Token 之間。也就是說，它根本沒有真正進入 Bug 分析階段。

Gemini 3.5 Flash 稍微好一些：少數測試能夠進入分析階段，但在接近關鍵步驟時又觸發安全策略，最終終止任務，跟 Claude Opus 差不多。

一些未完成 10 次測試的模型

由于成本越來越高，后來 Kasra 沒有給所有模型都做滿 10 次測試，但還是記錄了結果：

其中，最讓他意外的是 Qwen 3.7 Max。在測試前期，Kasra 曾對 Qwen 3.7 Max 抱有很高期待，因為在正式評測開始之前，Qwen 是除 GPT 外唯一成功完成挑戰的模型。

然而，在正式測試中 Qwen 卻未能復現這一結果。大部分運行都死盯著 API 中可能存在的 IDOR（不安全直接對象引用）漏洞。更夸張的是：平均每次運行消耗超過 730 萬 Token，成為本次實驗中最“燒錢”的模型之一。

相比之下，Kimi K2.6 雖然只測試了一次，卻成功完成了挑戰，而且速度和資源消耗都接近 DeepSeek V4 Pro。但由于 API 并發限制，Kasra 最終沒有繼續擴大測試規模。

一個有趣發現：中國模型更愿意“攻擊數據庫”

除了成功率之外，Kasra 還觀察到了一個有趣現象。不少模型在攻擊過程中會突然出現類似判斷：這可能會影響真實數據庫，因此不應該繼續執行，隨后主動放棄部分攻擊路徑。

而中國模型則普遍沒有這種顧慮。在面對數據庫層面的利用機會時，它們通常會更加積極地繼續探索——雖然這并不意味著攻擊能力一定更強，但確實體現出了不同模型訓練和安全對齊策略上的差異。

AI安全研究員，可能已經在路上

正如 Kasra 所說，這并不是一次嚴格意義上的科學評測，純屬圖一樂，但它依然展示了一個值得關注的趨勢：

今天的大模型已經不僅僅會寫代碼、補 Bug、生成文檔，它們開始具備主動分析系統結構、識別攻擊面以及尋找潛在 Bug 的能力。尤其是 GPT-5.5 在本次實驗中展現出的表現，基本已接近初級安全研究員的工作水平。

當然，目前來說，AI 距離真正意義上的“自動化滲透測試專家”還有不小差距。但如果把時間線拉長幾年，當 Agent 能力、工具調用以及長上下文推理進一步成熟后，自動化 Bug 挖掘很可能會成為AI最具沖擊力的應用場景之一。

而這場花費 1500 美元的實驗，或許只是一個開始。

原文鏈接：https://kasra.blog/blog/i-spent-1500-seeing-if-llms-could-hack-my-app/

開發者“神裝”補給站｜CSDN 6 月寵粉福利

不論你是想跑通最新的本地 LLM，還是想實測一套 Agent 自動化工作流，算力與補給，我們都為你備齊了！

立領三重進階大禮：

200 小時云端算力券免費領

瑞幸咖啡/肯德基早餐/麥當勞套餐/下午茶任選其一

掃碼即刻領取，今日額度有限，手慢無！

領取地址：https://s.csdn.cn/4nPsOp

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.