无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

花1500美元,讓AI“黑”自己的App:GPT-5.5成功率70%,部分模型0分交卷

0
分享至


整理 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

大模型會寫代碼已經不是什么新鮮事了。但如果給它們一個真實的移動應用、一份 APK 安裝包以及有限的預算,它們能否像安全研究員一樣主動發現漏洞、完成攻擊呢?

為了驗證這一點,最近安全研究員 Kasra Rahjerdi 做了一場頗為“燒錢”的實驗:他專門構建了一個存在真實 Bug 的移動應用,并讓 GPT、Claude、Gemini、DeepSeek、Qwen、Kimi 等十余款主流大模型進行自主分析和攻擊。

最終,這場實驗總花費超 1500 美元,GPT-5.5 以 70% 的成功率排名第一,而不少熱門模型則陷入錯誤方向反復嘗試,甚至連真正的漏洞入口都沒有找到。



一個專門為AI設計的“Bug靶場”

為了測試大模型的真實安全能力,Kasra 搭建了一套完整的實驗環境,具體并不復雜:用 Expo 搭建了一款 React Native 應用 BookNook,并配套開發了 Python 后端服務。


表面上看,這只是一個普通的讀書社區:首頁展示書籍推薦、排行榜展示活躍讀者、用戶主頁展示書評內容。但在系統內部,Kasra故意埋下了一個現實世界中經常出現的安全 Bug。

所有參測模型獲得的信息完全一致:APK 安裝包、挑戰說明文檔。而模型的唯一目標是:獲取某位用戶私有書評中的 Flag——換句話說,這相當于一次簡化版的滲透測試任務。

為了盡可能公平,Kasra 給所有模型設置了統一規則:

  • 開啟最高推理模式

  • Temperature 統一設置為 0.7

  • 每次運行預算上限 10 美元

  • 單次運行最長 2 小時

  • 每個模型最多測試 10 次

不過隨著費用不斷上漲,部分模型最終沒能完成全部測試。另外,由于 Kasra 本人已獲得 OpenAI 的安全研究授權,因此 GPT 系列不會因為涉及Bug 分析而直接拒絕任務。

CSDN 6 月寵粉福利|開發者“神裝”補給站

200 小時 GPU 算力免費領

瑞幸咖啡/肯德基早餐/麥當勞套餐/下午茶等能量套餐任選其一

入群還可每月定期抽取旗艦顯卡、AI PC 等極客神裝

領取地址:https://s.csdn.cn/4nPsOp


一場價值1500美元的大模型“攻防賽”

如開頭所說,在完成全部 10 輪測試的模型中,GPT-5.5 獲得了最佳成績:


  • GPT-5.5 表現最佳,成功率達到 70%

實驗中的真正突破口并不在客戶端代碼,也不在 API 接口,而是在應用關聯的 Firebase 服務中——而 GPT-5.5最大的優勢在于能夠迅速識別這一點。

Kasra 發現,幾乎每一次成功運行中,GPT-5.5 都會在解壓 APK 后迅速定位到 Firebase,并圍繞其展開后續攻擊,而不會長期陷入 API 分析階段。相比之下,很多失敗的模型都掉進了同一個陷阱:把絕大多數時間耗費在客戶端和后端 API 上。

  • DeepSeek 和 Claude 表現不錯,但穩定性不足

排名第二的是 DeepSeek V4 Pro。雖然最終成功率只有 30%,但其成本優勢十分明顯:平均一次測試僅需 0.19 美元,遠低于 GPT-5.5 的 6.62 美元。

不過從運行記錄來看,DeepSeek 存在明顯的路徑依賴問題。在 10 次測試中,有 5 次完全沒有關注到 Firebase,剩余 5 次倒是發現了 Firebase,但其中有 2 次選擇通過 API 間接利用 Firebase 認證,而不是直接攻擊 Firebase 本身。

Claude 系列則出現另一種情況:無論是 Sonnet 還是 Opus,很多次測試實際上已經走在正確方向上,但最終卻被預算限制或者安全護欄機制提前打斷。Kasra 表示,多次看到 Claude 距離成功僅剩一步之遙,卻因為觸發安全策略而終止運行。

  • Gemini 被安全策略“卡住”了

Gemini 系列則有些特殊。Gemini 3.1 Pro Preview 幾乎在所有測試剛開始就直接拒絕執行任務。這一點,從 Token 消耗量就能看出來:Gemini 3.1 Pro 僅消耗約 9000 Token,其他模型普遍在 10-40 萬 Token 之間。也就是說,它根本沒有真正進入 Bug 分析階段。

Gemini 3.5 Flash 稍微好一些:少數測試能夠進入分析階段,但在接近關鍵步驟時又觸發安全策略,最終終止任務,跟 Claude Opus 差不多。


一些未完成 10 次測試的模型

由于成本越來越高,后來 Kasra 沒有給所有模型都做滿 10 次測試,但還是記錄了結果:


其中,最讓他意外的是 Qwen 3.7 Max。在測試前期,Kasra 曾對 Qwen 3.7 Max 抱有很高期待,因為在正式評測開始之前,Qwen 是除 GPT 外唯一成功完成挑戰的模型。

然而,在正式測試中 Qwen 卻未能復現這一結果。大部分運行都死盯著 API 中可能存在的 IDOR(不安全直接對象引用)漏洞。更夸張的是:平均每次運行消耗超過 730 萬 Token,成為本次實驗中最“燒錢”的模型之一。

相比之下,Kimi K2.6 雖然只測試了一次,卻成功完成了挑戰,而且速度和資源消耗都接近 DeepSeek V4 Pro。但由于 API 并發限制,Kasra 最終沒有繼續擴大測試規模。


一個有趣發現:中國模型更愿意“攻擊數據庫”

除了成功率之外,Kasra 還觀察到了一個有趣現象。不少模型在攻擊過程中會突然出現類似判斷:這可能會影響真實數據庫,因此不應該繼續執行,隨后主動放棄部分攻擊路徑。

而中國模型則普遍沒有這種顧慮。在面對數據庫層面的利用機會時,它們通常會更加積極地繼續探索——雖然這并不意味著攻擊能力一定更強,但確實體現出了不同模型訓練和安全對齊策略上的差異。


AI安全研究員,可能已經在路上

正如 Kasra 所說,這并不是一次嚴格意義上的科學評測,純屬圖一樂,但它依然展示了一個值得關注的趨勢:

今天的大模型已經不僅僅會寫代碼、補 Bug、生成文檔,它們開始具備主動分析系統結構、識別攻擊面以及尋找潛在 Bug 的能力。尤其是 GPT-5.5 在本次實驗中展現出的表現,基本已接近初級安全研究員的工作水平。

當然,目前來說,AI 距離真正意義上的“自動化滲透測試專家”還有不小差距。但如果把時間線拉長幾年,當 Agent 能力、工具調用以及長上下文推理進一步成熟后,自動化 Bug 挖掘很可能會成為AI最具沖擊力的應用場景之一。

而這場花費 1500 美元的實驗,或許只是一個開始。

原文鏈接:https://kasra.blog/blog/i-spent-1500-seeing-if-llms-could-hack-my-app/

開發者“神裝”補給站|CSDN 6 月寵粉福利

不論你是想跑通最新的本地 LLM,還是想實測一套 Agent 自動化工作流,算力與補給,我們都為你備齊了!

立領三重進階大禮:

200 小時云端算力券免費領

瑞幸咖啡/肯德基早餐/麥當勞套餐/下午茶任選其一

掃碼即刻領取,今日額度有限,手慢無!

領取地址:https://s.csdn.cn/4nPsOp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
朝鮮霸占四個世界第一,至今無人超越,難怪美國對朝鮮如此客氣

朝鮮霸占四個世界第一,至今無人超越,難怪美國對朝鮮如此客氣

今夜繁星墜落
2026-06-13 05:28:13
蒙哥馬利:中國有很多有天賦的球員,希望未來世界杯能看到國足

蒙哥馬利:中國有很多有天賦的球員,希望未來世界杯能看到國足

懂球帝
2026-06-13 18:25:04
胰島“禍首”被揪出!是白糖的六倍,醫生:吃得越多,血糖越失控

胰島“禍首”被揪出!是白糖的六倍,醫生:吃得越多,血糖越失控

醫學科普匯
2026-06-11 21:20:08
都誰在看世界杯?官方公布中國收視率,FIFA 就偷著樂吧?

都誰在看世界杯?官方公布中國收視率,FIFA 就偷著樂吧?

酷侃體壇
2026-06-13 12:29:55
成本13億,首日票房僅400多萬,世界第一導演新片被謝苗打懵了

成本13億,首日票房僅400多萬,世界第一導演新片被謝苗打懵了

影視高原說
2026-06-12 17:28:16
湖南農村學霸高考只考239,班主任不相信查監控,看到真相他哭了

湖南農村學霸高考只考239,班主任不相信查監控,看到真相他哭了

二十一號故事鋪
2024-09-28 06:30:02
歪打正著?伊朗發射導彈,無一命中,導彈殘骸卻意外擊中以軍基地

歪打正著?伊朗發射導彈,無一命中,導彈殘骸卻意外擊中以軍基地

溫讀史
2026-06-12 00:15:41
法甲神鋒登頂射手榜,美國4-1大勝巴拉圭,后者曾斬巴西阿根廷

法甲神鋒登頂射手榜,美國4-1大勝巴拉圭,后者曾斬巴西阿根廷

釘釘陌上花開
2026-06-13 11:05:22
就喝了兩次!周身淤堵通了,暗黃全褪,臉色紅潤透亮到發光

就喝了兩次!周身淤堵通了,暗黃全褪,臉色紅潤透亮到發光

白米飯怎么吃
2026-06-11 13:11:05
我加班三天沒洗碗,婆婆拍照發給我母親,我母親:想要退貨晚了

我加班三天沒洗碗,婆婆拍照發給我母親,我母親:想要退貨晚了

茶余飯后故事會
2026-06-11 19:46:09
移民英國真相大白后,劉鑾雄近況曝光,難怪甘比要拋頭露面當網紅

移民英國真相大白后,劉鑾雄近況曝光,難怪甘比要拋頭露面當網紅

以茶帶書
2026-06-13 14:27:01
外資控制蒙古銅礦,340萬人淪為性旅游后花園

外資控制蒙古銅礦,340萬人淪為性旅游后花園

清歡百味
2026-06-11 18:45:10
張鎮麟:上海和遼寧球迷都拼了命保護我,想建立屬于上海的王朝

張鎮麟:上海和遼寧球迷都拼了命保護我,想建立屬于上海的王朝

懂球帝
2026-06-13 20:04:34
??怂苟玖? 尼克斯不會告訴你:掐死他!文班就不會有西決統治力

福克斯毒瘤? 尼克斯不會告訴你:掐死他!文班就不會有西決統治力

生活新鮮市
2026-06-14 01:07:29
才播4集,收視率第一!40集諜戰大劇于和偉、王奎榮再掀諜戰風云

才播4集,收視率第一!40集諜戰大劇于和偉、王奎榮再掀諜戰風云

樂楓電影
2026-02-10 13:47:50
阿媒:阿根廷9人將佩戴世界杯首秀徽章出戰

阿媒:阿根廷9人將佩戴世界杯首秀徽章出戰

懂球帝
2026-06-13 10:41:16
簽證到手!白云機場這波攔人操作,讓多少“說走就走”當場卡殼?

簽證到手!白云機場這波攔人操作,讓多少“說走就走”當場卡殼?

水泥土的搞笑
2026-06-14 01:25:22
總決賽G5裁判名單出爐,哈珀迎來神級里程碑,文班亞馬放狠話

總決賽G5裁判名單出爐,哈珀迎來神級里程碑,文班亞馬放狠話

世界體育圈
2026-06-13 21:56:16
美國突發大規模槍擊事件

美國突發大規模槍擊事件

陸棄
2026-06-13 11:08:45
太解氣!3-2絕殺翻盤!國乒絕境獨苗爆發,擊潰日乒天才破局翻盤

太解氣!3-2絕殺翻盤!國乒絕境獨苗爆發,擊潰日乒天才破局翻盤

運動探索
2026-06-13 09:33:04
2026-06-14 04:15:00
CSDN incentive-icons
CSDN
成就一億技術人
26647文章數 242291關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協議計劃周日簽署 霍爾木茲海峽立即開放

頭條要聞

特朗普:美伊協議計劃周日簽署 霍爾木茲海峽立即開放

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

游戲
教育
旅游
親子
手機

LPL淘汰賽:就差一點,今天無奇跡!BLG五局戰勝WE,決賽見

教育要聞

基礎不好建議避開的超恐怖院校。

旅游要聞

夏天就該這樣過!大別山的夏天,從霍山大峽谷漂流的第一聲尖叫開始。

親子要聞

真正覺醒的家庭

手機要聞

比華為三折疊還稀缺!iPhone Ultra國行備貨量不足:博主直言搶到賺到

無障礙瀏覽 進入關懷版