← 回總覽

花 1500 美元,让 AI“黑”自己的 App:GPT-5.5 成功率 70%,部分模型 0 分交卷

📅 2026-06-04 15:16 CSDN 人工智能 2 分鐘 1640 字 評分: 82
LLM AI 安全 AI Agent 渗透测试 模型评测与基准
📌 一句话摘要 安全研究员 Kasra Rahjerdi 花费超 1500 美元,让十余款主流大模型对存在真实 Bug 的移动应用进行自主渗透测试,结果显示 GPT-5.5 以 70% 成功率领先,而部分模型因安全策略或路径依赖得零分。 📝 详细摘要 本文报道了一项由安全研究员 Kasra Rahjerdi 发起的实验:他构建了一个名为 BookNook 的 React Native 移动应用,并故意埋入安全漏洞,随后让 GPT、Claude、Gemini、DeepSeek、Qwen、Kimi 等十余款主流大模型在统一规则下(最高推理模式、Temperature 0.7、预算上限 10 美

📌 一句话摘要

安全研究员 Kasra Rahjerdi 花费超 1500 美元,让十余款主流大模型对存在真实 Bug 的移动应用进行自主渗透测试,结果显示 GPT-5.5 以 70% 成功率领先,而部分模型因安全策略或路径依赖得零分。

📝 详细摘要

本文报道了一项由安全研究员 Kasra Rahjerdi 发起的实验:他构建了一个名为 BookNook 的 React Native 移动应用,并故意埋入安全漏洞,随后让 GPT、Claude、Gemini、DeepSeek、Qwen、Kimi 等十余款主流大模型在统一规则下(最高推理模式、Temperature 0.7、预算上限 10 美元/次、最长 2 小时/次)进行自主分析和攻击。实验总花费超 1500 美元。结果显示,GPT-5.5 以 70% 的成功率排名第一,其关键优势在于能迅速识别漏洞位于 Firebase 服务而非客户端或 API。DeepSeek V4 Pro 以 30% 成功率排名第二,但成本极低(平均 0.19 美元/次)。Claude 系列多次在接近成功时因预算或安全护栏中断。Gemini 系列则因安全策略几乎完全拒绝执行任务。Qwen 3.7 Max 消耗了最多的 Token(平均超 730 万/次)但未能复现前期测试的成功。文章还指出一个有趣现象:中国模型在攻击数据库时普遍比西方模型更少顾虑。作者认为,尽管 AI 距离自动化渗透测试专家还有差距,但已展现出接近初级安全研究员的能力,未来 Agent 与长上下文推理的成熟可能使自动化漏洞挖掘成为 AI 的重要应用场景。

💡 主要观点

- GPT-5.5 以 70% 成功率领先,关键在于能快速定位 Firebase 漏洞。 实验中的漏洞不在客户端或 API,而在 Firebase 服务。GPT-5.5 能迅速解包 APK 并聚焦 Firebase 展开攻击,而多数失败模型将时间浪费在 API 分析上。

DeepSeek V4 Pro 成本优势显著,但稳定性不足。 DeepSeek 以 30% 成功率排名第二,平均每次测试仅需 0.19 美元,远低于 GPT-5.5 的 6.62 美元。但其存在路径依赖问题,10 次测试中有 5 次完全未关注 Firebase。
安全策略是部分模型表现不佳的主因。 Gemini 系列几乎完全拒绝执行任务,Claude 系列多次在接近成功时因触发安全护栏而中断,这反映出安全对齐策略对模型自主攻击能力的显著限制。
中国模型在攻击数据库时更少顾虑。 实验观察到,面对可能影响真实数据库的攻击路径时,中国模型普遍比西方模型更积极地继续探索,体现了不同训练和安全对齐策略的差异。

💬 文章金句

- GPT-5.5 最大的优势在于能够迅速识别这一点。

  • 今天的大模型已经不仅仅会写代码、补 Bug、生成文档,它们开始具备主动分析系统结构、识别攻击面以及寻找潜在 Bug 的能力。

📊 文章信息

AI 初评:82

来源:CSDN

作者:CSDN

分类:人工智能

语言:中文

阅读时间:11 分钟

字数:2539

标签: LLM, AI 安全, AI Agent, 渗透测试, 模型评测与基准

阅读完整文章

查看原文 → 發佈: 2026-06-04 15:16:00 收錄: 2026-06-04 20:00:18

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。