安全研究员 Kasra Rahjerdi 花费超 1500 美元,让十余款主流大模型对存在真实 Bug 的移动应用进行自主渗透测试,结果显示 GPT-5.5 以 70% 成功率领先,而部分模型因安全策略或路径依赖得零分。
📝 详细摘要
本文报道了一项由安全研究员 Kasra Rahjerdi 发起的实验:他构建了一个名为 BookNook 的 React Native 移动应用,并故意埋入安全漏洞,随后让 GPT、Claude、Gemini、DeepSeek、Qwen、Kimi 等十余款主流大模型在统一规则下(最高推理模式、Temperature 0.7、预算上限 10 美元/次、最长 2 小时/次)进行自主分析和攻击。实验总花费超 1500 美元。结果显示,GPT-5.5 以 70% 的成功率排名第一,其关键优势在于能迅速识别漏洞位于 Firebase 服务而非客户端或 API。DeepSeek V4 Pro 以 30% 成功率排名第二,但成本极低(平均 0.19 美元/次)。Claude 系列多次在接近成功时因预算或安全护栏中断。Gemini 系列则因安全策略几乎完全拒绝执行任务。Qwen 3.7 Max 消耗了最多的 Token(平均超 730 万/次)但未能复现前期测试的成功。文章还指出一个有趣现象:中国模型在攻击数据库时普遍比西方模型更少顾虑。作者认为,尽管 AI 距离自动化渗透测试专家还有差距,但已展现出接近初级安全研究员的能力,未来 Agent 与长上下文推理的成熟可能使自动化漏洞挖掘成为 AI 的重要应用场景。
💡 主要观点
- GPT-5.5 以 70% 成功率领先,关键在于能快速定位 Firebase 漏洞。 实验中的漏洞不在客户端或 API,而在 Firebase 服务。GPT-5.5 能迅速解包 APK 并聚焦 Firebase 展开攻击,而多数失败模型将时间浪费在 API 分析上。
💬 文章金句
- GPT-5.5 最大的优势在于能够迅速识别这一点。
- 今天的大模型已经不仅仅会写代码、补 Bug、生成文档,它们开始具备主动分析系统结构、识别攻击面以及寻找潜在 Bug 的能力。
📊 文章信息
AI 初评:82
来源:CSDN
作者:CSDN
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2539
标签: LLM, AI 安全, AI Agent, 渗透测试, 模型评测与基准