花 1500 美元，让 AI“黑”自己的 App：GPT-5.5 成功率 70%，部分模型 0 分交卷

📌 一句话摘要

安全研究员 Kasra Rahjerdi 花费超 1500 美元，让十余款主流大模型对存在真实 Bug 的移动应用进行自主渗透测试，结果显示 GPT-5.5 以 70% 成功率领先，而部分模型因安全策略或路径依赖得零分。

📝 详细摘要

本文报道了一项由安全研究员 Kasra Rahjerdi 发起的实验：他构建了一个名为 BookNook 的 React Native 移动应用，并故意埋入安全漏洞，随后让 GPT、Claude、Gemini、DeepSeek、Qwen、Kimi 等十余款主流大模型在统一规则下（最高推理模式、Temperature 0.7、预算上限 10 美元/次、最长 2 小时/次）进行自主分析和攻击。实验总花费超 1500 美元。结果显示，GPT-5.5 以 70% 的成功率排名第一，其关键优势在于能迅速识别漏洞位于 Firebase 服务而非客户端或 API。DeepSeek V4 Pro 以 30% 成功率排名第二，但成本极低（平均 0.19 美元/次）。Claude 系列多次在接近成功时因预算或安全护栏中断。Gemini 系列则因安全策略几乎完全拒绝执行任务。Qwen 3.7 Max 消耗了最多的 Token（平均超 730 万/次）但未能复现前期测试的成功。文章还指出一个有趣现象：中国模型在攻击数据库时普遍比西方模型更少顾虑。作者认为，尽管 AI 距离自动化渗透测试专家还有差距，但已展现出接近初级安全研究员的能力，未来 Agent 与长上下文推理的成熟可能使自动化漏洞挖掘成为 AI 的重要应用场景。

💡 主要观点

- GPT-5.5 以 70% 成功率领先，关键在于能快速定位 Firebase 漏洞。 实验中的漏洞不在客户端或 API，而在 Firebase 服务。GPT-5.5 能迅速解包 APK 并聚焦 Firebase 展开攻击，而多数失败模型将时间浪费在 API 分析上。

DeepSeek V4 Pro 成本优势显著，但稳定性不足。 DeepSeek 以 30% 成功率排名第二，平均每次测试仅需 0.19 美元，远低于 GPT-5.5 的 6.62 美元。但其存在路径依赖问题，10 次测试中有 5 次完全未关注 Firebase。

安全策略是部分模型表现不佳的主因。 Gemini 系列几乎完全拒绝执行任务，Claude 系列多次在接近成功时因触发安全护栏而中断，这反映出安全对齐策略对模型自主攻击能力的显著限制。

中国模型在攻击数据库时更少顾虑。 实验观察到，面对可能影响真实数据库的攻击路径时，中国模型普遍比西方模型更积极地继续探索，体现了不同训练和安全对齐策略的差异。

💬 文章金句

- GPT-5.5 最大的优势在于能够迅速识别这一点。

今天的大模型已经不仅仅会写代码、补 Bug、生成文档，它们开始具备主动分析系统结构、识别攻击面以及寻找潜在 Bug 的能力。

📊 文章信息

AI 初评：82

来源：CSDN

作者：CSDN

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2539

标签： LLM, AI 安全, AI Agent, 渗透测试, 模型评测与基准

阅读完整文章

花 1500 美元，让 AI“黑”自己的 App：GPT-5.5 成功率 70%，部分模型 0 分交卷

🤖 問 AI