腾讯悟空安全团队联合多所高校发布 VulnGym 评测基准,基于 3632 个真实漏洞数据,聚焦 AI 时代业务逻辑漏洞占比上升趋势,提供项目级、白盒、路径级标注的漏洞检测能力评测方案。
📝 详细摘要
文章基于对 2025 年 1 月至 2026 年 4 月期间 3632 条 GitHub Advisory 高危/严重漏洞的统计分析,揭示了 AI 编码时代漏洞形态正在发生结构性变化:业务逻辑漏洞占比持续上升,在高星项目中 2026 年 4 月已达 47.2%。文章从供给侧(AI Coding 工具普及改变漏洞产生方式)和检测侧(AI 安全工具开始发现过去难以发现的业务逻辑缺陷)两个角度分析了这一趋势的成因。基于此,腾讯悟空安全团队联合香港中文大学、复旦大学、香港大学、北京大学、中科院信工所等机构发布了 VulnGym 评测基准。该基准以 GitHub 高星项目中的真实漏洞为数据源,覆盖 400+ 漏洞路径,其中 71.2% 为业务逻辑漏洞,采用 entry_point、critical_operation、trace 三要素路径级标注,支持可复现、可解释的确定性评测,可用于比较底层模型、Harness 工程和 Agent 工具整体的漏洞检测能力。
💡 主要观点
- AI 编码时代漏洞形态正从传统编码错误向业务逻辑缺陷迁移。 基于 3632 条漏洞报告的统计分析显示,高星项目中业务逻辑漏洞占比从 2025 年前三季度的 21.4% 上升至 2026 年 4 月的 47.2%,与 AI Coding 工具的普及时间线高度吻合。
💬 文章金句
- AI 编码时代的高危漏洞画像,正在从「传统编码错误」迁移到「形式正确、业务逻辑缺陷」。
- LLM 擅长补齐「看起来合理」的代码,但不具备对项目特有业务规则的长期持有。
- 让评测可以精确区分「工具蒙对了一个位置」和「工具完整理解了漏洞」——这是 VulnGym 在标注层面的更细粒度的要求。
- 过去十年里,这把标尺被反复打磨……每一次刻度的细化,都对应了那一代代码缺陷的真实形态。
- 当 AI 开始深度参与代码生成,漏洞的类型是否也在发生变化?
📊 文章信息
AI 初评:91
来源:腾讯技术工程
作者:腾讯技术工程
分类:人工智能
语言:中文
阅读时间:23 分钟
字数:5743
标签: VulnGym, 漏洞检测, 业务逻辑漏洞, AI 安全, 评测基准