从 3632 个漏洞看 AI 时代的评测基准重构！VulnGym 基准发布

📌 一句话摘要

腾讯悟空安全团队联合多所高校发布 VulnGym 评测基准，基于 3632 个真实漏洞数据，聚焦 AI 时代业务逻辑漏洞占比上升趋势，提供项目级、白盒、路径级标注的漏洞检测能力评测方案。

📝 详细摘要

文章基于对 2025 年 1 月至 2026 年 4 月期间 3632 条 GitHub Advisory 高危/严重漏洞的统计分析，揭示了 AI 编码时代漏洞形态正在发生结构性变化：业务逻辑漏洞占比持续上升，在高星项目中 2026 年 4 月已达 47.2%。文章从供给侧（AI Coding 工具普及改变漏洞产生方式）和检测侧（AI 安全工具开始发现过去难以发现的业务逻辑缺陷）两个角度分析了这一趋势的成因。基于此，腾讯悟空安全团队联合香港中文大学、复旦大学、香港大学、北京大学、中科院信工所等机构发布了 VulnGym 评测基准。该基准以 GitHub 高星项目中的真实漏洞为数据源，覆盖 400+ 漏洞路径，其中 71.2% 为业务逻辑漏洞，采用 entry_point、critical_operation、trace 三要素路径级标注，支持可复现、可解释的确定性评测，可用于比较底层模型、Harness 工程和 Agent 工具整体的漏洞检测能力。

💡 主要观点

- AI 编码时代漏洞形态正从传统编码错误向业务逻辑缺陷迁移。 基于 3632 条漏洞报告的统计分析显示，高星项目中业务逻辑漏洞占比从 2025 年前三季度的 21.4% 上升至 2026 年 4 月的 47.2%，与 AI Coding 工具的普及时间线高度吻合。

现有漏洞检测评测基准存在系统性失配，无法有效评估业务逻辑漏洞检测能力。 主流基准在评测粒度（函数级而非项目级）、漏洞类型（偏重传统 CWE 而非业务逻辑）、测评形态（黑盒而非白盒）三个维度上均偏离了项目级业务逻辑漏洞评测需求。

VulnGym 采用三要素路径级标注，可区分工具蒙对位置与真正理解漏洞。 每个样本标注 entry_point、critical_operation 和 trace 三处位置，支持入口、链路、缺陷触发点逐项对齐，是目前同类基准中最细的标注粒度。

💬 文章金句

- AI 编码时代的高危漏洞画像，正在从「传统编码错误」迁移到「形式正确、业务逻辑缺陷」。

LLM 擅长补齐「看起来合理」的代码，但不具备对项目特有业务规则的长期持有。
让评测可以精确区分「工具蒙对了一个位置」和「工具完整理解了漏洞」——这是 VulnGym 在标注层面的更细粒度的要求。
过去十年里，这把标尺被反复打磨……每一次刻度的细化，都对应了那一代代码缺陷的真实形态。
当 AI 开始深度参与代码生成，漏洞的类型是否也在发生变化？

📊 文章信息

AI 初评：91

来源：腾讯技术工程

作者：腾讯技术工程

分类：人工智能

语言：中文

阅读时间：23 分钟

字数：5743

标签： VulnGym, 漏洞检测, 业务逻辑漏洞, AI 安全, 评测基准

阅读完整文章

从 3632 个漏洞看 AI 时代的评测基准重构！VulnGym 基准发布

🤖 問 AI