← 回總覽

从 3632 个漏洞看 AI 时代的评测基准重构!VulnGym 基准发布

📅 2026-05-26 17:32 腾讯技术工程 人工智能 2 分鐘 1555 字 評分: 91
VulnGym 漏洞检测 业务逻辑漏洞 AI 安全 评测基准
📌 一句话摘要 腾讯悟空安全团队联合多所高校发布 VulnGym 评测基准,基于 3632 个真实漏洞数据,聚焦 AI 时代业务逻辑漏洞占比上升趋势,提供项目级、白盒、路径级标注的漏洞检测能力评测方案。 📝 详细摘要 文章基于对 2025 年 1 月至 2026 年 4 月期间 3632 条 GitHub Advisory 高危/严重漏洞的统计分析,揭示了 AI 编码时代漏洞形态正在发生结构性变化:业务逻辑漏洞占比持续上升,在高星项目中 2026 年 4 月已达 47.2%。文章从供给侧(AI Coding 工具普及改变漏洞产生方式)和检测侧(AI 安全工具开始发现过去难以发现的业务逻辑缺

📌 一句话摘要

腾讯悟空安全团队联合多所高校发布 VulnGym 评测基准,基于 3632 个真实漏洞数据,聚焦 AI 时代业务逻辑漏洞占比上升趋势,提供项目级、白盒、路径级标注的漏洞检测能力评测方案。

📝 详细摘要

文章基于对 2025 年 1 月至 2026 年 4 月期间 3632 条 GitHub Advisory 高危/严重漏洞的统计分析,揭示了 AI 编码时代漏洞形态正在发生结构性变化:业务逻辑漏洞占比持续上升,在高星项目中 2026 年 4 月已达 47.2%。文章从供给侧(AI Coding 工具普及改变漏洞产生方式)和检测侧(AI 安全工具开始发现过去难以发现的业务逻辑缺陷)两个角度分析了这一趋势的成因。基于此,腾讯悟空安全团队联合香港中文大学、复旦大学、香港大学、北京大学、中科院信工所等机构发布了 VulnGym 评测基准。该基准以 GitHub 高星项目中的真实漏洞为数据源,覆盖 400+ 漏洞路径,其中 71.2% 为业务逻辑漏洞,采用 entry_point、critical_operation、trace 三要素路径级标注,支持可复现、可解释的确定性评测,可用于比较底层模型、Harness 工程和 Agent 工具整体的漏洞检测能力。

💡 主要观点

- AI 编码时代漏洞形态正从传统编码错误向业务逻辑缺陷迁移。 基于 3632 条漏洞报告的统计分析显示,高星项目中业务逻辑漏洞占比从 2025 年前三季度的 21.4% 上升至 2026 年 4 月的 47.2%,与 AI Coding 工具的普及时间线高度吻合。

现有漏洞检测评测基准存在系统性失配,无法有效评估业务逻辑漏洞检测能力。 主流基准在评测粒度(函数级而非项目级)、漏洞类型(偏重传统 CWE 而非业务逻辑)、测评形态(黑盒而非白盒)三个维度上均偏离了项目级业务逻辑漏洞评测需求。
VulnGym 采用三要素路径级标注,可区分工具蒙对位置与真正理解漏洞。 每个样本标注 entry_point、critical_operation 和 trace 三处位置,支持入口、链路、缺陷触发点逐项对齐,是目前同类基准中最细的标注粒度。

💬 文章金句

- AI 编码时代的高危漏洞画像,正在从「传统编码错误」迁移到「形式正确、业务逻辑缺陷」。

  • LLM 擅长补齐「看起来合理」的代码,但不具备对项目特有业务规则的长期持有。
  • 让评测可以精确区分「工具蒙对了一个位置」和「工具完整理解了漏洞」——这是 VulnGym 在标注层面的更细粒度的要求。
  • 过去十年里,这把标尺被反复打磨……每一次刻度的细化,都对应了那一代代码缺陷的真实形态。
  • 当 AI 开始深度参与代码生成,漏洞的类型是否也在发生变化?

📊 文章信息

AI 初评:91

来源:腾讯技术工程

作者:腾讯技术工程

分类:人工智能

语言:中文

阅读时间:23 分钟

字数:5743

标签: VulnGym, 漏洞检测, 业务逻辑漏洞, AI 安全, 评测基准

阅读完整文章

查看原文 → 發佈: 2026-05-26 17:32:00 收錄: 2026-05-27 00:00:36

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。