Agent 该怎么做真正的安全评测？

📌 一句话摘要

本文介绍了上海人工智能实验室提出的 ATBench 系列基准，将 Agent 安全评测从单轮问答推进到多步执行轨迹和具体运行时环境（OpenClaw/CodeX），强调可诊断性。

📝 详细摘要

本文详细解读了上海人工智能实验室在 Agent 安全评测领域的最新研究成果，核心是 ATBench 系列基准。文章指出，随着 Agent 具备自主调用工具和多步执行能力，传统的基于单轮问答的安全评测已不足以覆盖真实风险。ATBench 将评测维度提升到完整的任务执行轨迹，通过分析风险来源、失败模式和现实危害三个维度，对 Agent 的安全行为进行细粒度诊断。文章进一步介绍了 ATBench-Claw 和 ATBench-CodeX 两个扩展基准，分别针对 OpenClaw 式多工具执行环境和 CodeX 式代码执行环境，展示了评测框架随具体执行环境升级的必要性。实验结果表明，当前模型在轨迹级安全判断上仍有显著提升空间，尤其是细粒度诊断能力。文章最后强调，未来的 Agent 安全评测将从「文本越狱拦截」走向「系统执行层评测」，核心问题是 Agent 能否在真实系统边界内可控地完成任务。

💡 主要观点

- Agent 安全评测需要从单轮问答升级到完整执行轨迹。 对于具备工具调用和多步执行能力的 Agent，风险可能隐藏在中间步骤的工具调用、环境反馈或 Agent 推理中，只看最终回答无法全面评估安全风险。

ATBench 通过三维度分类体系实现可诊断的安全评测。 ATBench 将风险组织为风险来源、失败模式和现实危害三个维度，不仅能判断轨迹是否安全，还能定位风险源头和失败环节，为系统改进提供具体指导。

评测框架必须随 Agent 执行环境升级，ATBench-Claw 和 ATBench-CodeX 展示了这一方向。 不同 Agent 环境（如 OpenClaw 的多工具会话、CodeX 的代码仓库操作）有各自独特的安全风险，评测基准需要针对具体执行层进行定制化设计。

💬 文章金句

- 未来的 Agent benchmark 比拼的不只是模型会不会答题，而是它能不能在真实系统边界里可控地完成任务。

ATBench 把 Agent 安全评测从'看一句回答'推进到'看整条执行轨迹'。
对真实系统来说，能解释'为什么错'，很多时候比单纯判断'错没错'更有价值。
Agent 安全评测正在从'文本越狱拦截'走向'系统执行层评测'。

📊 文章信息

AI 初评：86

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3305

标签： Agent 安全, ATBench, 轨迹评测, OpenClaw, CodeX

阅读完整文章

Agent 该怎么做真正的安全评测？

🤖 問 AI