← 回總覽

Agent 该怎么做真正的安全评测?

📅 2026-05-28 19:14 AI科技评论 人工智能 2 分鐘 1445 字 評分: 86
Agent 安全 ATBench 轨迹评测 OpenClaw CodeX
📌 一句话摘要 本文介绍了上海人工智能实验室提出的 ATBench 系列基准,将 Agent 安全评测从单轮问答推进到多步执行轨迹和具体运行时环境(OpenClaw/CodeX),强调可诊断性。 📝 详细摘要 本文详细解读了上海人工智能实验室在 Agent 安全评测领域的最新研究成果,核心是 ATBench 系列基准。文章指出,随着 Agent 具备自主调用工具和多步执行能力,传统的基于单轮问答的安全评测已不足以覆盖真实风险。ATBench 将评测维度提升到完整的任务执行轨迹,通过分析风险来源、失败模式和现实危害三个维度,对 Agent 的安全行为进行细粒度诊断。文章进一步介绍了 ATBe

📌 一句话摘要

本文介绍了上海人工智能实验室提出的 ATBench 系列基准,将 Agent 安全评测从单轮问答推进到多步执行轨迹和具体运行时环境(OpenClaw/CodeX),强调可诊断性。

📝 详细摘要

本文详细解读了上海人工智能实验室在 Agent 安全评测领域的最新研究成果,核心是 ATBench 系列基准。文章指出,随着 Agent 具备自主调用工具和多步执行能力,传统的基于单轮问答的安全评测已不足以覆盖真实风险。ATBench 将评测维度提升到完整的任务执行轨迹,通过分析风险来源、失败模式和现实危害三个维度,对 Agent 的安全行为进行细粒度诊断。文章进一步介绍了 ATBench-Claw 和 ATBench-CodeX 两个扩展基准,分别针对 OpenClaw 式多工具执行环境和 CodeX 式代码执行环境,展示了评测框架随具体执行环境升级的必要性。实验结果表明,当前模型在轨迹级安全判断上仍有显著提升空间,尤其是细粒度诊断能力。文章最后强调,未来的 Agent 安全评测将从「文本越狱拦截」走向「系统执行层评测」,核心问题是 Agent 能否在真实系统边界内可控地完成任务。

💡 主要观点

- Agent 安全评测需要从单轮问答升级到完整执行轨迹。 对于具备工具调用和多步执行能力的 Agent,风险可能隐藏在中间步骤的工具调用、环境反馈或 Agent 推理中,只看最终回答无法全面评估安全风险。

ATBench 通过三维度分类体系实现可诊断的安全评测。 ATBench 将风险组织为风险来源、失败模式和现实危害三个维度,不仅能判断轨迹是否安全,还能定位风险源头和失败环节,为系统改进提供具体指导。
评测框架必须随 Agent 执行环境升级,ATBench-Claw 和 ATBench-CodeX 展示了这一方向。 不同 Agent 环境(如 OpenClaw 的多工具会话、CodeX 的代码仓库操作)有各自独特的安全风险,评测基准需要针对具体执行层进行定制化设计。

💬 文章金句

- 未来的 Agent benchmark 比拼的不只是模型会不会答题,而是它能不能在真实系统边界里可控地完成任务。

  • ATBench 把 Agent 安全评测从'看一句回答'推进到'看整条执行轨迹'。
  • 对真实系统来说,能解释'为什么错',很多时候比单纯判断'错没错'更有价值。
  • Agent 安全评测正在从'文本越狱拦截'走向'系统执行层评测'。

📊 文章信息

AI 初评:86

来源:AI科技评论

作者:AI科技评论

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3305

标签: Agent 安全, ATBench, 轨迹评测, OpenClaw, CodeX

阅读完整文章

查看原文 → 發佈: 2026-05-28 19:14:00 收錄: 2026-05-29 08:00:12

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。