上海 AI Lab 开源 AgentDoG 1.5,将 Agent 安全判断从单次回复推进到完整执行轨迹,提供评测、数据生成与轻量部署的一体化框架。
📝 详细摘要
文章介绍上海 AI Lab 最新开源的 AgentDoG 1.5 框架,核心思路是将 Agent 安全判断对象从单次回复扩展到完整执行轨迹。框架包含三个核心组件:ATBench Family 提供统一的轨迹级评测接口,覆盖 OpenClaw 和 Codex 等新型 Agent 环境;ATBench DataEngine 基于三维安全分类法(风险来源、失效模式、真实世界危害)构造高质量训练数据,并通过自动验证和 CoT 增强提升数据质量;轻量诊断模型(4B 参数)在多个基准上达到 90%+ 的准确率与 F1 值。文章还展示了两个应用场景:将轨迹级安全信号用于 Agent 安全 SFT 与 RL 训练,以及将同一套诊断接口部署为线上 pre-reply 安全护栏。实验数据显示,SFT+RL 联合训练可将 AgentHarm Harm Score 降至 18.04%,线上护栏能显著降低最终交付层面的残余不安全率。
💡 主要观点
- Agent 安全判断必须从单次回复升级到完整执行轨迹。 Agent 在工具调用、环境反馈、多轮交互中的中间行为可能已造成安全后果,只看最终回复会遗漏大量风险。
💬 文章金句
- 当 Agent 的风险发生在完整执行轨迹中,安全系统就不能只审查最后一句话。
- AgentDoG 1.5 的价值正在这里:它把轨迹级风险诊断做成一个可扩展、可训练、可部署的框架,让 Agent 安全更接近真实系统的运行方式。
📊 文章信息
AI 初评:86
来源:青稞AI
作者:青稞AI
分类:人工智能
语言:中文
阅读时间:20 分钟
字数:4959
标签: AI Agent, AI 安全, LLM, 模型训练与推理, 开源项目