上海 AI Lab 最新开源 AgentDoG 1.5：面向完整执行轨迹的轻量可扩展 Agent 安全框架

📌 一句话摘要

上海 AI Lab 开源 AgentDoG 1.5，将 Agent 安全判断从单次回复推进到完整执行轨迹，提供评测、数据生成与轻量部署的一体化框架。

📝 详细摘要

文章介绍上海 AI Lab 最新开源的 AgentDoG 1.5 框架，核心思路是将 Agent 安全判断对象从单次回复扩展到完整执行轨迹。框架包含三个核心组件：ATBench Family 提供统一的轨迹级评测接口，覆盖 OpenClaw 和 Codex 等新型 Agent 环境；ATBench DataEngine 基于三维安全分类法（风险来源、失效模式、真实世界危害）构造高质量训练数据，并通过自动验证和 CoT 增强提升数据质量；轻量诊断模型（4B 参数）在多个基准上达到 90%+ 的准确率与 F1 值。文章还展示了两个应用场景：将轨迹级安全信号用于 Agent 安全 SFT 与 RL 训练，以及将同一套诊断接口部署为线上 pre-reply 安全护栏。实验数据显示，SFT+RL 联合训练可将 AgentHarm Harm Score 降至 18.04%，线上护栏能显著降低最终交付层面的残余不安全率。

💡 主要观点

- Agent 安全判断必须从单次回复升级到完整执行轨迹。 Agent 在工具调用、环境反馈、多轮交互中的中间行为可能已造成安全后果，只看最终回复会遗漏大量风险。

AgentDoG 1.5 构建了评测、数据生成与部署的闭环框架。 ATBench Family 定义统一评测接口，DataEngine 将三维安全分类法转化为可控数据管线，轻量模型同时支持训练期对齐与部署期监控。

轻量模型（4B）在轨迹级安全诊断上达到 90%+ 准确率。 通过显式 taxonomy 监督、轨迹级证据和 CoT 推理，4B 模型在 R-Judge 和 ATBench 上均达到 92%+ 的 Accuracy 和 F1，具备实用部署价值。

轨迹级安全信号可同时用于 SFT/RL 训练与线上护栏。 在训练阶段作为 reward signal 优化安全行为，在部署阶段作为 pre-reply 审查点拦截不安全回复，共享同一套诊断接口。

💬 文章金句

- 当 Agent 的风险发生在完整执行轨迹中，安全系统就不能只审查最后一句话。

AgentDoG 1.5 的价值正在这里：它把轨迹级风险诊断做成一个可扩展、可训练、可部署的框架，让 Agent 安全更接近真实系统的运行方式。

📊 文章信息

AI 初评：86

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4959

标签： AI Agent, AI 安全, LLM, 模型训练与推理, 开源项目

阅读完整文章

上海 AI Lab 最新开源 AgentDoG 1.5：面向完整执行轨迹的轻量可扩展 Agent 安全框架

🤖 問 AI