← 回總覽

上海 AI Lab 最新开源 AgentDoG 1.5:面向完整执行轨迹的轻量可扩展 Agent 安全框架

📅 2026-06-07 00:00 青稞AI 人工智能 2 分鐘 1449 字 評分: 86
AI Agent AI 安全 LLM 模型训练与推理 开源项目
📌 一句话摘要 上海 AI Lab 开源 AgentDoG 1.5,将 Agent 安全判断从单次回复推进到完整执行轨迹,提供评测、数据生成与轻量部署的一体化框架。 📝 详细摘要 文章介绍上海 AI Lab 最新开源的 AgentDoG 1.5 框架,核心思路是将 Agent 安全判断对象从单次回复扩展到完整执行轨迹。框架包含三个核心组件:ATBench Family 提供统一的轨迹级评测接口,覆盖 OpenClaw 和 Codex 等新型 Agent 环境;ATBench DataEngine 基于三维安全分类法(风险来源、失效模式、真实世界危害)构造高质量训练数据,并通过自动验证和 C

📌 一句话摘要

上海 AI Lab 开源 AgentDoG 1.5,将 Agent 安全判断从单次回复推进到完整执行轨迹,提供评测、数据生成与轻量部署的一体化框架。

📝 详细摘要

文章介绍上海 AI Lab 最新开源的 AgentDoG 1.5 框架,核心思路是将 Agent 安全判断对象从单次回复扩展到完整执行轨迹。框架包含三个核心组件:ATBench Family 提供统一的轨迹级评测接口,覆盖 OpenClaw 和 Codex 等新型 Agent 环境;ATBench DataEngine 基于三维安全分类法(风险来源、失效模式、真实世界危害)构造高质量训练数据,并通过自动验证和 CoT 增强提升数据质量;轻量诊断模型(4B 参数)在多个基准上达到 90%+ 的准确率与 F1 值。文章还展示了两个应用场景:将轨迹级安全信号用于 Agent 安全 SFT 与 RL 训练,以及将同一套诊断接口部署为线上 pre-reply 安全护栏。实验数据显示,SFT+RL 联合训练可将 AgentHarm Harm Score 降至 18.04%,线上护栏能显著降低最终交付层面的残余不安全率。

💡 主要观点

- Agent 安全判断必须从单次回复升级到完整执行轨迹。 Agent 在工具调用、环境反馈、多轮交互中的中间行为可能已造成安全后果,只看最终回复会遗漏大量风险。

AgentDoG 1.5 构建了评测、数据生成与部署的闭环框架。 ATBench Family 定义统一评测接口,DataEngine 将三维安全分类法转化为可控数据管线,轻量模型同时支持训练期对齐与部署期监控。
轻量模型(4B)在轨迹级安全诊断上达到 90%+ 准确率。 通过显式 taxonomy 监督、轨迹级证据和 CoT 推理,4B 模型在 R-Judge 和 ATBench 上均达到 92%+ 的 Accuracy 和 F1,具备实用部署价值。
轨迹级安全信号可同时用于 SFT/RL 训练与线上护栏。 在训练阶段作为 reward signal 优化安全行为,在部署阶段作为 pre-reply 审查点拦截不安全回复,共享同一套诊断接口。

💬 文章金句

- 当 Agent 的风险发生在完整执行轨迹中,安全系统就不能只审查最后一句话。

  • AgentDoG 1.5 的价值正在这里:它把轨迹级风险诊断做成一个可扩展、可训练、可部署的框架,让 Agent 安全更接近真实系统的运行方式。

📊 文章信息

AI 初评:86

来源:青稞AI

作者:青稞AI

分类:人工智能

语言:中文

阅读时间:20 分钟

字数:4959

标签: AI Agent, AI 安全, LLM, 模型训练与推理, 开源项目

阅读完整文章

查看原文 → 發佈: 2026-06-07 00:00:00 收錄: 2026-06-07 14:00:02

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。