Agentic AI 安全模式：AI 网关、OAuth2 令牌交换与 MCP 防护

📌 一句话摘要

本文系统梳理了 Agentic AI 系统的三种核心安全模式：AI 网关认证、OAuth2 令牌交换与 MCP 防护，以及分层防护栏架构。

📝 详细摘要

文章从 Agentic AI 的自主性与推理能力带来的安全挑战出发，首先介绍了包含推理层、Agent 市场、编排模块、MCP 集成等组件的参考架构。随后详细阐述了三种安全模式：一是通过 AI 网关结合 OAuth 2.0 授权码 + PKCE 与 On-Behalf-Of 交换，保护用户/应用到 Agent 的交互；二是通过 OAuth 2.0 令牌交换机制，解决 Agent 到 MCP 工具调用时的 token 传播与权限收缩问题，并区分了用户上下文场景与 M2M 批处理场景；三是基于 OWASP 与 IBM 风险清单，将 16 类风险映射到推理层、工具集成层、内存层、编排层和用户接口层，强调防护栏必须分层部署。文章最后总结了零信任、最小权限与每次跨域令牌交换的核心原则。

💡 主要观点

- Agentic AI 的安全核心在于每次跨域交互都进行令牌交换。 从用户到 AI 网关、从 Agent 到 MCP 工具，每一步跨越安全域时都要通过 OAuth 2.0 令牌交换或 OBO 流程重新签发缩小作用域的 token，以防止 token 越权传播并保证审计链路完整。

AI 网关是用户/应用到 Agent 的第一道安全防线。 通过授权码 + PKCE 认证用户，AI 网关执行 On-Behalf-Of 交换获取下游 token，并执行 JWT 验证、角色/作用域检查等策略，确保只有经过认证和授权的请求才能到达 Agent。

Agent 到 MCP 工具调用必须使用令牌交换，而非直接传播 token。 直接传播 token 会导致下游工具无法溯源且权限不匹配。令牌交换流程由认证服务器签发一个缩小作用域、明确指向目标 MCP 服务器的新 token，同时保留原始用户身份上下文。

防护栏必须分层部署，而非集中在一个中央治理层。 作者将 16 类风险映射到推理层、工具集成层、内存层、编排层和用户接口层，强调不同风险需要在对应的架构层进行管控，例如对齐失败在推理层处理，工具误用在集成层处理。

💬 文章金句

- 零信任 + 最小权限 + 每次跨域做令牌交换。

防护栏不能只丢给一个中央治理层。不同的风险需要在其对应的架构层进行管控。
token 不可传播。agent 收到的 token 只针对该 agent 本身，不能被用来调用其他 agent 或 MCP 服务器。

📊 文章信息

AI 初评：87

来源：王俊博客

作者：王俊博客

分类：人工智能

语言：中文

阅读时间：9 分钟

字数：2228

标签： AI Agent, AI 安全, MCP 协议, OAuth 2.0, AI 网关

阅读完整文章

Agentic AI 安全模式：AI 网关、OAuth2 令牌交换与 MCP 防护

🤖 問 AI