AI 智能体的状态化延续：为什么传输层现在至关重要

📌 一句话摘要

本文分析了 AI 智能体工作流从无状态 HTTP 向有状态 WebSocket 连接的转变，并展示了通过服务端上下文缓存带来的显著性能提升。

📝 详细摘要

本文探讨了 AI 智能体面临的“飞机问题”——即在无状态 HTTP 下，上下文负载的线性增长会导致带宽受限环境中的超时和延迟。通过对 OpenAI 新推出的 Responses API WebSocket 模式进行基准测试，作者证明了状态化延续（在服务端缓存对话历史）可将客户端发送的数据量减少 80% 以上，并将端到端执行时间缩短高达 29%。尽管这种向有状态协议的转变在多轮智能体循环中提供了巨大的架构优势，但也带来了关于供应商锁定、可观测性以及对持久连接管理需求等方面的挑战。

💡 主要观点

- 无状态 HTTP API 在多轮智能体工作流中会产生“负载膨胀”问题。 在涉及 10-50 轮交互的智能体循环中，每次都重新发送整个对话历史会导致带宽线性增长，从而在受限网络中造成瓶颈。

有状态 WebSocket 连接可实现 80% 以上的入站流量减少。 通过使用响应 ID 引用服务端缓存的状态，客户端只需发送增量工具输出，而无需发送完整上下文，从而稳定了负载大小。

性能增益随智能体任务的复杂程度而扩展。 基准测试显示，虽然简单任务的收益微乎其微，但复杂的跨文件编码工作流由于减少了分词和传输开销，速度提升了 39-50%。

向有状态协议的转变在性能和可移植性之间产生了权衡。 目前，高级状态化延续主要还是 OpenAI 的特定优势，这增加了多供应商策略的复杂性，并需要更稳健的连接处理逻辑。

💬 文章金句

- 智能体工作流使传输层成为首要关注点。多轮、重工具调用的循环放大了在单轮 LLM 使用中可以忽略不计的开销。

速度源于服务端状态管理：WebSocket 服务器将最近的响应存储在连接本地的易失性内存中，从而实现了近乎即时的延续。
WebSocket 始终能将客户端发送的数据量减少 80-86%。这是最可靠的发现，与模型、API 差异或任务复杂性无关。
对于构建智能体系统的架构师来说，关键在于认识到：随着 AI 工作流从单轮转向多轮，那些对于聊天机器人无关紧要的传输层决策，对智能体而言变得至关重要。

📊 文章信息

AI 评分：92

来源：InfoQ

作者：Anirudh Mendiratta

分类：人工智能

语言：英文

阅读时间：12 分钟

字数：2876

标签： AI 智能体, WebSocket, LLM 基础设施, 网络协议, OpenAI Responses API

阅读完整文章

AI 智能体的状态化延续：为什么传输层现在至关重要

🤖 問 AI