OpenAI 通过为 Responses API 引入 WebSocket 模式,将 Agent 工作流端到端提速 40%,使 Codex-Spark 稳定达到 1000 TPS,峰值 4000 TPS。
📝 详细摘要
这篇推文深入解读了 OpenAI 最新工程博客的核心内容。随着模型推理速度大幅提升(GPT-5/5.2 约 65 TPS,Codex-Spark 目标 1000+ TPS),API 框架本身成为了 Agent 工作流的新瓶颈。OpenAI 的解决方案是为 Responses API 增加 WebSocket 模式,通过保持长连接、缓存可复用状态(如已渲染 token、历史 items、工具定义等)、只传输增量数据,避免了每次工具调用都重复进行完整的请求处理。具体优化包括:安全分类器和请求校验只处理新增输入、已渲染 token 增量追加、模型路由结果跨请求复用、非阻塞后处理与下一个请求重叠执行。最终效果显著:Codex-Spark 稳定 1000 TPS(峰值 4000 TPS),Vercel AI SDK 集成后延迟下降最多 40%,Cline 多文件工作流提速 39%,Cursor 上的 OpenAI 模型快了最多 30%。
📊 文章信息
AI 初评:87
来源:meng shao(@shao__meng)
作者:meng shao
分类:人工智能
语言:中文
阅读时间:8 分钟
字数:1803
标签: OpenAI, Responses API, WebSocket, Agent, Codex