OpenAI Responses API 提速 40%：WebSocket 模式解决 Agent 时代 API 瓶颈

📌 一句话摘要

OpenAI 通过为 Responses API 引入 WebSocket 模式，将 Agent 工作流端到端提速 40%，使 Codex-Spark 稳定达到 1000 TPS，峰值 4000 TPS。

📝 详细摘要

这篇推文深入解读了 OpenAI 最新工程博客的核心内容。随着模型推理速度大幅提升（GPT-5/5.2 约 65 TPS，Codex-Spark 目标 1000+ TPS），API 框架本身成为了 Agent 工作流的新瓶颈。OpenAI 的解决方案是为 Responses API 增加 WebSocket 模式，通过保持长连接、缓存可复用状态（如已渲染 token、历史 items、工具定义等）、只传输增量数据，避免了每次工具调用都重复进行完整的请求处理。具体优化包括：安全分类器和请求校验只处理新增输入、已渲染 token 增量追加、模型路由结果跨请求复用、非阻塞后处理与下一个请求重叠执行。最终效果显著：Codex-Spark 稳定 1000 TPS（峰值 4000 TPS），Vercel AI SDK 集成后延迟下降最多 40%，Cline 多文件工作流提速 39%，Cursor 上的 OpenAI 模型快了最多 30%。

📊 文章信息

AI 初评：87

来源：meng shao(@shao__meng)

作者：meng shao

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1803

标签： OpenAI, Responses API, WebSocket, Agent, Codex

阅读推文

OpenAI Responses API 提速 40%：WebSocket 模式解决 Agent 时代 API 瓶颈

🤖 問 AI