Cloudflare Workers AI 深度解析：集成 Kimi K2.5 与基础设施优化

#BestBlogs 赋能智能体：Workers AI 现已支持运行大模型，首发 Kimi K2.5 | The Cloudflare Blog Cloudflare Workers AI 通过集成 Moonshot AI 的 Kimi K2.5，扩展至前沿大模型领域，为构建复杂的 AI 智能体提供了一个高性价比、高性能的无服务器平台，并支持前缀缓存（Prefix Caching）和重构后的异步 API 等高级功能。

摘要：

Cloudflare 宣布对其 Workers AI 平台进行重大升级，从托管小型模型转型为支持前沿级大语言模型，首个支持的模型是 Moonshot AI 的 Kimi K2.5。此举旨在为 AI 智能体提供统一的基础设施，将现有的 Durable Objects（用于状态管理）和 Workflows（用于任务编排）等原语与强大的推理能力相结合。

Kimi K2.5 具备 256k 上下文窗口、视觉支持和工具调用能力，Cloudflare 利用其专有的 Infire 推理引擎和自定义内核对其进行了优化。一个主要亮点是经济优势：Cloudflare 报告称，在其内部安全审查智能体中，与专有模型相比，成本降低了 77%。为了支持这些大模型，该平台引入了多项技术增强功能，包括用于降低延迟和成本的前缀缓存（Prefix Caching）、用于提高缓存命中率的新会话亲和性标头（Session Affinity Header），以及用于持久化、高吞吐量批处理的重构异步 API。这些更新使 Cloudflare 成为涵盖从执行、状态管理到高性能推理的整个智能体生命周期的综合环境。

主要内容:

将前沿级模型集成到统一的智能体基础设施中。 -- Cloudflare 现已支持 Kimi K2.5，使开发者能够在单一的无服务器平台上运行整个智能体生命周期（包括状态持久化和长时间运行的任务），而无需依赖外部专有模型提供商。

企业级 AI 的显著成本效益和性能提升。 -- 通过在 Workers AI 上切换至 Kimi K2.5，Cloudflare 将高吞吐量智能体的内部成本降低了 77%，这证明了开源前沿模型可以在大规模 Token 处理任务中替代昂贵的专有模型。

诸如前缀缓存和会话亲和性标头等技术优化。 -- 该平台利用前缀缓存来重用之前轮次的输入张量，显著改善了首字延迟（TTFT）和吞吐量，同时新的亲和性标头确保请求路由到同一个模型实例。

用于可靠、高吞吐量推理的重构异步 API。 -- 新的基于拉取（Pull-based）的异步系统允许持久化执行批处理任务，通过在 GPU 利用率较低时处理请求，避免了无服务器环境中常见的容量不足错误。

文章链接：bestblogs.dev/article/cac10b…

Cloudflare Workers AI 深度解析：集成 Kimi K2.5 与基础设施优化

🤖 問 AI