#BestBlogs 赋能智能体:Workers AI 现已支持运行大模型,首发 Kimi K2.5 | The Cloudflare Blog Cloudflare Workers AI 通过集成 Moonshot AI 的 Kimi K2.5,扩展至前沿大模型领域,为构建复杂的 AI 智能体提供了一个高性价比、高性能的无服务器平台,并支持前缀缓存(Prefix Caching)和重构后的异步 API 等高级功能。
摘要:
Cloudflare 宣布对其 Workers AI 平台进行重大升级,从托管小型模型转型为支持前沿级大语言模型,首个支持的模型是 Moonshot AI 的 Kimi K2.5。此举旨在为 AI 智能体提供统一的基础设施,将现有的 Durable Objects(用于状态管理)和 Workflows(用于任务编排)等原语与强大的推理能力相结合。
Kimi K2.5 具备 256k 上下文窗口、视觉支持和工具调用能力,Cloudflare 利用其专有的 Infire 推理引擎和自定义内核对其进行了优化。一个主要亮点是经济优势:Cloudflare 报告称,在其内部安全审查智能体中,与专有模型相比,成本降低了 77%。为了支持这些大模型,该平台引入了多项技术增强功能,包括用于降低延迟和成本的前缀缓存(Prefix Caching)、用于提高缓存命中率的新会话亲和性标头(Session Affinity Header),以及用于持久化、高吞吐量批处理的重构异步 API。这些更新使 Cloudflare 成为涵盖从执行、状态管理到高性能推理的整个智能体生命周期的综合环境。
主要内容:
- 将前沿级模型集成到统一的智能体基础设施中。 -- Cloudflare 现已支持 Kimi K2.5,使开发者能够在单一的无服务器平台上运行整个智能体生命周期(包括状态持久化和长时间运行的任务),而无需依赖外部专有模型提供商。
- 企业级 AI 的显著成本效益和性能提升。 -- 通过在 Workers AI 上切换至 Kimi K2.5,Cloudflare 将高吞吐量智能体的内部成本降低了 77%,这证明了开源前沿模型可以在大规模 Token 处理任务中替代昂贵的专有模型。
- 诸如前缀缓存和会话亲和性标头等技术优化。 -- 该平台利用前缀缓存来重用之前轮次的输入张量,显著改善了首字延迟(TTFT)和吞吐量,同时新的亲和性标头确保请求路由到同一个模型实例。
- 用于可靠、高吞吐量推理的重构异步 API。 -- 新的基于拉取(Pull-based)的异步系统允许持久化执行批处理任务,通过在 GPU 利用率较低时处理请求,避免了无服务器环境中常见的容量不足错误。