← 回總覽

Cloudflare Workers AI 深度解析:集成 Kimi K2.5 与基础设施优化

📅 2026-03-20 11:30 人工智能 1 分鐘 1245 字 評分: 88
Cloudflare Workers AI Kimi K2.5 智能体 前缀缓存 无服务器架构
📌 一句话摘要 Cloudflare Workers AI 通过集成 Kimi K2.5 并引入前缀缓存和异步 API 等优化,为 AI 智能体提供高性能、高性价比的无服务器运行环境。 📝 详细摘要 该推文是对 Cloudflare 官方博客的深度解读。Cloudflare 将 Kimi K2.5 集成至 Workers AI,旨在构建完整的智能体生命周期管理平台。文章重点介绍了技术层面的优化,包括用于降低延迟的前缀缓存(Prefix Caching)、会话亲和性标头,以及重构的异步 API。此外,Cloudflare 强调了该方案在成本效益上的显著优势(内部测试成本降低 77%),为开发

#BestBlogs 赋能智能体:Workers AI 现已支持运行大模型,首发 Kimi K2.5 | The Cloudflare Blog Cloudflare Workers AI 通过集成 Moonshot AI 的 Kimi K2.5,扩展至前沿大模型领域,为构建复杂的 AI 智能体提供了一个高性价比、高性能的无服务器平台,并支持前缀缓存(Prefix Caching)和重构后的异步 API 等高级功能。

摘要:

Cloudflare 宣布对其 Workers AI 平台进行重大升级,从托管小型模型转型为支持前沿级大语言模型,首个支持的模型是 Moonshot AI 的 Kimi K2.5。此举旨在为 AI 智能体提供统一的基础设施,将现有的 Durable Objects(用于状态管理)和 Workflows(用于任务编排)等原语与强大的推理能力相结合。

Kimi K2.5 具备 256k 上下文窗口、视觉支持和工具调用能力,Cloudflare 利用其专有的 Infire 推理引擎和自定义内核对其进行了优化。一个主要亮点是经济优势:Cloudflare 报告称,在其内部安全审查智能体中,与专有模型相比,成本降低了 77%。为了支持这些大模型,该平台引入了多项技术增强功能,包括用于降低延迟和成本的前缀缓存(Prefix Caching)、用于提高缓存命中率的新会话亲和性标头(Session Affinity Header),以及用于持久化、高吞吐量批处理的重构异步 API。这些更新使 Cloudflare 成为涵盖从执行、状态管理到高性能推理的整个智能体生命周期的综合环境。

主要内容:

  • 将前沿级模型集成到统一的智能体基础设施中。 -- Cloudflare 现已支持 Kimi K2.5,使开发者能够在单一的无服务器平台上运行整个智能体生命周期(包括状态持久化和长时间运行的任务),而无需依赖外部专有模型提供商。
  • 企业级 AI 的显著成本效益和性能提升。 -- 通过在 Workers AI 上切换至 Kimi K2.5,Cloudflare 将高吞吐量智能体的内部成本降低了 77%,这证明了开源前沿模型可以在大规模 Token 处理任务中替代昂贵的专有模型。
  • 诸如前缀缓存和会话亲和性标头等技术优化。 -- 该平台利用前缀缓存来重用之前轮次的输入张量,显著改善了首字延迟(TTFT)和吞吐量,同时新的亲和性标头确保请求路由到同一个模型实例。
  • 用于可靠、高吞吐量推理的重构异步 API。 -- 新的基于拉取(Pull-based)的异步系统允许持久化执行批处理任务,通过在 GPU 利用率较低时处理请求,避免了无服务器环境中常见的容量不足错误。
文章链接:bestblogs.dev/article/cac10b…
查看原文 → 發佈: 2026-03-20 11:30:17 收錄: 2026-03-20 14:00:51

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。