Cloudflare 与苏黎世联邦理工学院提出 AI 感知缓存策略,以应对高频、独特的 AI 爬虫流量带来的运营挑战和缓存抖动问题。
📝 详细摘要
Cloudflare 工程师与苏黎世联邦理工学院的研究人员发现,AI 驱动的爬虫流量每周已超过 100 亿次请求,这从根本上打破了传统的 CDN 和数据库缓存假设。与人类浏览不同,RAG 循环中的 AI 智能体表现出 70%-100% 的唯一访问率,导致“最近最少使用”(LRU)淘汰策略失效,并增加了源服务器的负载。为缓解这一问题,他们提出了新的架构方案,包括将人类流量与 AI 流量分离至不同的缓存层、针对机器人流量采用 LFU 或 FIFO 算法,以及实施机器学习驱动的动态策略和按爬取付费模型。
💡 主要观点
- AI 爬虫流量模式与以人为中心的缓存机制从根本上不兼容。 AI 智能体表现出极高的唯一 URL 访问率(70%-100%)且缺乏会话连续性,这导致了“缓存抖动”,并使 LRU 策略所依赖的时间局部性假设失效。
💬 文章金句
- AI 流量打破了为人类构建的假设。
- RAG 循环中 70%-100% 的唯一访问率解释了我在最近微调过程中经历的缓存抖动。
- AI 流量正在系统性地消除优化条件。那些依然有效的条件,本身就不依赖于这些优化。
- Cloudflare 的建模显示,AI 智能体的迭代循环会产生持续的高水平唯一内容访问,从而挤占了边缘缓存中人类频繁请求的内容。
📊 文章信息
AI 评分:88
来源:InfoQ
作者:Leela Kumili
分类:软件编程
语言:英文
阅读时间:3 分钟
字数:510
标签: CDN, 缓存策略, AI 爬虫, RAG, Cloudflare