Cloudflare 与苏黎世联邦理工学院概述 AI 驱动的缓存优化方案

📌 一句话摘要

Cloudflare 与苏黎世联邦理工学院提出 AI 感知缓存策略，以应对高频、独特的 AI 爬虫流量带来的运营挑战和缓存抖动问题。

📝 详细摘要

Cloudflare 工程师与苏黎世联邦理工学院的研究人员发现，AI 驱动的爬虫流量每周已超过 100 亿次请求，这从根本上打破了传统的 CDN 和数据库缓存假设。与人类浏览不同，RAG 循环中的 AI 智能体表现出 70%-100% 的唯一访问率，导致“最近最少使用”（LRU）淘汰策略失效，并增加了源服务器的负载。为缓解这一问题，他们提出了新的架构方案，包括将人类流量与 AI 流量分离至不同的缓存层、针对机器人流量采用 LFU 或 FIFO 算法，以及实施机器学习驱动的动态策略和按爬取付费模型。

💡 主要观点

- AI 爬虫流量模式与以人为中心的缓存机制从根本上不兼容。 AI 智能体表现出极高的唯一 URL 访问率（70%-100%）且缺乏会话连续性，这导致了“缓存抖动”，并使 LRU 策略所依赖的时间局部性假设失效。

AI 流量的影响已从边缘扩展至数据库层。 CDN 层面的高缓存未命中率增加了源站负载，迫使数据库在没有传统优化条件的情况下处理数百万次唯一的读/写操作。

提出的解决方案涉及 AI 感知的架构分离。 相关策略包括对流量进行分层以隔离 AI 请求、测试 LFU/FIFO 等替代淘汰算法，以及探索结构化数据馈送或按爬取付费模型来管理资源利用率。

💬 文章金句

- AI 流量打破了为人类构建的假设。

RAG 循环中 70%-100% 的唯一访问率解释了我在最近微调过程中经历的缓存抖动。
AI 流量正在系统性地消除优化条件。那些依然有效的条件，本身就不依赖于这些优化。
Cloudflare 的建模显示，AI 智能体的迭代循环会产生持续的高水平唯一内容访问，从而挤占了边缘缓存中人类频繁请求的内容。

📊 文章信息

AI 评分：88

来源：InfoQ

作者：Leela Kumili

分类：软件编程

语言：英文

阅读时间：3 分钟

字数：510

标签： CDN, 缓存策略, AI 爬虫, RAG, Cloudflare

阅读完整文章

Cloudflare 与苏黎世联邦理工学院概述 AI 驱动的缓存优化方案

🤖 問 AI