RAG 后的检索：混合搜索、智能体与数据库设计 — Turbopuffer 的 Simon Hørup Eskildsen

📌 一句话摘要

Turbopuffer 是一个用于非结构化数据的云原生搜索引擎，它利用分层存储架构（从 S3 到 NVMe），为 RAG 和智能体工作流提供经济高效、高并发的检索。

📝 详细摘要

本文探讨了 Turbopuffer 的技术起源和架构理念，Turbopuffer 是一个专为 AI 时代设计的搜索引擎。该平台由 Simon Eskildsen 在 Readwise 经历向量搜索的高昂成本后创立，旨在解决 LLM 无法将其所有世界知识压缩到模型权重中的根本局限性。Turbopuffer 的核心创新在于其“S3 优先”架构，该架构将对象存储视为事实来源，并将数据“填充”（puffs）到 NVMe 和 DRAM 中以提高性能，从而消除了对昂贵共识层的需求。这种方法使 Cursor 等客户能够将基础设施成本降低 95%。讨论还强调了向智能体工作负载的转变，这要求搜索引擎能够处理高并发突发和混合检索方法（向量、文本和 SQL），而不是简单的、孤立的查询。

💡 主要观点

- LLM 作为推理引擎运作，而非完整的知识压缩器。 尽管模型擅长推理，但它们无法将 EB 级别的数据存储在其权重中。它们需要高保真度的外部搜索引擎来提供准确输出所需的“真相”和上下文。

使用 S3 和 NVMe 的分层存储架构能够实现巨大的成本降低。 通过将 S3 视为主要的事实来源并避免传统的共识层，数据库可以廉价地扩展存储，同时仅将 NVMe 和 DRAM 用于活跃查询的“填充”。

智能体工作负载正在将搜索从单一调用转变为高并发突发。 现代 AI 智能体同时发出许多并行查询来解决任务。这种转变要求检索基础设施支持高并发，并降低每次查询的成本以保持经济可行性。

检索的未来在于结合向量和传统方法的混合搜索。 纯向量搜索通常不足。开发者越来越需要结合语义、全文、正则表达式和 SQL 风格的过滤，以实现代码搜索等复杂应用所需的精度。

💬 文章金句

- 模型可以学习推理，但无法将世界的知识压缩到几 TB 的权重中。

为什么没有人构建一个数据库，你可以把所有东西都放在对象存储上，然后在使用数据时将其“填充”到 NVMe 中？
现在可能实现而 15 年前不可能实现的架构是全面采用 NVMe SSD。
智能体系统正在大幅增加查询量，Simon 预计检索基础设施将适应巨大的并发搜索突发。
如果你想建立一家真正大型的数据库公司……你需要新的工作负载、新的存储架构以及支持所有查询计划的能力。

📊 文章信息

AI 评分：93

精选文章：是

来源：Latent Space

作者：Latent.Space

分类：人工智能

语言：英文

阅读时间：60 分钟

字数：14956

标签：向量数据库, RAG, 云架构, S3 存储, NVMe

阅读完整文章

RAG 后的检索：混合搜索、智能体与数据库设计 — Turbopuffer 的 Simon Hørup Eskildsen

🤖 問 AI