向量搜索的扩展：量化与套娃式嵌入比较，实现 80% 成本降低

📌 一句话摘要

本文对量化和套娃式表征学习（MRL）进行了比较实证分析，旨在优化向量数据库存储，并展示了它们的结合如何能将基础设施成本降低高达 80%。

📝 详细摘要

本文探讨了在生产环境中扩展向量数据库时不断上升的成本，其中高精度 Float32 嵌入和复制因子导致了巨大的 RAM 需求。作者探讨了两种主要的优化策略：量化，它降低了向量分量的比特精度；以及套娃式表征学习（MRL），它通过前置语义信息实现维度降低。通过使用 FAISS (HNSW) 和 HotpotQA 数据集进行的一系列实验，作者评估了存储节省和检索准确性（Recall@10 和 MRR）之间的权衡。研究结果强调，对于大多数 RAG 应用而言，标量量化（int8）是一种高效的“不假思索”的选择，提供了超过 60% 的存储空间减少，且准确性损失可忽略不计。此外，研究表明，将 MRL 与标量量化结合使用可提供最佳的投资回报率（ROI），在保持高性能的同时实现显著的成本节约。相反，二值量化因检索质量急剧下降而被认为过于激进，不适合一般用途。

💡 主要观点

- 向量存储成本主要由精度和维度驱动，并因复制而加剧。 标准的 Float32 嵌入每个维度需要 4 字节。当扩展到数百万个向量，并采用典型的三倍复制因子时，RAM 需求和云基础设施账单成为生产 AI 功能的显著瓶颈。

标量量化（int8）为存储优化提供了一个高效的“中间地带”。 通过将 32 位浮点数转换为 8 位整数，存储空间减少了 63.7%。实验表明，这种转换导致检索指标下降不到 3%，使其成为 RAG 用例中强烈推荐的默认选项。

套娃式表征学习（MRL）通过截断实现灵活的维度降低。 经过 MRL 训练的模型将关键语义信息嵌套在向量的早期维度中。这使得开发人员可以截断向量（例如，从 384 维到 128 维）以节省空间，同时保留核心含义和检索能力。

结合 MRL 和标量量化为大规模生产应用带来最佳投资回报率。 研究表明，将 256 维 MRL 与 int8 量化结合使用可将成本降低 70.8%，同时保留超过 95% 的原始性能，与单独使用任一技术相比，提供了卓越的平衡。

尽管存储空间节省巨大，二值量化仍面临“性能断崖”。 尽管提供了 32 倍的压缩，二值量化仍导致 Recall 和 MRR 大幅下降。与对未缩短的索引使用二值量化相比，使用低维度 MRL 向量与标量量化更为有效。

💬 文章金句

- 向量数据库的内存占用主要由两个因素驱动：精度和维度。

标量量化是几乎所有 RAG 用例都应采用的最简单、最有效的基础设施优化。
MRL 允许工程师简单地截断向量的尾部，大幅降低其维度，而对检索指标的损失微乎其微。
二值量化代表着“性能断崖”……在 Recall 上落后标量量化超过 17%，在 MRR 上落后 18.4%。
与对未缩短的索引使用二值量化相比，高度推荐使用较低维度（128 维）与标量量化。

📊 文章信息

AI 评分：88

来源：Towards Data Science

作者：Oleg Tereshin

分类：人工智能

语言：英文

阅读时间：9 分钟

字数：2141

标签：向量搜索, 嵌入模型, 量化, 套娃式表征学习, RAG 基础设施

阅读完整文章

向量搜索的扩展：量化与套娃式嵌入比较，实现 80% 成本降低

🤖 問 AI