← 回總覽

美团 Agent 岗二面:向量检索和关键词检索有什么区别?

📅 2026-05-19 14:12 小林coding 人工智能 2 分鐘 1398 字 評分: 83
向量检索 关键词检索 BM25 混合检索 RRF
📌 一句话摘要 本文以面试问答形式,深入对比了关键词检索(BM25)与向量检索的原理、优劣和互补关系,并介绍了混合检索(Hybrid Search)与 RRF 融合排序的工程实践。 📝 详细摘要 文章从一个常见的面试场景切入,纠正了「向量检索比关键词检索好」的普遍误解。作者首先阐述了检索的核心问题,即如何定义「相关」——是字面词汇重叠还是语义意思接近。接着,文章详细解析了关键词检索(以 BM25 为代表)的原理,包括倒排索引、词频(TF)和稀缺度(IDF)等核心概念,并指出其优势在于精确词汇命中率极高,但致命弱点是无法处理同义词。随后,文章介绍了向量检索通过 Embedding 模型将文本

📌 一句话摘要

本文以面试问答形式,深入对比了关键词检索(BM25)与向量检索的原理、优劣和互补关系,并介绍了混合检索(Hybrid Search)与 RRF 融合排序的工程实践。

📝 详细摘要

文章从一个常见的面试场景切入,纠正了「向量检索比关键词检索好」的普遍误解。作者首先阐述了检索的核心问题,即如何定义「相关」——是字面词汇重叠还是语义意思接近。接着,文章详细解析了关键词检索(以 BM25 为代表)的原理,包括倒排索引、词频(TF)和稀缺度(IDF)等核心概念,并指出其优势在于精确词汇命中率极高,但致命弱点是无法处理同义词。随后,文章介绍了向量检索通过 Embedding 模型将文本转化为语义空间向量,利用余弦相似度进行匹配,擅长处理同义词和模糊表达,但对专有名词、产品型号等精确词不敏感。文章通过对比表格清晰展示了两者的核心区别。最后,文章提出了工程上的最佳实践——混合检索,即同时运行向量检索和 BM25,并使用 RRF(互倒排名融合)算法将两路结果合并排序,以取长补短,并提供了 Python 代码示例。文章强调,在 RAG 系统中,混合检索已成为行业默认做法。

💡 主要观点

- 关键词检索(BM25)和向量检索各有优劣,并非替代关系。 BM25 基于词频统计,擅长精确匹配专有名词和代码,但无法处理同义词;向量检索基于语义空间距离,擅长处理同义词和模糊表达,但对精确词容易漏检。两者盲区互补。

混合检索(Hybrid Search)是 RAG 系统的行业默认做法。 工程实践中,同时运行向量检索和 BM25 两路检索,利用 RRF(互倒排名融合)算法合并排序,可以兼顾语义理解和精确匹配,显著提升召回质量。
RRF 算法通过排名而非原始分数进行融合,解决了不同检索系统分数量纲不一致的问题。 RRF 使用排名的倒数作为分数,将两路结果中排名靠前的文档赋予更高权重,使得两路都认为相关的文档排在前面,避免了直接加权平均的弊端。

💬 文章金句

- 关键词检索(BM25 这类)靠的是词频统计,看查询词在文档里出现了多少次,擅长精确命中;向量检索靠的是语义空间里的距离,能理解「换了种表达方式的同一个意思」,擅长模糊语义匹配。

  • 向量检索并不是「什么都比关键词检索好」,两者是互补关系。
  • 正确的做法不是二选一,而是混合检索,两路并行召回,用 RRF 融合排序,取长补短。

📊 文章信息

AI 初评:83

来源:小林coding

作者:小林coding

分类:人工智能

语言:中文

阅读时间:16 分钟

字数:3903

标签: 向量检索, 关键词检索, BM25, 混合检索, RRF

阅读完整文章

查看原文 → 發佈: 2026-05-19 14:12:00 收錄: 2026-05-19 22:00:06

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。