百度二面：在 RAG 中 Embedding 究竟是什么？

📌 一句话摘要

本文以面试问答形式，系统讲解了 RAG 中 Embedding 的核心原理、常见模型对比、选型维度和评估方法，强调语义检索的本质和业务数据实测的重要性。

📝 详细摘要

文章以百度二面面试题为切入点，深入解析了 RAG 系统中 Embedding 技术的本质。首先阐明 Embedding 是将文本映射为固定长度浮点向量的过程，其核心特性是语义相近的文本向量余弦相似度高，从而实现语义检索而非关键词匹配。接着对比了主流 Embedding 模型：OpenAI text-embedding 系列（英文效果好、有 API 费用）、BGE 系列（中文场景首选、开源可本地部署）、bge-m3（多语言支持）。选型需考虑中英文比例、数据合规要求和向量维度对存储检索速度的影响。评估方面，文章指出 MTEB 通用排行榜不能代表业务场景效果，正确的做法是在自己的业务数据上跑 Hit@K 召回测试，Hit@5 低于 0.7 需考虑换模型或改进 Chunking 策略。最后总结了面试回答要点。

💡 主要观点

- Embedding 的本质是语义压缩，将文本映射为固定长度向量。 无论输入文本长短，Embedding 模型都输出固定维度的浮点数向量，核心价值在于语义相近的文本向量余弦相似度高，这是语义检索的基础。

语义检索与关键词匹配有本质区别。 关键词匹配依赖字面重合，而语义检索通过向量空间距离衡量意思相近程度，能处理同义词、近义词和不同表达方式，如「苹果手机截图」和「iPhone 截屏」向量相似度可达 0.95。

选型需根据场景选择模型，中文场景 BGE 系列是首选。 中文知识库选 bge-large-zh，中英混合选 bge-m3，纯英文或追求省事选 OpenAI text-embedding-3-small。同时需考虑数据合规要求，数据不能出境则必须用开源模型本地部署。

评估模型应在业务数据上跑 Hit@K 测试，而非依赖 MTEB 排行榜。 MTEB 使用通用数据集，与具体业务场景分布差异大。正确方法是用业务相关的「问题+答案 chunk」对测试，Hit@5 低于 0.7 需考虑换模型或改进 Chunking 策略。

💬 文章金句

- Embedding 模型做的事情本质上是「语义压缩」，把一段自然语言文本映射成一个固定长度的浮点数向量。

很多人以为向量检索就是高级的关键词匹配，其实完全不是一回事，它是从「意思」层面在做匹配。
选模型不测试，全靠感觉和排行榜，这样做出来的系统能好用就怪了。
正确的评估方法是在自己的业务数据上测：准备几百条业务相关的「问题 + 正确答案 chunk」对，分别用候选模型做检索，看正确的 chunk 有没有出现在前 K 条结果里。

📊 文章信息

AI 初评：82

来源：小林coding

作者：小林coding

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2973

标签： RAG, Embedding, 语义检索, BGE, 模型选型

阅读完整文章

百度二面：在 RAG 中 Embedding 究竟是什么？

🤖 問 AI