← 回總覽

百度二面:在 RAG 中 Embedding 究竟是什么?

📅 2026-05-06 14:07 小林coding 人工智能 2 分鐘 1567 字 評分: 82
RAG Embedding 语义检索 BGE 模型选型
📌 一句话摘要 本文以面试问答形式,系统讲解了 RAG 中 Embedding 的核心原理、常见模型对比、选型维度和评估方法,强调语义检索的本质和业务数据实测的重要性。 📝 详细摘要 文章以百度二面面试题为切入点,深入解析了 RAG 系统中 Embedding 技术的本质。首先阐明 Embedding 是将文本映射为固定长度浮点向量的过程,其核心特性是语义相近的文本向量余弦相似度高,从而实现语义检索而非关键词匹配。接着对比了主流 Embedding 模型:OpenAI text-embedding 系列(英文效果好、有 API 费用)、BGE 系列(中文场景首选、开源可本地部署)、bge-

📌 一句话摘要

本文以面试问答形式,系统讲解了 RAG 中 Embedding 的核心原理、常见模型对比、选型维度和评估方法,强调语义检索的本质和业务数据实测的重要性。

📝 详细摘要

文章以百度二面面试题为切入点,深入解析了 RAG 系统中 Embedding 技术的本质。首先阐明 Embedding 是将文本映射为固定长度浮点向量的过程,其核心特性是语义相近的文本向量余弦相似度高,从而实现语义检索而非关键词匹配。接着对比了主流 Embedding 模型:OpenAI text-embedding 系列(英文效果好、有 API 费用)、BGE 系列(中文场景首选、开源可本地部署)、bge-m3(多语言支持)。选型需考虑中英文比例、数据合规要求和向量维度对存储检索速度的影响。评估方面,文章指出 MTEB 通用排行榜不能代表业务场景效果,正确的做法是在自己的业务数据上跑 Hit@K 召回测试,Hit@5 低于 0.7 需考虑换模型或改进 Chunking 策略。最后总结了面试回答要点。

💡 主要观点

- Embedding 的本质是语义压缩,将文本映射为固定长度向量。 无论输入文本长短,Embedding 模型都输出固定维度的浮点数向量,核心价值在于语义相近的文本向量余弦相似度高,这是语义检索的基础。

语义检索与关键词匹配有本质区别。 关键词匹配依赖字面重合,而语义检索通过向量空间距离衡量意思相近程度,能处理同义词、近义词和不同表达方式,如「苹果手机截图」和「iPhone 截屏」向量相似度可达 0.95。
选型需根据场景选择模型,中文场景 BGE 系列是首选。 中文知识库选 bge-large-zh,中英混合选 bge-m3,纯英文或追求省事选 OpenAI text-embedding-3-small。同时需考虑数据合规要求,数据不能出境则必须用开源模型本地部署。
评估模型应在业务数据上跑 Hit@K 测试,而非依赖 MTEB 排行榜。 MTEB 使用通用数据集,与具体业务场景分布差异大。正确方法是用业务相关的「问题+答案 chunk」对测试,Hit@5 低于 0.7 需考虑换模型或改进 Chunking 策略。

💬 文章金句

- Embedding 模型做的事情本质上是「语义压缩」,把一段自然语言文本映射成一个固定长度的浮点数向量。

  • 很多人以为向量检索就是高级的关键词匹配,其实完全不是一回事,它是从「意思」层面在做匹配。
  • 选模型不测试,全靠感觉和排行榜,这样做出来的系统能好用就怪了。
  • 正确的评估方法是在自己的业务数据上测:准备几百条业务相关的「问题 + 正确答案 chunk」对,分别用候选模型做检索,看正确的 chunk 有没有出现在前 K 条结果里。

📊 文章信息

AI 初评:82

来源:小林coding

作者:小林coding

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2973

标签: RAG, Embedding, 语义检索, BGE, 模型选型

阅读完整文章

查看原文 → 發佈: 2026-05-06 14:07:00 收錄: 2026-05-06 20:00:30

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。