本文以面试问答形式,系统讲解了 RAG 中 Embedding 的核心原理、常见模型对比、选型维度和评估方法,强调语义检索的本质和业务数据实测的重要性。
📝 详细摘要
文章以百度二面面试题为切入点,深入解析了 RAG 系统中 Embedding 技术的本质。首先阐明 Embedding 是将文本映射为固定长度浮点向量的过程,其核心特性是语义相近的文本向量余弦相似度高,从而实现语义检索而非关键词匹配。接着对比了主流 Embedding 模型:OpenAI text-embedding 系列(英文效果好、有 API 费用)、BGE 系列(中文场景首选、开源可本地部署)、bge-m3(多语言支持)。选型需考虑中英文比例、数据合规要求和向量维度对存储检索速度的影响。评估方面,文章指出 MTEB 通用排行榜不能代表业务场景效果,正确的做法是在自己的业务数据上跑 Hit@K 召回测试,Hit@5 低于 0.7 需考虑换模型或改进 Chunking 策略。最后总结了面试回答要点。
💡 主要观点
- Embedding 的本质是语义压缩,将文本映射为固定长度向量。 无论输入文本长短,Embedding 模型都输出固定维度的浮点数向量,核心价值在于语义相近的文本向量余弦相似度高,这是语义检索的基础。
💬 文章金句
- Embedding 模型做的事情本质上是「语义压缩」,把一段自然语言文本映射成一个固定长度的浮点数向量。
- 很多人以为向量检索就是高级的关键词匹配,其实完全不是一回事,它是从「意思」层面在做匹配。
- 选模型不测试,全靠感觉和排行榜,这样做出来的系统能好用就怪了。
- 正确的评估方法是在自己的业务数据上测:准备几百条业务相关的「问题 + 正确答案 chunk」对,分别用候选模型做检索,看正确的 chunk 有没有出现在前 K 条结果里。
📊 文章信息
AI 初评:82
来源:小林coding
作者:小林coding
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2973
标签: RAG, Embedding, 语义检索, BGE, 模型选型