向量数据库会出现，是因为 SQL 存在一个致命缺陷……

📌 一句话摘要

本文深入剖析了关系型数据库与向量数据库的核心差异，解释了为何传统 SQL 无法处理 AI 所需的语义相似性搜索，并通过一个欺诈检测系统案例展示了两种数据库互补的实践方案。

📝 详细摘要

文章从数据库的核心定义出发，系统性地对比了关系型数据库与向量数据库的设计哲学与适用场景。作者指出，关系型数据库基于 B 树索引，擅长精确匹配查询，但其底层数据结构天然无法理解“相似性”概念。而 AI 应用（如语义搜索、推荐系统）的核心需求恰恰是基于向量空间距离的相似性检索，这催生了以 HNSW 等算法为核心的向量数据库。文章详细解释了 HNSW 的工作原理、向量数据库的完整架构（包括持久化、API、元数据过滤），并强调两者是互补而非替代关系。最后，作者分享了一个结合 MySQL 与向量数据库的实时欺诈检测系统原型案例，生动展示了如何利用向量数据库识别未知的、行为相似的欺诈模式，而用关系型数据库存储和查询结构化的欺诈记录。

💡 主要观点

- 关系型数据库与向量数据库解决的是本质不同的问题，核心差异在于索引数据结构。 关系型数据库的 B 树索引为精确匹配（WHERE email = ‘x’）优化，而向量数据库的 HNSW 索引为高维空间中的近似最近邻搜索优化，前者无法高效处理语义相似性查询。

向量数据库是一套完整的基础设施，而不仅仅是内存中的 HNSW 索引。 一个生产可用的向量数据库需要包含持久化存储、网络 API、元数据过滤和实时更新等能力，将高效的相似性搜索引擎封装为可独立运行和访问的服务。

在实际 AI 系统中，关系型数据库与向量数据库是互补共存的，而非二选一。 通过欺诈检测系统案例说明，向量数据库用于发现行为模式相似的未知欺诈交易，而关系型数据库用于存储和按条件查询已知的结构化欺诈记录，两者各司其职。

HNSW 采用近似最近邻搜索是工程上的正确权衡，以微小精度损失换取毫秒级查询速度。 对于绝大多数语义检索场景（如找相似交易、相关文档），返回高度相关的前几个近似结果与返回数学上绝对精确的结果，在用户体验上没有区别，但性能提升巨大。

💬 文章金句

- SQL 数据库关心的是：这条精确记录在哪里？向量数据库关心的是：它附近还有哪些相似数据？

B 树不知道如何做到这一点。为什么？因为它没有‘相似’这个概念。
它们不是相互竞争的工具，而是互补的技术层，共同解决同一问题的不同方面。
问题从来不是二选一，而是误以为其中任意一种数据库能同时胜任两类任务。
系统标记这笔交易，并不是它匹配了某个已知的欺诈模式，而是它与你的个人记录不符。

📊 文章信息

AI 初评：88

来源：dbaplus社群

作者：dbaplus社群

分类：人工智能

语言：中文

阅读时间：24 分钟

字数：5859

标签：向量数据库, 关系型数据库, 相似性搜索, HNSW, AI 架构

阅读完整文章

向量数据库会出现，是因为 SQL 存在一个致命缺陷……

🤖 問 AI