← 回總覽

手写 AI 合同审核系统:OCR + 混合 RAG + LangGraph 全栈实战

📅 2026-06-06 00:00 王俊博客 人工智能 2 分鐘 1431 字 評分: 88
AI Agent RAG LLM AI 工作流 OCR
📌 一句话摘要 本文从零到一构建一个生产级合同智能审核系统,涵盖图像增强、双策略 OCR、混合 RAG、LangGraph 状态机编排等全栈技术,并分享反直觉的工程发现。 📝 详细摘要 文章详细介绍了构建一个生产级合同智能审核系统的完整技术方案。作者从合同数据锁在文档中的痛点出发,逐步拆解了 7 个核心步骤:图像增强(CLAHE + Deskew)、双策略 OCR(PaddleOCR 为主,GPT-4V 兜底)、混合 RAG 索引(FAISS + BM25 + RRF 融合)、多查询 RAG、GPT-4o 字段提取、LangGraph 状态机编排以及彩色 Excel 报表生成。文章不仅提供

📌 一句话摘要

本文从零到一构建一个生产级合同智能审核系统,涵盖图像增强、双策略 OCR、混合 RAG、LangGraph 状态机编排等全栈技术,并分享反直觉的工程发现。

📝 详细摘要

文章详细介绍了构建一个生产级合同智能审核系统的完整技术方案。作者从合同数据锁在文档中的痛点出发,逐步拆解了 7 个核心步骤:图像增强(CLAHE + Deskew)、双策略 OCR(PaddleOCR 为主,GPT-4V 兜底)、混合 RAG 索引(FAISS + BM25 + RRF 融合)、多查询 RAG、GPT-4o 字段提取、LangGraph 状态机编排以及彩色 Excel 报表生成。文章不仅提供了可运行的代码示例,还分享了关键工程发现:在合同这种高度模板化的场景下,纯向量检索效果反而不如混合检索,因为语义相近的条款在向量空间中区分度低,加上 BM25 做关键词精确匹配后,召回率从 72%提升到 94%。整体方案将人工审核一份合同约 25 分钟的时间压缩到约 5 秒。

💡 主要观点

- 合同场景下,纯向量检索效果反而不如混合检索。 合同语言高度模板化,不同条款的语义非常接近,向量空间里区分度低。加上 BM25 做关键词精确匹配后,召回率从 72%提升到 94%,因为两者互补。

双策略 OCR 方案在成本和准确率之间取得了最佳平衡。 普通页面用 PaddleOCR(几乎零成本),模糊/盖章/手写页面自动切换到 GPT-4V 兜底,整体准确率从 82%提升到 96%以上。
图像增强是提升 OCR 准确率最容易被忽视但回报最高的步骤。 通过 CLAHE 自适应直方图均衡化和去偏斜处理,OCR 准确率从裸扫描的约 65%提升到了约 92%,为后续流程打下坚实基础。
LangGraph 状态机编排使多步骤 AI 工作流具备状态管理、条件分支和可审计性。 LangGraph 将图像增强、OCR、索引、RAG、字段提取等步骤串联成有状态的工作流,支持 OCR 质量低时自动重试,每一步的输入输出都可记录审计。

💬 文章金句

- 合同数据锁在文档里,不在数据库里。

  • 纯向量检索在这种场景下效果反而差。不是因为 BM25 更好,而是因为两者互补:FAISS 找到语义相关的,BM25 找到关键词精确匹配的,RRF 融合后取两者之长。
  • 合同审核是'每个公司都有但没人愿意干'的苦活。手动查一份合同 20 分钟,100 份就是 33 个小时。

📊 文章信息

AI 初评:88

来源:王俊博客

作者:王俊博客

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3159

标签: AI Agent, RAG, LLM, AI 工作流, OCR

阅读完整文章

查看原文 → 發佈: 2026-06-06 00:00:00 收錄: 2026-06-06 16:00:11

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。