准确率突破 96.33%！百度文心发布 PaddleOCR-VL-1.6，刷新文档解析 SOTA

📌 一句话摘要

百度发布 PaddleOCR-VL-1.6，在 OmniDocBench v1.6 评测中准确率达 96.33%，超越 Gemini-3-Pro、GPT-5.2 等模型，刷新文档解析 SOTA。

📝 详细摘要

文章报道了百度最新发布的 PaddleOCR-VL-1.6 模型。该模型基于文心大模型训练，在权威评测集 OmniDocBench v1.6 上总指标达到 96.33%，超越 Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro 等模型，刷新业界 SOTA。在面向真实复杂场景的 Real5-OmniDocBench 评测中，总指标达 93.19%，在扫描件、弯折文档、屏幕拍照等五大场景下均保持领先。PaddleOCR-VL-1.6 在文本、公式、表格等核心识别能力上全面领先，并在表格、古籍、生僻字识别等复杂场景有显著提升。模型采用 0.9B 轻量化架构，与上一代结构一致，可平滑迁移。目前模型已上线官网并开源至 GitHub 和 Hugging Face。

💡 主要观点

- PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上准确率达 96.33%，超越多个主流模型。 该模型在权威评测中总指标领先 Gemini-3-Pro、GPT-5.2 等，刷新了文档解析领域的 SOTA 记录。

模型在真实复杂场景下表现突出，五大场景均保持领先。 在 Real5-OmniDocBench 评测中，总指标达 93.19%，较 Gemini-3-Pro 提升近 4 个百分点，覆盖扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档等场景。

模型采用 0.9B 轻量化架构，与上一代结构一致，可平滑迁移。 通过模型驱动的数据构建机制和渐进式训练优化，在保持轻量化的同时提升了准确率和复杂场景适应能力，开发者和企业无需额外适配。

💬 文章金句

- 在 OmniDocBench v1.6 上，PaddleOCR-VL-1.6 总指标达到 96.33%，超越 Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR 等，领跑全球通用大模型和专用 OCR 模型。

📊 文章信息

AI 初评：80

来源：InfoQ 中文

作者：InfoQ 中文

分类：人工智能

语言：中文

阅读时间：5 分钟

字数：1023

标签：模型发布, OCR, 文档理解, 多模态 AI, 百度文心

阅读完整文章

准确率突破 96.33%！百度文心发布 PaddleOCR-VL-1.6，刷新文档解析 SOTA

🤖 問 AI