← 回總覽

准确率突破 96.33%!百度文心发布 PaddleOCR-VL-1.6,刷新文档解析 SOTA

📅 2026-06-03 12:30 InfoQ 中文 人工智能 2 分鐘 1324 字 評分: 80
模型发布 OCR 文档理解 多模态 AI 百度文心
📌 一句话摘要 百度发布 PaddleOCR-VL-1.6,在 OmniDocBench v1.6 评测中准确率达 96.33%,超越 Gemini-3-Pro、GPT-5.2 等模型,刷新文档解析 SOTA。 📝 详细摘要 文章报道了百度最新发布的 PaddleOCR-VL-1.6 模型。该模型基于文心大模型训练,在权威评测集 OmniDocBench v1.6 上总指标达到 96.33%,超越 Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro 等模型,刷新业界 SOTA。在面向真实复杂场景的 Real5-OmniDocBench 评测中,总指标达 93.19%,在

📌 一句话摘要

百度发布 PaddleOCR-VL-1.6,在 OmniDocBench v1.6 评测中准确率达 96.33%,超越 Gemini-3-Pro、GPT-5.2 等模型,刷新文档解析 SOTA。

📝 详细摘要

文章报道了百度最新发布的 PaddleOCR-VL-1.6 模型。该模型基于文心大模型训练,在权威评测集 OmniDocBench v1.6 上总指标达到 96.33%,超越 Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro 等模型,刷新业界 SOTA。在面向真实复杂场景的 Real5-OmniDocBench 评测中,总指标达 93.19%,在扫描件、弯折文档、屏幕拍照等五大场景下均保持领先。PaddleOCR-VL-1.6 在文本、公式、表格等核心识别能力上全面领先,并在表格、古籍、生僻字识别等复杂场景有显著提升。模型采用 0.9B 轻量化架构,与上一代结构一致,可平滑迁移。目前模型已上线官网并开源至 GitHub 和 Hugging Face。

💡 主要观点

- PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上准确率达 96.33%,超越多个主流模型。 该模型在权威评测中总指标领先 Gemini-3-Pro、GPT-5.2 等,刷新了文档解析领域的 SOTA 记录。

模型在真实复杂场景下表现突出,五大场景均保持领先。 在 Real5-OmniDocBench 评测中,总指标达 93.19%,较 Gemini-3-Pro 提升近 4 个百分点,覆盖扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档等场景。
模型采用 0.9B 轻量化架构,与上一代结构一致,可平滑迁移。 通过模型驱动的数据构建机制和渐进式训练优化,在保持轻量化的同时提升了准确率和复杂场景适应能力,开发者和企业无需额外适配。

💬 文章金句

- 在 OmniDocBench v1.6 上,PaddleOCR-VL-1.6 总指标达到 96.33%,超越 Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR 等,领跑全球通用大模型和专用 OCR 模型。

📊 文章信息

AI 初评:80

来源:InfoQ 中文

作者:InfoQ 中文

分类:人工智能

语言:中文

阅读时间:5 分钟

字数:1023

标签: 模型发布, OCR, 文档理解, 多模态 AI, 百度文心

阅读完整文章

查看原文 → 發佈: 2026-06-03 12:30:00 收錄: 2026-06-04 02:00:35

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。