百度发布 PaddleOCR-VL-1.6,在 OmniDocBench v1.6 评测中准确率达 96.33%,超越 Gemini-3-Pro、GPT-5.2 等模型,刷新文档解析 SOTA。
📝 详细摘要
文章报道了百度最新发布的 PaddleOCR-VL-1.6 模型。该模型基于文心大模型训练,在权威评测集 OmniDocBench v1.6 上总指标达到 96.33%,超越 Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro 等模型,刷新业界 SOTA。在面向真实复杂场景的 Real5-OmniDocBench 评测中,总指标达 93.19%,在扫描件、弯折文档、屏幕拍照等五大场景下均保持领先。PaddleOCR-VL-1.6 在文本、公式、表格等核心识别能力上全面领先,并在表格、古籍、生僻字识别等复杂场景有显著提升。模型采用 0.9B 轻量化架构,与上一代结构一致,可平滑迁移。目前模型已上线官网并开源至 GitHub 和 Hugging Face。
💡 主要观点
- PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上准确率达 96.33%,超越多个主流模型。 该模型在权威评测中总指标领先 Gemini-3-Pro、GPT-5.2 等,刷新了文档解析领域的 SOTA 记录。
💬 文章金句
- 在 OmniDocBench v1.6 上,PaddleOCR-VL-1.6 总指标达到 96.33%,超越 Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR 等,领跑全球通用大模型和专用 OCR 模型。
📊 文章信息
AI 初评:80
来源:InfoQ 中文
作者:InfoQ 中文
分类:人工智能
语言:中文
阅读时间:5 分钟
字数:1023
标签: 模型发布, OCR, 文档理解, 多模态 AI, 百度文心