96.33% 新 SOTA！PaddleOCR-VL-1.6 发布，大模型时代的数据基座再升级

📌 一句话摘要

PaddleOCR-VL-1.6 发布，通过模型驱动的数据引擎与渐进式后训练策略，在 OmniDocBench v1.6 上以 96.33% 刷新 SOTA，模型结构与 v1.5 完全一致，零成本升级。

📝 详细摘要

本文是 PaddleOCR-VL-1.6 的版本发布公告。文章首先介绍了新版本在 OmniDocBench v1.6、Real5-OmniDocBench 等多个基准上刷新 SOTA 的成绩，并展示了在表格、公式、古籍、生僻字、印章等场景的效果图。核心部分阐述了技术升级路径：通过「欠优化区域驱动的数据引擎」定位模型弱点（决策边界脆弱、数据分布稀疏、监督信号不可靠），定向构建高质量数据，再经继续预训练、监督微调、强化学习三阶段渐进式后训练，将数据价值注入 0.9B 模型。针对小模型强化学习挑战，设计了高潜力样本挖掘策略与可验证奖励函数。最后提供了基于 PaddlePaddle 和 transformers 的推理代码及基于 ms-swift 的微调示例。

💡 主要观点

- PaddleOCR-VL-1.6 在不改变模型架构的前提下，通过数据与训练策略优化实现性能跃升。 模型结构与 v1.5 完全一致（0.9B 参数），零成本适配，性能提升完全来自数据引擎和后训练策略的改进，体现了数据驱动的工程优化思路。

核心创新是「欠优化区域驱动的数据引擎」，从盲目扩量转向精准优化。 该引擎从决策边界脆弱、数据分布稀疏、监督信号不可靠三个视角定位模型弱点，再通过定向检索、多专家共识和迭代标注修复构建高质量数据，解决了「缺数据」和「数据不可靠」两个问题。

针对 0.9B 小模型强化学习，设计了高潜力样本挖掘策略与可验证奖励函数。 小模型对 RL 数据敏感，通过提升潜力、生成不确定性和奖励方差三维度筛选样本，并设计合法性、结构修正、真实得分三维奖励信号，使 RL 成为有效的收尾优化阶段。

💬 文章金句

- PaddleOCR-VL-1.6 并不是一次简单的模型放大或数据堆叠，而是在 PaddleOCR-VL-1.5 已经具备强大基础能力的前提下，进一步追问：模型真正没有学好的地方在哪里？

不是通过盲目数据扩增来让模型变得更大，而是通过对模型弱点的定向分析，让每一份数据更精准地服务于模型能力提升。

📊 文章信息

AI 初评：84

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3305

标签： OCR, 文档解析, 模型发布, 多模态 AI, 模型训练与推理

阅读完整文章

96.33% 新 SOTA！PaddleOCR-VL-1.6 发布，大模型时代的数据基座再升级

🤖 問 AI