PaddleOCR-VL-1.6 发布,通过模型驱动的数据引擎与渐进式后训练策略,在 OmniDocBench v1.6 上以 96.33% 刷新 SOTA,模型结构与 v1.5 完全一致,零成本升级。
📝 详细摘要
本文是 PaddleOCR-VL-1.6 的版本发布公告。文章首先介绍了新版本在 OmniDocBench v1.6、Real5-OmniDocBench 等多个基准上刷新 SOTA 的成绩,并展示了在表格、公式、古籍、生僻字、印章等场景的效果图。核心部分阐述了技术升级路径:通过「欠优化区域驱动的数据引擎」定位模型弱点(决策边界脆弱、数据分布稀疏、监督信号不可靠),定向构建高质量数据,再经继续预训练、监督微调、强化学习三阶段渐进式后训练,将数据价值注入 0.9B 模型。针对小模型强化学习挑战,设计了高潜力样本挖掘策略与可验证奖励函数。最后提供了基于 PaddlePaddle 和 transformers 的推理代码及基于 ms-swift 的微调示例。
💡 主要观点
- PaddleOCR-VL-1.6 在不改变模型架构的前提下,通过数据与训练策略优化实现性能跃升。 模型结构与 v1.5 完全一致(0.9B 参数),零成本适配,性能提升完全来自数据引擎和后训练策略的改进,体现了数据驱动的工程优化思路。
💬 文章金句
- PaddleOCR-VL-1.6 并不是一次简单的模型放大或数据堆叠,而是在 PaddleOCR-VL-1.5 已经具备强大基础能力的前提下,进一步追问:模型真正没有学好的地方在哪里?
- 不是通过盲目数据扩增来让模型变得更大,而是通过对模型弱点的定向分析,让每一份数据更精准地服务于模型能力提升。
📊 文章信息
AI 初评:84
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3305
标签: OCR, 文档解析, 模型发布, 多模态 AI, 模型训练与推理