← 回總覽

96.33% 新 SOTA!PaddleOCR-VL-1.6 发布,大模型时代的数据基座再升级

📅 2026-06-02 16:30 魔搭ModelScope社区 人工智能 2 分鐘 1387 字 評分: 84
OCR 文档解析 模型发布 多模态 AI 模型训练与推理
📌 一句话摘要 PaddleOCR-VL-1.6 发布,通过模型驱动的数据引擎与渐进式后训练策略,在 OmniDocBench v1.6 上以 96.33% 刷新 SOTA,模型结构与 v1.5 完全一致,零成本升级。 📝 详细摘要 本文是 PaddleOCR-VL-1.6 的版本发布公告。文章首先介绍了新版本在 OmniDocBench v1.6、Real5-OmniDocBench 等多个基准上刷新 SOTA 的成绩,并展示了在表格、公式、古籍、生僻字、印章等场景的效果图。核心部分阐述了技术升级路径:通过「欠优化区域驱动的数据引擎」定位模型弱点(决策边界脆弱、数据分布稀疏、监督信号不可

📌 一句话摘要

PaddleOCR-VL-1.6 发布,通过模型驱动的数据引擎与渐进式后训练策略,在 OmniDocBench v1.6 上以 96.33% 刷新 SOTA,模型结构与 v1.5 完全一致,零成本升级。

📝 详细摘要

本文是 PaddleOCR-VL-1.6 的版本发布公告。文章首先介绍了新版本在 OmniDocBench v1.6、Real5-OmniDocBench 等多个基准上刷新 SOTA 的成绩,并展示了在表格、公式、古籍、生僻字、印章等场景的效果图。核心部分阐述了技术升级路径:通过「欠优化区域驱动的数据引擎」定位模型弱点(决策边界脆弱、数据分布稀疏、监督信号不可靠),定向构建高质量数据,再经继续预训练、监督微调、强化学习三阶段渐进式后训练,将数据价值注入 0.9B 模型。针对小模型强化学习挑战,设计了高潜力样本挖掘策略与可验证奖励函数。最后提供了基于 PaddlePaddle 和 transformers 的推理代码及基于 ms-swift 的微调示例。

💡 主要观点

- PaddleOCR-VL-1.6 在不改变模型架构的前提下,通过数据与训练策略优化实现性能跃升。 模型结构与 v1.5 完全一致(0.9B 参数),零成本适配,性能提升完全来自数据引擎和后训练策略的改进,体现了数据驱动的工程优化思路。

核心创新是「欠优化区域驱动的数据引擎」,从盲目扩量转向精准优化。 该引擎从决策边界脆弱、数据分布稀疏、监督信号不可靠三个视角定位模型弱点,再通过定向检索、多专家共识和迭代标注修复构建高质量数据,解决了「缺数据」和「数据不可靠」两个问题。
针对 0.9B 小模型强化学习,设计了高潜力样本挖掘策略与可验证奖励函数。 小模型对 RL 数据敏感,通过提升潜力、生成不确定性和奖励方差三维度筛选样本,并设计合法性、结构修正、真实得分三维奖励信号,使 RL 成为有效的收尾优化阶段。

💬 文章金句

- PaddleOCR-VL-1.6 并不是一次简单的模型放大或数据堆叠,而是在 PaddleOCR-VL-1.5 已经具备强大基础能力的前提下,进一步追问:模型真正没有学好的地方在哪里?

  • 不是通过盲目数据扩增来让模型变得更大,而是通过对模型弱点的定向分析,让每一份数据更精准地服务于模型能力提升。

📊 文章信息

AI 初评:84

来源:魔搭ModelScope社区

作者:魔搭ModelScope社区

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3305

标签: OCR, 文档解析, 模型发布, 多模态 AI, 模型训练与推理

阅读完整文章

查看原文 → 發佈: 2026-06-02 16:30:00 收錄: 2026-06-03 02:00:35

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。