本文介绍了阿里云魔搭社区发布的 MinerU2.5-Pro 文档解析模型,其核心创新在于不改变 1.2B 参数架构,而是通过系统性数据工程(大规模数据采集、跨模型一致性验证、难样本精标、三阶段渐进训练)和评测基准优化,实现了性能的显著提升,并倡导从“卷架构”转向“卷数据”和“卷好用”的研发理念。
📝 详细摘要
文章由阿里云魔搭社区发布,详细阐述了其最新文档解析模型 MinerU2.5-Pro 的技术路径与核心理念。文章指出,当前文档解析领域陷入“卷架构、卷参数”的内卷,但研究发现不同模型在复杂表格、密集公式等难样本上失败模式高度一致,表明瓶颈在于共用的训练数据存在系统性短板。因此,MinerU2.5-Pro 选择保持 1.2B 参数架构不变,将所有精力投入数据工程:1)将训练数据从不足 1000 万页扩展至 6550 万页,并采用多样性-难度感知采样;2)设计跨模型一致性验证方法,精准识别难样本;3)通过渲染后验证迭代校正流水线,提升难样本标注质量;4)采用三阶段渐进训练策略。最终在 OmniDocBench v1.6 评测集上综合得分达 95.69,超越包括更大参数模型在内的现有方法。文章强调,模型研发应回归“好用至上”的用户价值,关注复杂文档、长尾场景下的真实表现,而非单纯追求榜单 SOTA。模型权重、代码及论文均已开源。
💡 主要观点
- 文档解析的瓶颈已从模型架构转向训练数据质量与覆盖度。 通过交叉分析发现,不同架构的主流模型在复杂嵌套表格、密集公式等难样本上失败模式高度一致,表明问题根源在于共用的训练数据存在系统性短板,而非单一模型设计不足。
💬 文章金句
- 既然连不同路线的模型都会在同一个地方摔跤,那问题多半就不只是谁的模型架构设计得更巧,而是大家共用的训练数据,本身存在系统性短板。
- MinerU2.5-Pro 这次干的,不是‘换个模型再发一遍’。而是先把数据这口井,重新挖深。
- 跳出 SOTA 内卷,文档解析这件事,也许该重新回到‘是不是真好用’上来了,能不能让用户使用的过程中觉得‘真的好’,而不是卷在某个评测集上的 SOTA。
- 榜单会变,SOTA 会换,这都正常。但‘好用’这件事,不该跟着 OCR 的热度一起起落。它应该是一个更硬的标准。
📊 文章信息
AI 初评:88
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3345
标签: 文档解析, OCR, 数据工程, MinerU, 模型训练