← 回總覽

跳出 SOTA 内卷,我们发了个“好用至上”的文档解析模型

📅 2026-04-11 16:11 魔搭ModelScope社区 人工智能 2 分鐘 1522 字 評分: 88
文档解析 OCR 数据工程 MinerU 模型训练
📌 一句话摘要 本文介绍了阿里云魔搭社区发布的 MinerU2.5-Pro 文档解析模型,其核心创新在于不改变 1.2B 参数架构,而是通过系统性数据工程(大规模数据采集、跨模型一致性验证、难样本精标、三阶段渐进训练)和评测基准优化,实现了性能的显著提升,并倡导从“卷架构”转向“卷数据”和“卷好用”的研发理念。 📝 详细摘要 文章由阿里云魔搭社区发布,详细阐述了其最新文档解析模型 MinerU2.5-Pro 的技术路径与核心理念。文章指出,当前文档解析领域陷入“卷架构、卷参数”的内卷,但研究发现不同模型在复杂表格、密集公式等难样本上失败模式高度一致,表明瓶颈在于共用的训练数据存在系统性短板

📌 一句话摘要

本文介绍了阿里云魔搭社区发布的 MinerU2.5-Pro 文档解析模型,其核心创新在于不改变 1.2B 参数架构,而是通过系统性数据工程(大规模数据采集、跨模型一致性验证、难样本精标、三阶段渐进训练)和评测基准优化,实现了性能的显著提升,并倡导从“卷架构”转向“卷数据”和“卷好用”的研发理念。

📝 详细摘要

文章由阿里云魔搭社区发布,详细阐述了其最新文档解析模型 MinerU2.5-Pro 的技术路径与核心理念。文章指出,当前文档解析领域陷入“卷架构、卷参数”的内卷,但研究发现不同模型在复杂表格、密集公式等难样本上失败模式高度一致,表明瓶颈在于共用的训练数据存在系统性短板。因此,MinerU2.5-Pro 选择保持 1.2B 参数架构不变,将所有精力投入数据工程:1)将训练数据从不足 1000 万页扩展至 6550 万页,并采用多样性-难度感知采样;2)设计跨模型一致性验证方法,精准识别难样本;3)通过渲染后验证迭代校正流水线,提升难样本标注质量;4)采用三阶段渐进训练策略。最终在 OmniDocBench v1.6 评测集上综合得分达 95.69,超越包括更大参数模型在内的现有方法。文章强调,模型研发应回归“好用至上”的用户价值,关注复杂文档、长尾场景下的真实表现,而非单纯追求榜单 SOTA。模型权重、代码及论文均已开源。

💡 主要观点

- 文档解析的瓶颈已从模型架构转向训练数据质量与覆盖度。 通过交叉分析发现,不同架构的主流模型在复杂嵌套表格、密集公式等难样本上失败模式高度一致,表明问题根源在于共用的训练数据存在系统性短板,而非单一模型设计不足。

MinerU2.5-Pro 的核心创新在于系统性数据工程,而非模型架构改动。 模型保持 1.2B 参数架构不变,通过大规模数据扩展、跨模型一致性验证识别难样本、渲染后验证迭代校正提升标注质量、以及三阶段渐进训练策略,实现了性能的显著提升。
倡导从“卷 SOTA”转向“卷好用”的研发理念,关注真实场景下的用户价值。 文章批评了过度追求评测榜单排名的内卷现象,强调模型研发应回归解决用户真实痛点,如复杂文档的准确解析、长尾场景的稳定表现,并同步优化评测基准以更公允地反映模型能力。

💬 文章金句

- 既然连不同路线的模型都会在同一个地方摔跤,那问题多半就不只是谁的模型架构设计得更巧,而是大家共用的训练数据,本身存在系统性短板。

  • MinerU2.5-Pro 这次干的,不是‘换个模型再发一遍’。而是先把数据这口井,重新挖深。
  • 跳出 SOTA 内卷,文档解析这件事,也许该重新回到‘是不是真好用’上来了,能不能让用户使用的过程中觉得‘真的好’,而不是卷在某个评测集上的 SOTA。
  • 榜单会变,SOTA 会换,这都正常。但‘好用’这件事,不该跟着 OCR 的热度一起起落。它应该是一个更硬的标准。

📊 文章信息

AI 初评:88

来源:魔搭ModelScope社区

作者:魔搭ModelScope社区

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3345

标签: 文档解析, OCR, 数据工程, MinerU, 模型训练

阅读完整文章

查看原文 → 發佈: 2026-04-11 16:11:00 收錄: 2026-04-12 10:00:35

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。