深势科技联合魔搭社区发布了基于 Uni-Parser 框架构建的大规模科学多模态数据集 OmniScience,包含 150 万组高质量「图-文-上下文」数据,旨在提升 AI 对复杂科学图像的理解能力,推动 AI for Science 发展。
📝 详细摘要
本文介绍了由深势科技与魔搭社区联合发布的大规模科学多模态数据集 OmniScience。该数据集基于深势科技自研的 Uni-Parser 科学文献解析框架构建,包含 150 万组高质量的「图-文-上下文」三元组,数据总量超过 700GB,覆盖物理、化学、生物等 10 个核心科学领域。文章重点阐述了数据集在规模与质量上的双重突破,包括采用顶级期刊来源、基于动态模型路由的 caption 重撰写方法以及多轮质量过滤流程。研究团队通过在 Qwen2.5-VL-3B 等模型上的微调实验验证了数据集的价值,在 MM-MT-Bench 和 MMMU 等评测基准上取得了显著性能提升。该数据集的开源旨在推动 AI 对科学多模态表达和深层逻辑的理解,促进 AI for Science 领域的发展。
💡 主要观点
- OmniScience 是一个旨在解决 AI 理解科学图像瓶颈的大规模、高质量多模态数据集。 该数据集包含 150 万组「图-文-上下文」数据,覆盖 10 个核心科学领域,通过严格的来源筛选和质量控制,专门针对科学文献中复杂的实验图、原理图等图像的理解难题。
💬 文章金句
- 如何让 AI 真正「读懂」科研文献中复杂的科学图像数据,已成为「AI for Science」领域的关键挑战。
- OmniScience 数据集不仅在规模上达到了新的高度,在专业覆盖度上也力求极致。
- 让 caption 在 Qwen3-VL-Reranker-8B 上测试的 reranker score 从 0.769 提升到 0.956,极大提高了图文的深层语义相关性。
- 希望 OmniScience 数据的开源,让模型不仅能看图说话,更能理解科学多模态表达和推理的深层逻辑。
📊 文章信息
AI 初评:87
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:6 分钟
字数:1256
标签: OmniScience, 多模态数据集, AI for Science, 科学图像理解, Uni-Parser