南京大学傅朝友团队发布视频理解新基准 Video-MME-v2,通过创新的三层能力体系与组级非线性评分,揭示了当前最强视频模型与人类专家在严格评测下存在巨大差距,并发现「思维链」增益高度依赖文本线索。
📝 详细摘要
文章报道了南京大学傅朝友团队在 Google Gemini 评测团队邀约下,发布的新一代视频理解评测基准 Video-MME-v2。该基准旨在解决现有大模型评测分数饱和但与真实体验脱节的问题。其核心创新在于:1)构建了逐层递进的三层能力体系(信息检索、时序理解、复杂推理);2)引入了组级评测与非线性评分机制,强调模型在相关问题上的能力一致性与推理连贯性,而非单题正确率。评测结果显示,人类专家非线性得分 90.7,而当前最强商业模型 Gemini-3-Pro 仅得 49.4,开源模型 Qwen 最佳为 39.1,差距显著。文章还指出,模型从基础层到复杂推理层性能递减,且「思维链」技术的增益并非无条件,高度依赖文本线索,在纯视觉场景下甚至可能导致性能退化。该工作投入超过 3300 人工时进行高质量标注,其前作 Video-MME 在 CVPR 2025 所有录用论文中影响力排名第一。
💡 主要观点
- 现有大模型评测分数趋于饱和,但与真实能力体验存在显著差距。 文章指出,尽管各类 Benchmark 分数很高,但模型的实际视频理解能力远未达到人类水平,催生了更严格、更贴近真实理解的新评测基准 Video-MME-v2。
💬 文章金句
- 现有大模型评测分数日趋饱和,但与真实体验差距显著。
- Video-MME-v2 的第一个核心设计,是把视频理解拆成一个逐层递进的三层能力体系。
- 评测结果显示:人类专家的非线性得分为 90.7(传统 Acc 为 94.9),而当前最强的商业模型 Gemini-3-Pro 得分仅为 49.4。
- 说明高层复杂推理的薄弱,并不只是「推理模块不够强」,而往往是前面的信息聚合和时序建模已经出了问题,最终层层累积,拖垮了复杂理解。
- Thinking 的收益不是无条件成立的,它高度依赖文本线索。
📊 文章信息
AI 初评:91
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3831
标签: 多模态大模型, 视频理解, 评测基准, 南京大学, Video-MME