南大团队直击大模型高分神话：人类 90 分，最强模型仅 49 分

📌 一句话摘要

南京大学傅朝友团队发布视频理解新基准 Video-MME-v2，通过创新的三层能力体系与组级非线性评分，揭示了当前最强视频模型与人类专家在严格评测下存在巨大差距，并发现「思维链」增益高度依赖文本线索。

📝 详细摘要

文章报道了南京大学傅朝友团队在 Google Gemini 评测团队邀约下，发布的新一代视频理解评测基准 Video-MME-v2。该基准旨在解决现有大模型评测分数饱和但与真实体验脱节的问题。其核心创新在于：1）构建了逐层递进的三层能力体系（信息检索、时序理解、复杂推理）；2）引入了组级评测与非线性评分机制，强调模型在相关问题上的能力一致性与推理连贯性，而非单题正确率。评测结果显示，人类专家非线性得分 90.7，而当前最强商业模型 Gemini-3-Pro 仅得 49.4，开源模型 Qwen 最佳为 39.1，差距显著。文章还指出，模型从基础层到复杂推理层性能递减，且「思维链」技术的增益并非无条件，高度依赖文本线索，在纯视觉场景下甚至可能导致性能退化。该工作投入超过 3300 人工时进行高质量标注，其前作 Video-MME 在 CVPR 2025 所有录用论文中影响力排名第一。

💡 主要观点

- 现有大模型评测分数趋于饱和，但与真实能力体验存在显著差距。 文章指出，尽管各类 Benchmark 分数很高，但模型的实际视频理解能力远未达到人类水平，催生了更严格、更贴近真实理解的新评测基准 Video-MME-v2。

Video-MME-v2 通过三层能力体系与组级非线性评分，更真实地衡量模型能力。 基准将视频理解拆解为信息检索、时序理解、复杂推理三层，并采用组级评测（考察能力一致性与推理连贯性）和非线性评分，有效暴露了模型在稳定性和鲁棒性上的短板。

评测结果揭示最强模型与人类存在巨大鸿沟，且高层推理能力薄弱源于底层基础不牢。 人类得分 90.7，而最强模型 Gemini-3-Pro 仅 49.4。模型从 Level 1 到 Level 3 性能递减，说明复杂推理的失败往往源于底层信息聚合和时序建模已出现问题。

「思维链」技术的有效性高度依赖文本线索，在纯视觉场景下可能失效甚至带来负面影响。 实验发现，开启 Thinking 后，模型在有字幕时提升明显，但在纯视觉设定下，部分模型性能不升反降，表明其推理仍更依赖语言锚点，而非稳定的跨模态证据抽取。

💬 文章金句

- 现有大模型评测分数日趋饱和，但与真实体验差距显著。

Video-MME-v2 的第一个核心设计，是把视频理解拆成一个逐层递进的三层能力体系。
评测结果显示：人类专家的非线性得分为 90.7（传统 Acc 为 94.9），而当前最强的商业模型 Gemini-3-Pro 得分仅为 49.4。
说明高层复杂推理的薄弱，并不只是「推理模块不够强」，而往往是前面的信息聚合和时序建模已经出了问题，最终层层累积，拖垮了复杂理解。
Thinking 的收益不是无条件成立的，它高度依赖文本线索。

📊 文章信息

AI 初评：91

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3831

标签：多模态大模型, 视频理解, 评测基准, 南京大学, Video-MME

阅读完整文章

南大团队直击大模型高分神话：人类 90 分，最强模型仅 49 分

🤖 問 AI