← 回總覽

南大团队直击大模型高分神话:人类 90 分,最强模型仅 49 分

📅 2026-04-13 12:04 新智元 人工智能 2 分鐘 1582 字 評分: 91
多模态大模型 视频理解 评测基准 南京大学 Video-MME
📌 一句话摘要 南京大学傅朝友团队发布视频理解新基准 Video-MME-v2,通过创新的三层能力体系与组级非线性评分,揭示了当前最强视频模型与人类专家在严格评测下存在巨大差距,并发现「思维链」增益高度依赖文本线索。 📝 详细摘要 文章报道了南京大学傅朝友团队在 Google Gemini 评测团队邀约下,发布的新一代视频理解评测基准 Video-MME-v2。该基准旨在解决现有大模型评测分数饱和但与真实体验脱节的问题。其核心创新在于:1)构建了逐层递进的三层能力体系(信息检索、时序理解、复杂推理);2)引入了组级评测与非线性评分机制,强调模型在相关问题上的能力一致性与推理连贯性,而非单题

📌 一句话摘要

南京大学傅朝友团队发布视频理解新基准 Video-MME-v2,通过创新的三层能力体系与组级非线性评分,揭示了当前最强视频模型与人类专家在严格评测下存在巨大差距,并发现「思维链」增益高度依赖文本线索。

📝 详细摘要

文章报道了南京大学傅朝友团队在 Google Gemini 评测团队邀约下,发布的新一代视频理解评测基准 Video-MME-v2。该基准旨在解决现有大模型评测分数饱和但与真实体验脱节的问题。其核心创新在于:1)构建了逐层递进的三层能力体系(信息检索、时序理解、复杂推理);2)引入了组级评测与非线性评分机制,强调模型在相关问题上的能力一致性与推理连贯性,而非单题正确率。评测结果显示,人类专家非线性得分 90.7,而当前最强商业模型 Gemini-3-Pro 仅得 49.4,开源模型 Qwen 最佳为 39.1,差距显著。文章还指出,模型从基础层到复杂推理层性能递减,且「思维链」技术的增益并非无条件,高度依赖文本线索,在纯视觉场景下甚至可能导致性能退化。该工作投入超过 3300 人工时进行高质量标注,其前作 Video-MME 在 CVPR 2025 所有录用论文中影响力排名第一。

💡 主要观点

- 现有大模型评测分数趋于饱和,但与真实能力体验存在显著差距。 文章指出,尽管各类 Benchmark 分数很高,但模型的实际视频理解能力远未达到人类水平,催生了更严格、更贴近真实理解的新评测基准 Video-MME-v2。

Video-MME-v2 通过三层能力体系与组级非线性评分,更真实地衡量模型能力。 基准将视频理解拆解为信息检索、时序理解、复杂推理三层,并采用组级评测(考察能力一致性与推理连贯性)和非线性评分,有效暴露了模型在稳定性和鲁棒性上的短板。
评测结果揭示最强模型与人类存在巨大鸿沟,且高层推理能力薄弱源于底层基础不牢。 人类得分 90.7,而最强模型 Gemini-3-Pro 仅 49.4。模型从 Level 1 到 Level 3 性能递减,说明复杂推理的失败往往源于底层信息聚合和时序建模已出现问题。
「思维链」技术的有效性高度依赖文本线索,在纯视觉场景下可能失效甚至带来负面影响。 实验发现,开启 Thinking 后,模型在有字幕时提升明显,但在纯视觉设定下,部分模型性能不升反降,表明其推理仍更依赖语言锚点,而非稳定的跨模态证据抽取。

💬 文章金句

- 现有大模型评测分数日趋饱和,但与真实体验差距显著。

  • Video-MME-v2 的第一个核心设计,是把视频理解拆成一个逐层递进的三层能力体系。
  • 评测结果显示:人类专家的非线性得分为 90.7(传统 Acc 为 94.9),而当前最强的商业模型 Gemini-3-Pro 得分仅为 49.4。
  • 说明高层复杂推理的薄弱,并不只是「推理模块不够强」,而往往是前面的信息聚合和时序建模已经出了问题,最终层层累积,拖垮了复杂理解。
  • Thinking 的收益不是无条件成立的,它高度依赖文本线索。

📊 文章信息

AI 初评:91

来源:新智元

作者:新智元

分类:人工智能

语言:中文

阅读时间:16 分钟

字数:3831

标签: 多模态大模型, 视频理解, 评测基准, 南京大学, Video-MME

阅读完整文章

查看原文 → 發佈: 2026-04-13 12:04:00 收錄: 2026-04-13 18:00:41

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。