上海交大、武大和 BIGAI 团队构建 v-HUB 基准,系统评测多模态大模型对无对白视频幽默的理解能力,发现模型依赖文字描述而非原始视听信号,在主动发现笑点上与人类存在显著差距。
📝 详细摘要
本文介绍了上海交通大学、武汉大学和北京通用人工智能研究院联合发表于 ACL 2026 的研究成果。团队构建了名为 v-HUB 的评测基准,包含 1218 条无对白短视频(含卓别林默片和现代用户生成内容),覆盖纯视觉、视觉加声音、视觉加文字、视觉加声音和文字四种模态组合。研究评测了 Gemini-2.5-Flash、GPT-4o、Qwen2.5-VL 等 7 个前沿多模态大模型,通过 Caption Matching、Humor Explanation 和 Open-ended QA 三类任务评估其视频幽默理解能力。核心发现包括:模型在 Text-Only 设置下表现远优于 Video-Only,说明其依赖文字描述而非原始画面理解幽默;模型能回答具体事实性问题,但难以主动识别笑点;环境声音对理解有帮助但效果有限;视觉文字和背景知识是重要补充线索;模型理解现代短视频优于理解默片幽默。研究揭示了当前多模态大模型从「看见视频」到「理解笑点」之间的显著差距。
💡 主要观点
- 模型依赖文字描述而非原始视听信号理解幽默。 在 Text-Only 设置下模型表现远优于 Video-Only,例如 Qwen2.5-VL 在开放问答任务上的得分从 0.760 降至 0.445,说明模型缺乏从原始画面中捕捉细微动作和反差的能力。
💬 文章金句
- 模型并不是完全不会推理幽默,而是很依赖别人先把视频「翻译」成文字。真正难的是第一步:从原始画面里捕捉细微动作、时间关系和反差。
- 这就像一个人能回答「画面里有一只猫」,并不代表他理解「猫像台球高手一样把球推进洞里」为什么好笑。
- 真正的人类式幽默理解,往往发生在没有提示的瞬间:看到一个动作、听到一个声音、读到一行字,然后立刻意识到「不对劲但很好笑」。
- 视频幽默不是孤立的视觉识别任务,它还牵涉文化、年代、常识和表达习惯。
📊 文章信息
AI 初评:85
来源:AI科技评论
作者:AI科技评论
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4001
标签: 多模态大模型, 幽默理解, v-HUB, 评测基准, ACL 2026