AI 会笑吗？BIGAI & 上交大团队：多模态大模型是否真的能 get 到视频笑点｜ACL 2026

📌 一句话摘要

上海交大、武大和 BIGAI 团队构建 v-HUB 基准，系统评测多模态大模型对无对白视频幽默的理解能力，发现模型依赖文字描述而非原始视听信号，在主动发现笑点上与人类存在显著差距。

📝 详细摘要

本文介绍了上海交通大学、武汉大学和北京通用人工智能研究院联合发表于 ACL 2026 的研究成果。团队构建了名为 v-HUB 的评测基准，包含 1218 条无对白短视频（含卓别林默片和现代用户生成内容），覆盖纯视觉、视觉加声音、视觉加文字、视觉加声音和文字四种模态组合。研究评测了 Gemini-2.5-Flash、GPT-4o、Qwen2.5-VL 等 7 个前沿多模态大模型，通过 Caption Matching、Humor Explanation 和 Open-ended QA 三类任务评估其视频幽默理解能力。核心发现包括：模型在 Text-Only 设置下表现远优于 Video-Only，说明其依赖文字描述而非原始画面理解幽默；模型能回答具体事实性问题，但难以主动识别笑点；环境声音对理解有帮助但效果有限；视觉文字和背景知识是重要补充线索；模型理解现代短视频优于理解默片幽默。研究揭示了当前多模态大模型从「看见视频」到「理解笑点」之间的显著差距。

💡 主要观点

- 模型依赖文字描述而非原始视听信号理解幽默。 在 Text-Only 设置下模型表现远优于 Video-Only，例如 Qwen2.5-VL 在开放问答任务上的得分从 0.760 降至 0.445，说明模型缺乏从原始画面中捕捉细微动作和反差的能力。

模型能答题但难以主动发现笑点。 模型在开放问答任务上表现优于幽默解释任务，因为前者有具体问题引导注意力，而后者需要模型自主判断哪些元素构成笑点，暴露了主动推理能力的不足。

环境声音和视觉文字是重要但有限的补充线索。 加入声音后部分模型表现提升，如 MiniCPM2.6-o 在 Caption Matching 上从 0.362 提升至 0.442；视觉文字也能显著帮助模型理解，但两者均无法完全弥补视觉理解的短板。

模型理解现代短视频优于理解默片幽默。 卓别林默片依赖肢体表演、时代语境和经典喜剧结构，对模型而言比现代短视频更难，说明模型对文化背景和时代差异的把握仍然有限。

💬 文章金句

- 模型并不是完全不会推理幽默，而是很依赖别人先把视频「翻译」成文字。真正难的是第一步：从原始画面里捕捉细微动作、时间关系和反差。

这就像一个人能回答「画面里有一只猫」，并不代表他理解「猫像台球高手一样把球推进洞里」为什么好笑。
真正的人类式幽默理解，往往发生在没有提示的瞬间：看到一个动作、听到一个声音、读到一行字，然后立刻意识到「不对劲但很好笑」。
视频幽默不是孤立的视觉识别任务，它还牵涉文化、年代、常识和表达习惯。

📊 文章信息

AI 初评：85

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4001

标签：多模态大模型, 幽默理解, v-HUB, 评测基准, ACL 2026

阅读完整文章

AI 会笑吗？BIGAI & 上交大团队：多模态大模型是否真的能 get 到视频笑点｜ACL 2026

🤖 問 AI