← 回總覽

AI 会笑吗?BIGAI & 上交大团队:多模态大模型是否真的能 get 到视频笑点|ACL 2026

📅 2026-05-12 18:01 AI科技评论 人工智能 2 分鐘 1598 字 評分: 85
多模态大模型 幽默理解 v-HUB 评测基准 ACL 2026
📌 一句话摘要 上海交大、武大和 BIGAI 团队构建 v-HUB 基准,系统评测多模态大模型对无对白视频幽默的理解能力,发现模型依赖文字描述而非原始视听信号,在主动发现笑点上与人类存在显著差距。 📝 详细摘要 本文介绍了上海交通大学、武汉大学和北京通用人工智能研究院联合发表于 ACL 2026 的研究成果。团队构建了名为 v-HUB 的评测基准,包含 1218 条无对白短视频(含卓别林默片和现代用户生成内容),覆盖纯视觉、视觉加声音、视觉加文字、视觉加声音和文字四种模态组合。研究评测了 Gemini-2.5-Flash、GPT-4o、Qwen2.5-VL 等 7 个前沿多模态大模型,通过

📌 一句话摘要

上海交大、武大和 BIGAI 团队构建 v-HUB 基准,系统评测多模态大模型对无对白视频幽默的理解能力,发现模型依赖文字描述而非原始视听信号,在主动发现笑点上与人类存在显著差距。

📝 详细摘要

本文介绍了上海交通大学、武汉大学和北京通用人工智能研究院联合发表于 ACL 2026 的研究成果。团队构建了名为 v-HUB 的评测基准,包含 1218 条无对白短视频(含卓别林默片和现代用户生成内容),覆盖纯视觉、视觉加声音、视觉加文字、视觉加声音和文字四种模态组合。研究评测了 Gemini-2.5-Flash、GPT-4o、Qwen2.5-VL 等 7 个前沿多模态大模型,通过 Caption Matching、Humor Explanation 和 Open-ended QA 三类任务评估其视频幽默理解能力。核心发现包括:模型在 Text-Only 设置下表现远优于 Video-Only,说明其依赖文字描述而非原始画面理解幽默;模型能回答具体事实性问题,但难以主动识别笑点;环境声音对理解有帮助但效果有限;视觉文字和背景知识是重要补充线索;模型理解现代短视频优于理解默片幽默。研究揭示了当前多模态大模型从「看见视频」到「理解笑点」之间的显著差距。

💡 主要观点

- 模型依赖文字描述而非原始视听信号理解幽默。 在 Text-Only 设置下模型表现远优于 Video-Only,例如 Qwen2.5-VL 在开放问答任务上的得分从 0.760 降至 0.445,说明模型缺乏从原始画面中捕捉细微动作和反差的能力。

模型能答题但难以主动发现笑点。 模型在开放问答任务上表现优于幽默解释任务,因为前者有具体问题引导注意力,而后者需要模型自主判断哪些元素构成笑点,暴露了主动推理能力的不足。
环境声音和视觉文字是重要但有限的补充线索。 加入声音后部分模型表现提升,如 MiniCPM2.6-o 在 Caption Matching 上从 0.362 提升至 0.442;视觉文字也能显著帮助模型理解,但两者均无法完全弥补视觉理解的短板。
模型理解现代短视频优于理解默片幽默。 卓别林默片依赖肢体表演、时代语境和经典喜剧结构,对模型而言比现代短视频更难,说明模型对文化背景和时代差异的把握仍然有限。

💬 文章金句

- 模型并不是完全不会推理幽默,而是很依赖别人先把视频「翻译」成文字。真正难的是第一步:从原始画面里捕捉细微动作、时间关系和反差。

  • 这就像一个人能回答「画面里有一只猫」,并不代表他理解「猫像台球高手一样把球推进洞里」为什么好笑。
  • 真正的人类式幽默理解,往往发生在没有提示的瞬间:看到一个动作、听到一个声音、读到一行字,然后立刻意识到「不对劲但很好笑」。
  • 视频幽默不是孤立的视觉识别任务,它还牵涉文化、年代、常识和表达习惯。

📊 文章信息

AI 初评:85

来源:AI科技评论

作者:AI科技评论

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4001

标签: 多模态大模型, 幽默理解, v-HUB, 评测基准, ACL 2026

阅读完整文章

查看原文 → 發佈: 2026-05-12 18:01:00 收錄: 2026-05-12 22:00:08

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。