← 回總覽

NUS、牛津等联合发布音视频智能综述:系统梳理大模型时代的 AVI 全景图

📅 2026-05-20 12:27 新智元 人工智能 2 分鐘 1555 字 評分: 86
音视频智能 多模态 大模型 AVI 综述
📌 一句话摘要 NUS、牛津等近 10 家机构联合发布音视频智能综述,系统梳理大模型时代 AVI 发展全貌,涵盖感知、生成与交互三大主线,揭示从单模态到跨模态的演进路径,并为未来研究与应用提供清晰方向。 📝 详细摘要 本文是对新加坡国立大学、牛津大学等机构联合发布的音视频智能综述的报道。该综述站在大基础模型视角,系统梳理了音视频智能领域的发展全貌。文章将 AVI 任务重新组织为理解世界、创造世界、与世界交互三条主线,涵盖了从 ASR、数字人、Foley 合成到音视频问答、空间音频、具身导航等十几个子方向。综述详细介绍了 AVI 的基础技术,包括音频与视觉表示、跨模态对齐、生成范式(VAE/

📌 一句话摘要

NUS、牛津等近 10 家机构联合发布音视频智能综述,系统梳理大模型时代 AVI 发展全貌,涵盖感知、生成与交互三大主线,揭示从单模态到跨模态的演进路径,并为未来研究与应用提供清晰方向。

📝 详细摘要

本文是对新加坡国立大学、牛津大学等机构联合发布的音视频智能综述的报道。该综述站在大基础模型视角,系统梳理了音视频智能领域的发展全貌。文章将 AVI 任务重新组织为理解世界、创造世界、与世界交互三条主线,涵盖了从 ASR、数字人、Foley 合成到音视频问答、空间音频、具身导航等十几个子方向。综述详细介绍了 AVI 的基础技术,包括音频与视觉表示、跨模态对齐、生成范式(VAE/GAN/Diffusion/AR/MAR)以及 LLM-centric 的设计选择。文章还探讨了 AVI 在智能体生态中的新角色,指出音视频正成为智能体表达环境状态和行动反馈的通用通道。最后,综述提出了未来六大研究轴,包括因果事件-声源 grounding、AV 世界模型、长程 AV 上下文记忆、可控生成、Verifier 与 Reward 生态以及交互式与负责任 AVI。

💡 主要观点

- AVI 领域正从单模态向跨模态演进,形成感知、生成、交互三大主线。 综述将散落在 ASR、数字人、Foley 合成等十几个子方向的工作重新组织为理解世界、创造世界、与世界交互三条主线,揭示了从单一任务到统一 backbone 的范式转变。

LLM-centric 架构成为 AVI 模型的主流设计选择。 单纯将音频特征拼接到视觉模型上已不足够,模型必须理解模态间依赖、时间结构和任务上下文,Decoder-only LLM + omni encoder 与 MoE 架构成为新趋势。
联合音视频生成中的音画同步与长时一致性仍是最大瓶颈。 虽然 MovieGen、Veo-3 等模型已能生成带原生音轨的视频,但跨场景物理合理性、跨语义身份一致性以及局部可控编辑仍是开放问题。
音视频智能正从辅助工具演变为大模型基础设施的核心组成部分。 在智能体生态中,音视频不仅是输入输出,更是表达环境状态、长期记忆和行动反馈的通用通道,擅长 AV 的模型在规划、工具使用中具有天然优势。

💬 文章金句

- 过去我们只让模型「对得上音和画」,现在的趋势正在转变——开发者更习惯于让一个 backbone 同时干完感知、生成与交互。

  • 所谓「音视频智能」,并不是单点突破,而是整个训练体系长期协同演进的结果。
  • 模型能不能做好音视频任务,取决于它能否处理真实场景的复杂依赖,而不仅仅是几个单段 benchmark 上的小提升。
  • 随着 omni 模型与 VLA 框架不断成熟,音视频智能也正从「辅助工具」逐渐成为大模型基础设施的一部分。

📊 文章信息

AI 初评:86

来源:新智元

作者:新智元

分类:人工智能

语言:中文

阅读时间:18 分钟

字数:4276

标签: 音视频智能, 多模态, 大模型, AVI, 综述

阅读完整文章

查看原文 → 發佈: 2026-05-20 12:27:00 收錄: 2026-05-20 20:00:58

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。