NUS、牛津等联合发布音视频智能综述：系统梳理大模型时代的 AVI 全景图

📌 一句话摘要

NUS、牛津等近 10 家机构联合发布音视频智能综述，系统梳理大模型时代 AVI 发展全貌，涵盖感知、生成与交互三大主线，揭示从单模态到跨模态的演进路径，并为未来研究与应用提供清晰方向。

📝 详细摘要

本文是对新加坡国立大学、牛津大学等机构联合发布的音视频智能综述的报道。该综述站在大基础模型视角，系统梳理了音视频智能领域的发展全貌。文章将 AVI 任务重新组织为理解世界、创造世界、与世界交互三条主线，涵盖了从 ASR、数字人、Foley 合成到音视频问答、空间音频、具身导航等十几个子方向。综述详细介绍了 AVI 的基础技术，包括音频与视觉表示、跨模态对齐、生成范式（VAE/GAN/Diffusion/AR/MAR）以及 LLM-centric 的设计选择。文章还探讨了 AVI 在智能体生态中的新角色，指出音视频正成为智能体表达环境状态和行动反馈的通用通道。最后，综述提出了未来六大研究轴，包括因果事件-声源 grounding、AV 世界模型、长程 AV 上下文记忆、可控生成、Verifier 与 Reward 生态以及交互式与负责任 AVI。

💡 主要观点

- AVI 领域正从单模态向跨模态演进，形成感知、生成、交互三大主线。 综述将散落在 ASR、数字人、Foley 合成等十几个子方向的工作重新组织为理解世界、创造世界、与世界交互三条主线，揭示了从单一任务到统一 backbone 的范式转变。

LLM-centric 架构成为 AVI 模型的主流设计选择。 单纯将音频特征拼接到视觉模型上已不足够，模型必须理解模态间依赖、时间结构和任务上下文，Decoder-only LLM + omni encoder 与 MoE 架构成为新趋势。

联合音视频生成中的音画同步与长时一致性仍是最大瓶颈。 虽然 MovieGen、Veo-3 等模型已能生成带原生音轨的视频，但跨场景物理合理性、跨语义身份一致性以及局部可控编辑仍是开放问题。

音视频智能正从辅助工具演变为大模型基础设施的核心组成部分。 在智能体生态中，音视频不仅是输入输出，更是表达环境状态、长期记忆和行动反馈的通用通道，擅长 AV 的模型在规划、工具使用中具有天然优势。

💬 文章金句

- 过去我们只让模型「对得上音和画」，现在的趋势正在转变——开发者更习惯于让一个 backbone 同时干完感知、生成与交互。

所谓「音视频智能」，并不是单点突破，而是整个训练体系长期协同演进的结果。
模型能不能做好音视频任务，取决于它能否处理真实场景的复杂依赖，而不仅仅是几个单段 benchmark 上的小提升。
随着 omni 模型与 VLA 框架不断成熟，音视频智能也正从「辅助工具」逐渐成为大模型基础设施的一部分。

📊 文章信息

AI 初评：86

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：18 分钟

字数：4276

标签：音视频智能, 多模态, 大模型, AVI, 综述

阅读完整文章

NUS、牛津等联合发布音视频智能综述：系统梳理大模型时代的 AVI 全景图

🤖 問 AI