NUS、牛津等近 10 家机构联合发布音视频智能综述,系统梳理大模型时代 AVI 发展全貌,涵盖感知、生成与交互三大主线,揭示从单模态到跨模态的演进路径,并为未来研究与应用提供清晰方向。
📝 详细摘要
本文是对新加坡国立大学、牛津大学等机构联合发布的音视频智能综述的报道。该综述站在大基础模型视角,系统梳理了音视频智能领域的发展全貌。文章将 AVI 任务重新组织为理解世界、创造世界、与世界交互三条主线,涵盖了从 ASR、数字人、Foley 合成到音视频问答、空间音频、具身导航等十几个子方向。综述详细介绍了 AVI 的基础技术,包括音频与视觉表示、跨模态对齐、生成范式(VAE/GAN/Diffusion/AR/MAR)以及 LLM-centric 的设计选择。文章还探讨了 AVI 在智能体生态中的新角色,指出音视频正成为智能体表达环境状态和行动反馈的通用通道。最后,综述提出了未来六大研究轴,包括因果事件-声源 grounding、AV 世界模型、长程 AV 上下文记忆、可控生成、Verifier 与 Reward 生态以及交互式与负责任 AVI。
💡 主要观点
- AVI 领域正从单模态向跨模态演进,形成感知、生成、交互三大主线。 综述将散落在 ASR、数字人、Foley 合成等十几个子方向的工作重新组织为理解世界、创造世界、与世界交互三条主线,揭示了从单一任务到统一 backbone 的范式转变。
💬 文章金句
- 过去我们只让模型「对得上音和画」,现在的趋势正在转变——开发者更习惯于让一个 backbone 同时干完感知、生成与交互。
- 所谓「音视频智能」,并不是单点突破,而是整个训练体系长期协同演进的结果。
- 模型能不能做好音视频任务,取决于它能否处理真实场景的复杂依赖,而不仅仅是几个单段 benchmark 上的小提升。
- 随着 omni 模型与 VLA 框架不断成熟,音视频智能也正从「辅助工具」逐渐成为大模型基础设施的一部分。
📊 文章信息
AI 初评:86
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:18 分钟
字数:4276
标签: 音视频智能, 多模态, 大模型, AVI, 综述