同济大学等机构提出的 ActDistill 方法,通过动作引导的知识蒸馏和动态路由,在不牺牲性能的前提下将 VLA 大模型的计算量压缩一半以上,实现最高 1.67 倍推理加速。
📝 详细摘要
本文介绍了同济大学等机构提出的 ActDistill 方法,旨在解决 VLA(Vision-Language-Action)大模型在机器人部署中面临的推理时延高、算力消耗大的问题。现有高效 VLA 方法多聚焦于优化视觉-语言处理链路,而忽视了从多模态理解到动作控制的关键转换。ActDistill 的核心创新在于:通过图结构封装显式建模教师模型中与动作相关的依赖关系,进行动作引导的知识蒸馏,并引入动态路由机制在推理时按需激活计算层。实验结果表明,ActDistill 在 LIBERO 和 SIMPLER 等基准测试中可将计算量压缩约一半,获得最高 1.67 倍加速,且任务成功率基本持平。在真实 ARX5 机械臂上的验证显示,平均执行时间从 10.2 秒降至 6.3 秒,实现了约 1.62 倍加速。文章强调,ActDistill 的价值在于「有依据地少算」,即根据任务复杂度和动作需求动态分配计算资源,而非盲目压缩。
💡 主要观点
- 现有 VLA 加速方法忽视了从视觉语言理解到动作控制的关键链路。 许多方法优化视觉-语言处理,但未聚焦于模型内部如何将多模态理解转化为连续、可执行的动作,导致压缩后动作能力下降。
💬 文章金句
- ActDistill 的目标并不是重新发明一个全新的 VLA,而是从已有强模型里抽出一套「动作经验」。
- 高效不等于一直少算,而等于在对的时候算对的东西。
- ActDistill 真正起作用的,不是「少算」,而是有依据地少算。
📊 文章信息
AI 初评:82
来源:PaperAgent
作者:PaperAgent
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3779
标签: VLA, 知识蒸馏, 具身智能, 模型压缩, 机器人