VLA 大模型部署的成本被同济 ActDistill 打下来了！

📌 一句话摘要

同济大学等机构提出的 ActDistill 方法，通过动作引导的知识蒸馏和动态路由，在不牺牲性能的前提下将 VLA 大模型的计算量压缩一半以上，实现最高 1.67 倍推理加速。

📝 详细摘要

本文介绍了同济大学等机构提出的 ActDistill 方法，旨在解决 VLA（Vision-Language-Action）大模型在机器人部署中面临的推理时延高、算力消耗大的问题。现有高效 VLA 方法多聚焦于优化视觉-语言处理链路，而忽视了从多模态理解到动作控制的关键转换。ActDistill 的核心创新在于：通过图结构封装显式建模教师模型中与动作相关的依赖关系，进行动作引导的知识蒸馏，并引入动态路由机制在推理时按需激活计算层。实验结果表明，ActDistill 在 LIBERO 和 SIMPLER 等基准测试中可将计算量压缩约一半，获得最高 1.67 倍加速，且任务成功率基本持平。在真实 ARX5 机械臂上的验证显示，平均执行时间从 10.2 秒降至 6.3 秒，实现了约 1.62 倍加速。文章强调，ActDistill 的价值在于「有依据地少算」，即根据任务复杂度和动作需求动态分配计算资源，而非盲目压缩。

💡 主要观点

- 现有 VLA 加速方法忽视了从视觉语言理解到动作控制的关键链路。 许多方法优化视觉-语言处理，但未聚焦于模型内部如何将多模态理解转化为连续、可执行的动作，导致压缩后动作能力下降。

ActDistill 通过动作引导蒸馏和动态路由实现高效压缩。 方法包含三步：图结构封装显式建模动作依赖、动作引导蒸馏保留关键语义、动态路由按需激活计算层，确保压缩围绕动作决策进行。

ActDistill 在基准测试和真实机器人上均实现了显著加速且性能无损。 在 LIBERO 和 SIMPLER 上计算量减半，速度提升最高 1.67 倍；在 ARX5 机械臂上执行时间从 10.2 秒降至 6.3 秒，成功率持平。

💬 文章金句

- ActDistill 的目标并不是重新发明一个全新的 VLA，而是从已有强模型里抽出一套「动作经验」。

高效不等于一直少算，而等于在对的时候算对的东西。
ActDistill 真正起作用的，不是「少算」，而是有依据地少算。

📊 文章信息

AI 初评：82

来源：PaperAgent

作者：PaperAgent

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3779

标签： VLA, 知识蒸馏, 具身智能, 模型压缩, 机器人

阅读完整文章

VLA 大模型部署的成本被同济 ActDistill 打下来了！

🤖 問 AI