← 回總覽

VLA 大模型部署的成本被同济 ActDistill 打下来了!

📅 2026-05-09 11:22 PaperAgent 人工智能 2 分鐘 1351 字 評分: 82
VLA 知识蒸馏 具身智能 模型压缩 机器人
📌 一句话摘要 同济大学等机构提出的 ActDistill 方法,通过动作引导的知识蒸馏和动态路由,在不牺牲性能的前提下将 VLA 大模型的计算量压缩一半以上,实现最高 1.67 倍推理加速。 📝 详细摘要 本文介绍了同济大学等机构提出的 ActDistill 方法,旨在解决 VLA(Vision-Language-Action)大模型在机器人部署中面临的推理时延高、算力消耗大的问题。现有高效 VLA 方法多聚焦于优化视觉-语言处理链路,而忽视了从多模态理解到动作控制的关键转换。ActDistill 的核心创新在于:通过图结构封装显式建模教师模型中与动作相关的依赖关系,进行动作引导的知识蒸

📌 一句话摘要

同济大学等机构提出的 ActDistill 方法,通过动作引导的知识蒸馏和动态路由,在不牺牲性能的前提下将 VLA 大模型的计算量压缩一半以上,实现最高 1.67 倍推理加速。

📝 详细摘要

本文介绍了同济大学等机构提出的 ActDistill 方法,旨在解决 VLA(Vision-Language-Action)大模型在机器人部署中面临的推理时延高、算力消耗大的问题。现有高效 VLA 方法多聚焦于优化视觉-语言处理链路,而忽视了从多模态理解到动作控制的关键转换。ActDistill 的核心创新在于:通过图结构封装显式建模教师模型中与动作相关的依赖关系,进行动作引导的知识蒸馏,并引入动态路由机制在推理时按需激活计算层。实验结果表明,ActDistill 在 LIBERO 和 SIMPLER 等基准测试中可将计算量压缩约一半,获得最高 1.67 倍加速,且任务成功率基本持平。在真实 ARX5 机械臂上的验证显示,平均执行时间从 10.2 秒降至 6.3 秒,实现了约 1.62 倍加速。文章强调,ActDistill 的价值在于「有依据地少算」,即根据任务复杂度和动作需求动态分配计算资源,而非盲目压缩。

💡 主要观点

- 现有 VLA 加速方法忽视了从视觉语言理解到动作控制的关键链路。 许多方法优化视觉-语言处理,但未聚焦于模型内部如何将多模态理解转化为连续、可执行的动作,导致压缩后动作能力下降。

ActDistill 通过动作引导蒸馏和动态路由实现高效压缩。 方法包含三步:图结构封装显式建模动作依赖、动作引导蒸馏保留关键语义、动态路由按需激活计算层,确保压缩围绕动作决策进行。
ActDistill 在基准测试和真实机器人上均实现了显著加速且性能无损。 在 LIBERO 和 SIMPLER 上计算量减半,速度提升最高 1.67 倍;在 ARX5 机械臂上执行时间从 10.2 秒降至 6.3 秒,成功率持平。

💬 文章金句

- ActDistill 的目标并不是重新发明一个全新的 VLA,而是从已有强模型里抽出一套「动作经验」。

  • 高效不等于一直少算,而等于在对的时候算对的东西。
  • ActDistill 真正起作用的,不是「少算」,而是有依据地少算。

📊 文章信息

AI 初评:82

来源:PaperAgent

作者:PaperAgent

分类:人工智能

语言:中文

阅读时间:16 分钟

字数:3779

标签: VLA, 知识蒸馏, 具身智能, 模型压缩, 机器人

阅读完整文章

查看原文 → 發佈: 2026-05-09 11:22:00 收錄: 2026-05-09 22:00:16

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。