ICLR 2026 | 机器人不够聪明？VLMgineer 让大模型自己「发明工具」，从设计到使用全自动

📌 一句话摘要

宾夕法尼亚大学研究团队提出 VLMgineer 框架，利用视觉语言模型（VLM）和进化搜索实现机器人工具设计与操作动作的全自动协同优化。

📝 详细摘要

本文详细介绍了被 ICLR 2026 接收的研究成果 VLMgineer。该框架旨在解决机器人因硬件限制难以完成复杂任务的问题，核心思路是将控制复杂度转移到工具几何形状中。VLMgineer 采用端到端由 VLM 驱动的流程，通过工具-动作联合采样生成设计方案，利用 PyBullet 仿真器进行评估，并结合 VLM 引导的进化搜索（变异与交叉）不断迭代优化。研究团队还推出了 RoboToolBench 基准测试，实验证明 VLMgineer 在 12 项任务中的表现均优于人类专家设计的方案，并成功在真实 Franka Panda 机器人上完成了 3D 打印工具的实机验证，展示了 AI 在物理世界中的创造力。

💡 主要观点

- 将任务复杂度从控制策略转移到工具的几何形状设计中。 传统方法通过复杂算法弥补硬件不足，而 VLMgineer 通过设计形状合理的工具（如取物钩、护框），将精密操控简化为基础动作，降低了控制难度。

采用 VLM 驱动的工具几何与操作动作联合采样机制。 框架让 VLM 在单次推理中同步生成工具的 URDF 描述和机器人的 6-DoF 路径点，利用 VLM 的物理直觉确保工具形状与动作策略的天然协同。

引入基于 VLM 引导的进化搜索以实现设计方案的闭环优化。 系统将仿真评估中的精英设计反馈给 VLM，通过归纳式上下文变异与交叉产生新一代设计，利用 VLM 的世界知识驱动工具结构的迭代进化。

通过 RoboToolBench 验证了 AI 在物理交互中的自主创造力。 在 12 项极具挑战的任务中，VLMgineer 进化出的工具在性能上一致优于人类提示的设计，证明了 VLM 能够从零开始发明功能合理的物理工具。

💬 文章金句

- 能不能让工具本身更合适，从而让控制变得更简单？这才是另一种形式的“物理智慧”。

VLMgineer 的核心思想可以概括为一句话：让大模型当“工具设计师”，让进化搜索当“质检员”。
工具的形状天然约束并赋能了动作策略——一个设计合理的工具可以让控制变得更加简单。
人类设计的工具虽然在直觉上合理，但往往需要更精密的控制策略；而 VLMgineer 的设计倾向于在几何上做更多文章。
当机器人不仅能使用工具，还能自主设计工具时，我们或许离真正通用的物理智能又近了一步。

📊 文章信息

AI 评分：84

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：18 分钟

字数：4341

标签：机器人学, 视觉语言模型, VLMgineer, 具身智能, 进化搜索

阅读完整文章

ICLR 2026 | 机器人不够聪明？VLMgineer 让大模型自己「发明工具」，从设计到使用全自动

🤖 問 AI