Google DeepMind 发布了其第三代机器人推理模型 Gemini Robotics-ER 1.6,该模型显著提升了空间推理、物体计数和任务成功检测能力,并新增了高精度的仪表识别功能,旨在成为机器人的高层大脑。
📝 详细摘要
本文报道了 Google DeepMind 最新发布的机器人推理模型 Gemini Robotics-ER 1.6。作为该系列的第三代模型,ER 1.6 定位为机器人的「高层大脑」,专注于环境理解、任务规划和工具调用,而非直接控制机械动作。核心升级包括:1) 新增高精度仪表识别能力,通过放大、Pointing 定位和世界知识解释三步法,将识别成功率从 ER 1.5 的 23% 提升至 93%;2) 强化了 Pointing 能力,能准确识别和计数物体,避免「幻觉」;3) 增强了多视角推理下的任务成功检测能力,使机器人能更可靠地判断任务完成状态。文章还介绍了该模型在安全约束遵循方面的提升,并回顾了谷歌与波士顿动力分合合的背景,指出谷歌旨在成为「机器人领域的 Android」。
💡 主要观点
- ER 1.6 是机器人的「高层大脑」,专注于高级推理而非底层控制。 模型负责理解环境、制定计划、调用工具(如谷歌搜索、VLA 或自定义函数),将复杂的物理世界任务分解为可执行的步骤。
💬 文章金句
- 机器人要真正有用,就必须不只是执行指令,而是要对物理世界进行推理。
- ER 1.6 的核心升级围绕一件事,让机器人真正「看懂」它所处的环境。
- 仪表识别等能力和更可靠的任务推理,将使 Spot 能够完全自主地观察、理解并应对现实世界的挑战。
- 哈萨比斯的说法是,谷歌不做硬件,要成为「机器人领域的 Android」,给所有机器人厂商提供大脑。
📊 文章信息
AI 初评:88
来源:量子位
作者:henry
分类:人工智能
语言:中文
阅读时间:8 分钟
字数:1892
标签: Gemini Robotics, 机器人, 具身智能, 空间推理, Google DeepMind