谷歌最强具身大脑发布！波士顿机器狗瞬间人模人样

📌 一句话摘要

Google DeepMind 发布了其第三代机器人推理模型 Gemini Robotics-ER 1.6，该模型显著提升了空间推理、物体计数和任务成功检测能力，并新增了高精度的仪表识别功能，旨在成为机器人的高层大脑。

📝 详细摘要

本文报道了 Google DeepMind 最新发布的机器人推理模型 Gemini Robotics-ER 1.6。作为该系列的第三代模型，ER 1.6 定位为机器人的「高层大脑」，专注于环境理解、任务规划和工具调用，而非直接控制机械动作。核心升级包括：1) 新增高精度仪表识别能力，通过放大、Pointing 定位和世界知识解释三步法，将识别成功率从 ER 1.5 的 23% 提升至 93%；2) 强化了 Pointing 能力，能准确识别和计数物体，避免「幻觉」；3) 增强了多视角推理下的任务成功检测能力，使机器人能更可靠地判断任务完成状态。文章还介绍了该模型在安全约束遵循方面的提升，并回顾了谷歌与波士顿动力分合合的背景，指出谷歌旨在成为「机器人领域的 Android」。

💡 主要观点

- ER 1.6 是机器人的「高层大脑」，专注于高级推理而非底层控制。 模型负责理解环境、制定计划、调用工具（如谷歌搜索、VLA 或自定义函数），将复杂的物理世界任务分解为可执行的步骤。

模型新增了高精度的仪表识别能力，是工业自动化的重要突破。 通过「放大-定位-解释」三步法，结合 Pointing 能力和世界知识，ER 1.6 将仪表识别成功率从 23% 大幅提升至 93%，使机器人能自主监控工业设施。

Pointing 能力和任务成功检测的强化，提升了机器人的自主性和可靠性。 ER 1.6 能更准确地识别、计数物体并避免幻觉，同时能通过多视角推理可靠判断任务是否完成，这是实现完全自主操作的关键。

谷歌的战略是提供机器人「大脑」，而非制造硬件本身。 通过与波士顿动力等硬件厂商合作，谷歌希望将 Gemini Robotics 部署到各类机器人平台上，成为类似 Android 的通用底层智能系统。

💬 文章金句

- 机器人要真正有用，就必须不只是执行指令，而是要对物理世界进行推理。

ER 1.6 的核心升级围绕一件事，让机器人真正「看懂」它所处的环境。
仪表识别等能力和更可靠的任务推理，将使 Spot 能够完全自主地观察、理解并应对现实世界的挑战。
哈萨比斯的说法是，谷歌不做硬件，要成为「机器人领域的 Android」，给所有机器人厂商提供大脑。

📊 文章信息

AI 初评：88

来源：量子位

作者：henry

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1892

标签： Gemini Robotics, 机器人, 具身智能, 空间推理, Google DeepMind

阅读完整文章

谷歌最强具身大脑发布！波士顿机器狗瞬间人模人样

🤖 問 AI