← 回總覽

谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样

📅 2026-04-17 15:08 henry 人工智能 2 分鐘 1396 字 評分: 88
Gemini Robotics 机器人 具身智能 空间推理 Google DeepMind
📌 一句话摘要 Google DeepMind 发布了其第三代机器人推理模型 Gemini Robotics-ER 1.6,该模型显著提升了空间推理、物体计数和任务成功检测能力,并新增了高精度的仪表识别功能,旨在成为机器人的高层大脑。 📝 详细摘要 本文报道了 Google DeepMind 最新发布的机器人推理模型 Gemini Robotics-ER 1.6。作为该系列的第三代模型,ER 1.6 定位为机器人的「高层大脑」,专注于环境理解、任务规划和工具调用,而非直接控制机械动作。核心升级包括:1) 新增高精度仪表识别能力,通过放大、Pointing 定位和世界知识解释三步法,将识别成

📌 一句话摘要

Google DeepMind 发布了其第三代机器人推理模型 Gemini Robotics-ER 1.6,该模型显著提升了空间推理、物体计数和任务成功检测能力,并新增了高精度的仪表识别功能,旨在成为机器人的高层大脑。

📝 详细摘要

本文报道了 Google DeepMind 最新发布的机器人推理模型 Gemini Robotics-ER 1.6。作为该系列的第三代模型,ER 1.6 定位为机器人的「高层大脑」,专注于环境理解、任务规划和工具调用,而非直接控制机械动作。核心升级包括:1) 新增高精度仪表识别能力,通过放大、Pointing 定位和世界知识解释三步法,将识别成功率从 ER 1.5 的 23% 提升至 93%;2) 强化了 Pointing 能力,能准确识别和计数物体,避免「幻觉」;3) 增强了多视角推理下的任务成功检测能力,使机器人能更可靠地判断任务完成状态。文章还介绍了该模型在安全约束遵循方面的提升,并回顾了谷歌与波士顿动力分合合的背景,指出谷歌旨在成为「机器人领域的 Android」。

💡 主要观点

- ER 1.6 是机器人的「高层大脑」,专注于高级推理而非底层控制。 模型负责理解环境、制定计划、调用工具(如谷歌搜索、VLA 或自定义函数),将复杂的物理世界任务分解为可执行的步骤。

模型新增了高精度的仪表识别能力,是工业自动化的重要突破。 通过「放大-定位-解释」三步法,结合 Pointing 能力和世界知识,ER 1.6 将仪表识别成功率从 23% 大幅提升至 93%,使机器人能自主监控工业设施。
Pointing 能力和任务成功检测的强化,提升了机器人的自主性和可靠性。 ER 1.6 能更准确地识别、计数物体并避免幻觉,同时能通过多视角推理可靠判断任务是否完成,这是实现完全自主操作的关键。
谷歌的战略是提供机器人「大脑」,而非制造硬件本身。 通过与波士顿动力等硬件厂商合作,谷歌希望将 Gemini Robotics 部署到各类机器人平台上,成为类似 Android 的通用底层智能系统。

💬 文章金句

- 机器人要真正有用,就必须不只是执行指令,而是要对物理世界进行推理。

  • ER 1.6 的核心升级围绕一件事,让机器人真正「看懂」它所处的环境。
  • 仪表识别等能力和更可靠的任务推理,将使 Spot 能够完全自主地观察、理解并应对现实世界的挑战。
  • 哈萨比斯的说法是,谷歌不做硬件,要成为「机器人领域的 Android」,给所有机器人厂商提供大脑。

📊 文章信息

AI 初评:88

来源:量子位

作者:henry

分类:人工智能

语言:中文

阅读时间:8 分钟

字数:1892

标签: Gemini Robotics, 机器人, 具身智能, 空间推理, Google DeepMind

阅读完整文章

查看原文 → 發佈: 2026-04-17 15:08:17 收錄: 2026-04-17 18:00:57

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。