速腾聚创副总裁杨先声在 ICRA 2026 上介绍其全新机器人视觉感知架构,该架构在物理层面实现深度探测与 RGB 的天然对齐,旨在打破传统 3D 相机在稳定、距离、精度上的不可能三角,为具身智能提供更可靠的感知基础。
📝 详细摘要
本文是 AI 科技评论在 ICRA 2026 现场对速腾聚创副总裁杨先声的专访。杨先声指出,当前机器人行业在感知层面存在核心卡点:传统 3D 相机(双目结构光、ToF 等)在复杂环境中不稳定、测距短、精度低,且无法实现 RGBD 像素级对齐,导致机器人精细操作速度慢、泛化能力受限。速腾聚创展示了一套全新的视觉感知架构,其核心优势在于从物理层面实现了深度信息与颜色信息的天然对齐,无需后期算法校准,从而大幅提升精度、可靠性和数据质量。该架构基于速腾自研的 SPAD-SoC 数字化架构,具备高集成度、高线数(几百至上千线)的优势,相比传统方案更节省算力、降低延迟。杨先声认为,解决机器人感知问题是关键第一步,高质量的 3D 空间数据将显著降低训练成本并加速物理 AI 进化。他还探讨了纯视觉方案与激光雷达方案的差异,以及触觉感知面临的更大挑战。
💡 主要观点
- 当前机器人感知的核心痛点在于传统 3D 相机无法提供稳定、高精度的深度信息。 双目结构光、ToF 等方案受环境光限制、分辨率低、无法做到 RGBD 像素级对齐,且耗算力、延迟高,限制了机器人精细操作的速度和泛化能力。
💬 文章金句
- 机器人至今没有一双真正好用的眼睛。
- 我们关注的第一步就是先解决机器人的感知。
- 我们正奔着大家心目中理想的传感器在演进,试图打破稳定、距离、精度的不可能三角。
📊 文章信息
AI 初评:82
来源:AI科技评论
作者:AI科技评论
分类:人工智能
语言:中文
阅读时间:18 分钟
字数:4280
标签: 具身智能, 机器人感知, 3D 视觉, 激光雷达, SPAD