对话速腾聚创杨先声：机器人的通用智能，先从一双「不骗人」的眼睛开始

📌 一句话摘要

速腾聚创副总裁杨先声在 ICRA 2026 上介绍其全新机器人视觉感知架构，该架构在物理层面实现深度探测与 RGB 的天然对齐，旨在打破传统 3D 相机在稳定、距离、精度上的不可能三角，为具身智能提供更可靠的感知基础。

📝 详细摘要

本文是 AI 科技评论在 ICRA 2026 现场对速腾聚创副总裁杨先声的专访。杨先声指出，当前机器人行业在感知层面存在核心卡点：传统 3D 相机（双目结构光、ToF 等）在复杂环境中不稳定、测距短、精度低，且无法实现 RGBD 像素级对齐，导致机器人精细操作速度慢、泛化能力受限。速腾聚创展示了一套全新的视觉感知架构，其核心优势在于从物理层面实现了深度信息与颜色信息的天然对齐，无需后期算法校准，从而大幅提升精度、可靠性和数据质量。该架构基于速腾自研的 SPAD-SoC 数字化架构，具备高集成度、高线数（几百至上千线）的优势，相比传统方案更节省算力、降低延迟。杨先声认为，解决机器人感知问题是关键第一步，高质量的 3D 空间数据将显著降低训练成本并加速物理 AI 进化。他还探讨了纯视觉方案与激光雷达方案的差异，以及触觉感知面临的更大挑战。

💡 主要观点

- 当前机器人感知的核心痛点在于传统 3D 相机无法提供稳定、高精度的深度信息。 双目结构光、ToF 等方案受环境光限制、分辨率低、无法做到 RGBD 像素级对齐，且耗算力、延迟高，限制了机器人精细操作的速度和泛化能力。

速腾聚创的新架构在物理层面实现深度与 RGB 的天然对齐，无需后期算法校准。 该架构从原始数据底层就完成了融合，直接输出对齐后的 RGBD 信息，大幅提升精度和可靠性，并节省了后端算力，对提升 VLA 性能和末端控制有直接价值。

高线数、高精度的 3D 感知是降低机器人训练成本、加速物理 AI 进化的关键第一步。 高质量的 3D 空间数据能直接输入仿真环境，减少人工标注和试错成本，为后续的决策和控制提供更可靠的感知基础，从而加速整个系统的收敛。

💬 文章金句

- 机器人至今没有一双真正好用的眼睛。

我们关注的第一步就是先解决机器人的感知。
我们正奔着大家心目中理想的传感器在演进，试图打破稳定、距离、精度的不可能三角。

📊 文章信息

AI 初评：82

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：18 分钟

字数：4280

标签：具身智能, 机器人感知, 3D 视觉, 激光雷达, SPAD

阅读完整文章

对话速腾聚创杨先声：机器人的通用智能，先从一双「不骗人」的眼睛开始 | ICRA 2026

🤖 問 AI