← 回總覽

鹏城实验室与中大推出 RADAR:具身智能评测新标杆

📅 2026-03-26 18:09 AI科技评论 人工智能 1 分鐘 1026 字 評分: 86
具身智能 RADAR VLA 评测基准 机器人
📌 一句话摘要 RADAR 是一个专为具身智能设计的评测基准,通过引入物理动态性建模、空间推理任务及全自动化 3D 评估流程,旨在解决现有评测体系与真实世界表现脱节的问题。 📝 详细摘要 本文介绍了由鹏城实验室与中山大学 hcp 实验室联合推出的具身智能评测基准 RADAR。针对当前具身智能领域「仿真高分、现实失效」的痛点,RADAR 引入了四维物理扰动轴,构建了包含空间理解能力的复杂任务集,并实现了基于 3D 指标的全自动化评估。研究发现,主流视觉-语言-动作(VLA)模型在面对传感器噪声和复杂空间推理时表现出显著的脆弱性,RADAR 的推出为推动具身智能技术的实用化和鲁棒性评估提供了重

📌 一句话摘要

RADAR 是一个专为具身智能设计的评测基准,通过引入物理动态性建模、空间推理任务及全自动化 3D 评估流程,旨在解决现有评测体系与真实世界表现脱节的问题。

📝 详细摘要

本文介绍了由鹏城实验室与中山大学 hcp 实验室联合推出的具身智能评测基准 RADAR。针对当前具身智能领域「仿真高分、现实失效」的痛点,RADAR 引入了四维物理扰动轴,构建了包含空间理解能力的复杂任务集,并实现了基于 3D 指标的全自动化评估。研究发现,主流视觉-语言-动作(VLA)模型在面对传感器噪声和复杂空间推理时表现出显著的脆弱性,RADAR 的推出为推动具身智能技术的实用化和鲁棒性评估提供了重要工具。

💡 主要观点

- 现有具身智能评测体系存在严重的现实鸿沟。 传统基准测试往往忽视了真实世界的动态性,如光照变化、传感器噪声和物体配置变化,导致模型在仿真中表现优异,但在真实物理环境中却难以泛化。

RADAR 引入了系统化的物理动态性建模与自动化 3D 评估。 通过四维物理扰动模拟真实环境,并采用全自动化 3D 视觉指标进行评估,消除了人为偏差,降低了评测成本,确保了结果的可复现性。
揭示了当前 VLA 模型在空间智能方面的局限性。 实验数据表明,主流模型在轻度物理扰动下性能急剧下降,且缺乏真正的几何理解能力,这挑战了传统基准测试的有效性。

💬 文章金句

- 模型在传统基准测试中表现优异,但在真实物理环境中却表现不佳。

  • 关键发现:在传感器噪声条件下,主流模型的 3D IoU 性能从 0.261 骤降至 0.068,揭示了严重的鲁棒性不足。
  • RADAR 不仅是一个评测工具,更是推动具身智能迈向真实世界可靠性的重要一步。

📊 文章信息

AI 评分:86

来源:AI科技评论

作者:AI科技评论

分类:人工智能

语言:中文

阅读时间:8 分钟

字数:1912

标签: 具身智能, RADAR, VLA, 评测基准, 机器人

阅读完整文章

查看原文 → 發佈: 2026-03-26 18:09:00 收錄: 2026-03-26 22:00:21

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。