鹏城实验室与中大推出 RADAR：具身智能评测新标杆

📌 一句话摘要

RADAR 是一个专为具身智能设计的评测基准，通过引入物理动态性建模、空间推理任务及全自动化 3D 评估流程，旨在解决现有评测体系与真实世界表现脱节的问题。

📝 详细摘要

本文介绍了由鹏城实验室与中山大学 hcp 实验室联合推出的具身智能评测基准 RADAR。针对当前具身智能领域「仿真高分、现实失效」的痛点，RADAR 引入了四维物理扰动轴，构建了包含空间理解能力的复杂任务集，并实现了基于 3D 指标的全自动化评估。研究发现，主流视觉-语言-动作（VLA）模型在面对传感器噪声和复杂空间推理时表现出显著的脆弱性，RADAR 的推出为推动具身智能技术的实用化和鲁棒性评估提供了重要工具。

💡 主要观点

- 现有具身智能评测体系存在严重的现实鸿沟。 传统基准测试往往忽视了真实世界的动态性，如光照变化、传感器噪声和物体配置变化，导致模型在仿真中表现优异，但在真实物理环境中却难以泛化。

RADAR 引入了系统化的物理动态性建模与自动化 3D 评估。 通过四维物理扰动模拟真实环境，并采用全自动化 3D 视觉指标进行评估，消除了人为偏差，降低了评测成本，确保了结果的可复现性。

揭示了当前 VLA 模型在空间智能方面的局限性。 实验数据表明，主流模型在轻度物理扰动下性能急剧下降，且缺乏真正的几何理解能力，这挑战了传统基准测试的有效性。

💬 文章金句

- 模型在传统基准测试中表现优异，但在真实物理环境中却表现不佳。

关键发现：在传感器噪声条件下，主流模型的 3D IoU 性能从 0.261 骤降至 0.068，揭示了严重的鲁棒性不足。
RADAR 不仅是一个评测工具，更是推动具身智能迈向真实世界可靠性的重要一步。

📊 文章信息

AI 评分：86

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1912

标签：具身智能, RADAR, VLA, 评测基准, 机器人

阅读完整文章

鹏城实验室与中大推出 RADAR：具身智能评测新标杆

🤖 問 AI