小米正式发布并全面开源 Xiaomi OneVL 一步式潜空间语言视觉推理框架,该模型在精度上超越显式 CoT、在速度上对齐仅答案预测,首次将 VLA、世界模型和潜空间推理三大技术路线统一。
📝 详细摘要
本文是小米技术团队发布的官方技术公告,宣布正式开源 Xiaomi OneVL 模型。该模型是小米 XLA 认知大模型架构中潜空间推理(Latent CoT)能力的首次学术验证。文章详细阐述了 OneVL 的核心技术方案:通过双模态 latent token(视觉+语言)编码场景因果结构与驾驶意图,利用双辅助解码器在训练时提供双重监督信号(视觉未来预测+语言思维链重建),推理时全部移除实现零额外开销;采用预填充式一步推理,延迟与仅答案模型几乎一致,比显式 CoT 最高快 2.3 倍。在多个主流自动驾驶基准上,OneVL 全面刷新了潜空间推理方法的性能上限,在 NAVSIM 上 PDM-score 达到 88.84,首次超越显式 CoT(88.29)。文章还提供了技术报告、项目主页和开源代码链接。
💡 主要观点
- Xiaomi OneVL 通过双模态 latent token 和双辅助解码器,首次将 VLA、世界模型和潜空间推理统一到同一框架。 视觉 latent token 编码场景的物理因果结构,语言 latent token 编码驾驶意图;视觉解码器预测未来画面,语言解码器重建可读思维链,训练时提供双重监督,推理时全部移除,零额外开销。
💬 文章金句
- Xiaomi OneVL 是首个在精度上超越显式思维链、在速度上对齐仅答案预测的潜在推理方案,并实现了 VLA 与世界模型的统一。
- 自动驾驶要压缩的,不只是语言推理,而是对未来世界变化的理解。
- 压缩语言,丢掉的恰恰是最关键的因果结构;而压缩成对未来视觉世界的预测,才保留了真正决定驾驶结果的东西。
- 真正面向现实世界的辅助驾驶,不只要看见当下,更要理解因果、预判未来,并在有限时间内完成高质量决策。
📊 文章信息
AI 初评:88
来源:小米技术
作者:小米技术
分类:人工智能
语言:中文
阅读时间:9 分钟
字数:2165
标签: Xiaomi OneVL, 潜空间推理, 自动驾驶, VLA, 世界模型