← 回總覽

小米技术新突破!Xiaomi OneVL 自动驾驶模型正式发布并全面开源

📅 2026-05-13 17:00 小米技术 人工智能 2 分鐘 1676 字 評分: 88
Xiaomi OneVL 潜空间推理 自动驾驶 VLA 世界模型
📌 一句话摘要 小米正式发布并全面开源 Xiaomi OneVL 一步式潜空间语言视觉推理框架,该模型在精度上超越显式 CoT、在速度上对齐仅答案预测,首次将 VLA、世界模型和潜空间推理三大技术路线统一。 📝 详细摘要 本文是小米技术团队发布的官方技术公告,宣布正式开源 Xiaomi OneVL 模型。该模型是小米 XLA 认知大模型架构中潜空间推理(Latent CoT)能力的首次学术验证。文章详细阐述了 OneVL 的核心技术方案:通过双模态 latent token(视觉+语言)编码场景因果结构与驾驶意图,利用双辅助解码器在训练时提供双重监督信号(视觉未来预测+语言思维链重建),推

📌 一句话摘要

小米正式发布并全面开源 Xiaomi OneVL 一步式潜空间语言视觉推理框架,该模型在精度上超越显式 CoT、在速度上对齐仅答案预测,首次将 VLA、世界模型和潜空间推理三大技术路线统一。

📝 详细摘要

本文是小米技术团队发布的官方技术公告,宣布正式开源 Xiaomi OneVL 模型。该模型是小米 XLA 认知大模型架构中潜空间推理(Latent CoT)能力的首次学术验证。文章详细阐述了 OneVL 的核心技术方案:通过双模态 latent token(视觉+语言)编码场景因果结构与驾驶意图,利用双辅助解码器在训练时提供双重监督信号(视觉未来预测+语言思维链重建),推理时全部移除实现零额外开销;采用预填充式一步推理,延迟与仅答案模型几乎一致,比显式 CoT 最高快 2.3 倍。在多个主流自动驾驶基准上,OneVL 全面刷新了潜空间推理方法的性能上限,在 NAVSIM 上 PDM-score 达到 88.84,首次超越显式 CoT(88.29)。文章还提供了技术报告、项目主页和开源代码链接。

💡 主要观点

- Xiaomi OneVL 通过双模态 latent token 和双辅助解码器,首次将 VLA、世界模型和潜空间推理统一到同一框架。 视觉 latent token 编码场景的物理因果结构,语言 latent token 编码驾驶意图;视觉解码器预测未来画面,语言解码器重建可读思维链,训练时提供双重监督,推理时全部移除,零额外开销。

OneVL 采用预填充式一步推理,延迟与仅答案模型几乎一致,比显式 CoT 最高快 2.3 倍。 推理时所有 latent token 直接预填充进上下文,一次并行完成,避免了显式 CoT 逐 token 生成带来的额外时延,为量产车端实时部署提供了可行路径。
OneVL 在多个自动驾驶基准上全面超越显式 CoT,首次在潜空间推理中实现精度超越。 在 ROADWork、Impromptu、Alpamayo-R1 三项基准上达到 SOTA,NAVSIM 上 PDM-score 达 88.84,超越显式 CoT 的 88.29,是目前唯一在所有基准上超越显式自回归 CoT 的隐式推理方法。
模型权重、训练和推理代码已全面开源,提供语言和视觉双维度可解释性。 开源内容包括模型权重、训练和推理代码,技术报告和项目主页已上线。模型既能用文字说明决策原因,也能用预测画面展示未来场景,将理解与推理能力落到可验证的工程实践中。

💬 文章金句

- Xiaomi OneVL 是首个在精度上超越显式思维链、在速度上对齐仅答案预测的潜在推理方案,并实现了 VLA 与世界模型的统一。

  • 自动驾驶要压缩的,不只是语言推理,而是对未来世界变化的理解。
  • 压缩语言,丢掉的恰恰是最关键的因果结构;而压缩成对未来视觉世界的预测,才保留了真正决定驾驶结果的东西。
  • 真正面向现实世界的辅助驾驶,不只要看见当下,更要理解因果、预判未来,并在有限时间内完成高质量决策。

📊 文章信息

AI 初评:88

来源:小米技术

作者:小米技术

分类:人工智能

语言:中文

阅读时间:9 分钟

字数:2165

标签: Xiaomi OneVL, 潜空间推理, 自动驾驶, VLA, 世界模型

阅读完整文章

查看原文 → 發佈: 2026-05-13 17:00:00 收錄: 2026-05-13 20:00:02

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。