小米技术新突破！Xiaomi OneVL 自动驾驶模型正式发布并全面开源

📌 一句话摘要

小米正式发布并全面开源 Xiaomi OneVL 一步式潜空间语言视觉推理框架，该模型在精度上超越显式 CoT、在速度上对齐仅答案预测，首次将 VLA、世界模型和潜空间推理三大技术路线统一。

📝 详细摘要

本文是小米技术团队发布的官方技术公告，宣布正式开源 Xiaomi OneVL 模型。该模型是小米 XLA 认知大模型架构中潜空间推理（Latent CoT）能力的首次学术验证。文章详细阐述了 OneVL 的核心技术方案：通过双模态 latent token（视觉+语言）编码场景因果结构与驾驶意图，利用双辅助解码器在训练时提供双重监督信号（视觉未来预测+语言思维链重建），推理时全部移除实现零额外开销；采用预填充式一步推理，延迟与仅答案模型几乎一致，比显式 CoT 最高快 2.3 倍。在多个主流自动驾驶基准上，OneVL 全面刷新了潜空间推理方法的性能上限，在 NAVSIM 上 PDM-score 达到 88.84，首次超越显式 CoT（88.29）。文章还提供了技术报告、项目主页和开源代码链接。

💡 主要观点

- Xiaomi OneVL 通过双模态 latent token 和双辅助解码器，首次将 VLA、世界模型和潜空间推理统一到同一框架。 视觉 latent token 编码场景的物理因果结构，语言 latent token 编码驾驶意图；视觉解码器预测未来画面，语言解码器重建可读思维链，训练时提供双重监督，推理时全部移除，零额外开销。

OneVL 采用预填充式一步推理，延迟与仅答案模型几乎一致，比显式 CoT 最高快 2.3 倍。 推理时所有 latent token 直接预填充进上下文，一次并行完成，避免了显式 CoT 逐 token 生成带来的额外时延，为量产车端实时部署提供了可行路径。

OneVL 在多个自动驾驶基准上全面超越显式 CoT，首次在潜空间推理中实现精度超越。 在 ROADWork、Impromptu、Alpamayo-R1 三项基准上达到 SOTA，NAVSIM 上 PDM-score 达 88.84，超越显式 CoT 的 88.29，是目前唯一在所有基准上超越显式自回归 CoT 的隐式推理方法。

模型权重、训练和推理代码已全面开源，提供语言和视觉双维度可解释性。 开源内容包括模型权重、训练和推理代码，技术报告和项目主页已上线。模型既能用文字说明决策原因，也能用预测画面展示未来场景，将理解与推理能力落到可验证的工程实践中。

💬 文章金句

- Xiaomi OneVL 是首个在精度上超越显式思维链、在速度上对齐仅答案预测的潜在推理方案，并实现了 VLA 与世界模型的统一。

自动驾驶要压缩的，不只是语言推理，而是对未来世界变化的理解。
压缩语言，丢掉的恰恰是最关键的因果结构；而压缩成对未来视觉世界的预测，才保留了真正决定驾驶结果的东西。
真正面向现实世界的辅助驾驶，不只要看见当下，更要理解因果、预判未来，并在有限时间内完成高质量决策。

📊 文章信息

AI 初评：88

来源：小米技术

作者：小米技术

分类：人工智能

语言：中文

阅读时间：9 分钟

字数：2165

标签： Xiaomi OneVL, 潜空间推理, 自动驾驶, VLA, 世界模型

阅读完整文章

小米技术新突破！Xiaomi OneVL 自动驾驶模型正式发布并全面开源

🤖 問 AI