滴滴自动驾驶与清华大学李升波教授团队成立深穹远航实验室,联合提出 STAPO 算法,旨在通过精准剔除大模型强化学习训练中的虚假 Token 噪声,提升自动驾驶端到端模型的稳定性和泛化能力,探索产学研深度融合的中国范式。
📝 详细摘要
本文报道了滴滴自动驾驶与清华大学车辆与运载学院李升波教授课题组达成的产学研深度合作。双方联合成立深穹远航实验室,并发布了首个标志性成果 STAPO 算法。该算法聚焦大模型强化学习微调中的噪声问题,通过精准剔除仅占 0.01%的虚假 Token,显著改善训练效果,计划应用于自动驾驶端到端模型的微调。文章回顾了滴滴自动驾驶自 2016 年以来的十年发展历程,强调其低调务实、全栈自研的策略,以及依托滴滴出行平台构建的混合派单模式。同时,文章介绍了滴滴自动驾驶在安全运营、量产合作(与广汽埃安推出 R2 Robotaxi)及全球化(以阿联酋为首站)方面的进展。文章认为,滴滴与清华的合作代表了一种从研究到工程再到商业落地的贯通式产学研新范式,其稳健的商业模式和长期主义是其在激烈竞争中行稳致远的关键。
💡 主要观点
- 滴滴与清华联合提出 STAPO 算法,解决大模型强化学习训练中的噪声问题。 STAPO 算法通过精准剔除强化学习训练中仅占 0.01%的虚假 Token(坏信号),在不重构训练体系的前提下显著提升模型效果,计划用于自动驾驶端到端模型的微调,增强其在复杂路况下的泛化能力。
💬 文章金句
- STAPO 做的事情,就是把这些「坏信号」揪出来。
- 从论文到道路,从算法到车轮,这正是滴滴与清华这次合作最有分量的意义。
- 安全与体验是自动驾驶行稳致远的根基。
- 混合出行网络是自动驾驶冷启动的最佳路径。
- 自动驾驶的未来,属于「慢即是快」的人。
📊 文章信息
AI 初评:86
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:18 分钟
字数:4383
标签: 自动驾驶, 滴滴自动驾驶, 清华大学, STAPO, 强化学习