← 回總覽

不用地图也能规划公交路线?| TransitLM:首个大规模端到端公交路线生成数据集与基准

📅 2026-06-03 16:35 魔搭ModelScope社区 人工智能 2 分鐘 1719 字 評分: 88
LLM AI Agent 模型训练与推理 AI 产品与应用 AI 工作流
📌 一句话摘要 高德地图提出 TransitLM,通过将 12 万公交站点注册为独立 token 并在 1300 万条路线数据上微调 4B 模型,实现了无需地图基础设施的端到端公交路线生成,性能持平生产级路径引擎。 📝 详细摘要 本文介绍了高德地图团队提出的 TransitLM,一种无需地图基础设施的端到端公交路线规划方案。文章首先指出传统方案依赖完整地图基础设施与多级管线,流程冗长;通用大模型因缺乏领域拓扑知识,路线连通率与精确匹配率均不理想;工具增强方案虽可提升性能,但未真正降低工程复杂度。TransitLM 的核心创新包括:将 120,845 个站点 ID 注册为独立 token,从

📌 一句话摘要

高德地图提出 TransitLM,通过将 12 万公交站点注册为独立 token 并在 1300 万条路线数据上微调 4B 模型,实现了无需地图基础设施的端到端公交路线生成,性能持平生产级路径引擎。

📝 详细摘要

本文介绍了高德地图团队提出的 TransitLM,一种无需地图基础设施的端到端公交路线规划方案。文章首先指出传统方案依赖完整地图基础设施与多级管线,流程冗长;通用大模型因缺乏领域拓扑知识,路线连通率与精确匹配率均不理想;工具增强方案虽可提升性能,但未真正降低工程复杂度。TransitLM 的核心创新包括:将 120,845 个站点 ID 注册为独立 token,从根源消除幻觉站点;采用继续预训练(CPT)+ 监督微调(SFT)两阶段训练,在 1300 万条路线数据上学习网络拓扑与换乘逻辑;以 Qwen3-4B 为基座,4B 参数即可完成任务。实验结果显示,TransitLM 在三个 Benchmark 任务上连通率 ≥ 93%,精确匹配达 71.0%,距离/时间/费用预测误差小于 1.4%,性能持平调用高德路径引擎的工具增强方案。文章还揭示了模型涌现的隐式空间定位能力——仅凭 GPS 坐标即可精确定位站点。最后讨论了当前局限(无法处理动态网络变化、缺乏实时交通信息、地理覆盖有限)与未来方向。

💡 主要观点

- 将公交站点注册为独立 token 可从根本上消除幻觉站点。 TransitLM 将 120,845 个站点 ID 加入模型词表,模型只能输出真实存在的站点,同时通过共现模式学习站点间连通关系,大幅降低生成断连路线的概率。

CPT 阶段学到的公交网络知识是任务无关的,可支撑多种规划场景。 三任务联合训练的 Joint 模型达到全局最优(73.7% 精确匹配),且三个任务之间无负迁移,证明 CPT 阶段学到的知识可泛化到不同规划任务。
模型从数据中涌现了隐式空间定位能力。 在仅输入原始 GPS 坐标、去掉所有文字信息的极端测试中,TransitLM 仍能精确定位站点并生成完整路线,而通用大模型完全失效,证明该能力是从训练数据中涌现的。
端到端纯生成方案性能持平调用生产级路径引擎的工具增强方案。 TransitLM 纯生成达到 73.7% 精确匹配,与调用高德路径引擎 API 的工具增强方案(71.7%-74.4%)持平,且无外部依赖、无网络延迟、部署复杂度更低。
性能瓶颈在于领域数据而非模型规模。 TransitLM 最小的 0.6B 模型(62.1% 精确匹配)已全面超越 GPT-5.4、Gemini-3.1 等六大最强通用模型(最佳 40.2%),证明领域数据是关键推动力。

💬 文章金句

- 性能瓶颈在于领域数据而非模型规模。数据才是关键推动力。

  • CPT 让模型学到的路线规划知识,等效于一套生产级路径引擎。
  • 模型在训练过程中涌现了隐式空间定位能力——仅给定原始 GPS 坐标,无需任何地理数据库或坐标-站点映射表,模型即可精确定位到最近的公交站点并生成完整路线。

📊 文章信息

AI 初评:88

来源:魔搭ModelScope社区

作者:魔搭ModelScope社区

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3704

标签: LLM, AI Agent, 模型训练与推理, AI 产品与应用, AI 工作流

阅读完整文章

查看原文 → 發佈: 2026-06-03 16:35:00 收錄: 2026-06-04 04:00:35

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。