本文深度拆解 Cursor Composer 2.5 的训练方法论,核心观点是应用公司应基于开源模型做深度后训练(Mid-training + RL),将模型权重专门化到自身产品环境,因为最强大的 RL 环境就是自己的产品。
📝 详细摘要
本文基于 Sequoia 播客对 Cursor 研究负责人 Federico 和 Fireworks AI 基础设施负责人 Dmytro 的访谈,深入拆解了 Cursor Composer 2.5 的训练方法论。文章核心观点是:每家 AI 应用公司最终都应该训练属于自己的模型。Cursor 没有从零预训练,而是基于 Kimi 2.5 开源模型,通过 Mid-training(大规模代码 token 继续预训练)和 RL(在产品 harness 中强化学习)两个阶段,将模型权重专门化到 Cursor 产品环境。文章详细讨论了 RL 训练的工程挑战:异步流水线化解决效率瓶颈、数值精度问题(尤其是 MoE 模型的路由不匹配)、跨洲分布式训练中的权重同步、以及如何通过 Self-summarization 让模型处理超长任务。文章还强调了模拟环境必须接近真实产品环境,以及 Real-time RL 与离线 RL 的互补关系。最后,文章指出 RL 适用于所有场景,不仅是 Agent 和工具调用,即使是自动补全也在用 RL,而奖励信号越可验证越好。
💡 主要观点
- 应用公司应基于开源模型做深度后训练,而非从零预训练。 Cursor 基于 Kimi 2.5 开源模型,通过 Mid-training 和 RL 将模型权重专门化到自身产品环境,用更小模型达到更好效果,成本比 Opus 低一个量级。
💬 文章金句
- 最强大的 RL 环境,就是你自己的产品。
- 每家应用公司最后都应该训练属于自己的模型。
- 模型非常擅长作弊。RL 非常擅长鼓励作弊。
- RL 的第一阶段做的就是调这个旋钮,告诉模型「你是专家,你需要每次都做对」。
- 产品体验的编码从写代码变成了写 reward,但仍然需要人来做。
📊 文章信息
AI 初评:88
来源:Founder Park
作者:Founder Park
分类:人工智能
语言:中文
阅读时间:28 分钟
字数:6861
标签: Cursor, Composer 2.5, 强化学习, RL, 模型训练