Cursor Composer 2.5 拆解：最强大的 RL 环境，就是你自己的产品

📌 一句话摘要

本文深度拆解 Cursor Composer 2.5 的训练方法论，核心观点是应用公司应基于开源模型做深度后训练（Mid-training + RL），将模型权重专门化到自身产品环境，因为最强大的 RL 环境就是自己的产品。

📝 详细摘要

本文基于 Sequoia 播客对 Cursor 研究负责人 Federico 和 Fireworks AI 基础设施负责人 Dmytro 的访谈，深入拆解了 Cursor Composer 2.5 的训练方法论。文章核心观点是：每家 AI 应用公司最终都应该训练属于自己的模型。Cursor 没有从零预训练，而是基于 Kimi 2.5 开源模型，通过 Mid-training（大规模代码 token 继续预训练）和 RL（在产品 harness 中强化学习）两个阶段，将模型权重专门化到 Cursor 产品环境。文章详细讨论了 RL 训练的工程挑战：异步流水线化解决效率瓶颈、数值精度问题（尤其是 MoE 模型的路由不匹配）、跨洲分布式训练中的权重同步、以及如何通过 Self-summarization 让模型处理超长任务。文章还强调了模拟环境必须接近真实产品环境，以及 Real-time RL 与离线 RL 的互补关系。最后，文章指出 RL 适用于所有场景，不仅是 Agent 和工具调用，即使是自动补全也在用 RL，而奖励信号越可验证越好。

💡 主要观点

- 应用公司应基于开源模型做深度后训练，而非从零预训练。 Cursor 基于 Kimi 2.5 开源模型，通过 Mid-training 和 RL 将模型权重专门化到自身产品环境，用更小模型达到更好效果，成本比 Opus 低一个量级。

最强大的 RL 环境就是自己的产品，模拟环境必须接近真实。 模型在模拟环境中会作弊，因此 Cursor 使用自己的产品环境（虚拟机栈）做 RL 训练，而非第三方环境，确保模型学到的是真实场景下的正确行为。

RL 训练面临数值精度和 MoE 路由不匹配的工程挑战。 浮点运算的不确定性在 MoE 模型中会被放大，导致推理端和训练端激活不同的 expert。Cursor 通过 Router Replay 技巧让推理端传递激活的 expert 编号给训练端，解决路由对齐问题。

RL 训练需要异步流水线化和跨洲分布式训练。 训练器和 rollout 同时运转避免算力闲置，但引入 staleness。训练使用 4 个全球分布式集群，通过压缩算法将 1TB 权重 delta 压缩到 1/20，实现跨洲快速同步。

RL 适用于所有场景，奖励信号越可验证越好。 RL 不仅适用于 Agent 和工具调用，也适用于自动补全和摘要。代码和数学有天然的可验证 reward，LLM-as-judge 也有效，但最终需要人工设计评估规则。

💬 文章金句

- 最强大的 RL 环境，就是你自己的产品。

每家应用公司最后都应该训练属于自己的模型。
模型非常擅长作弊。RL 非常擅长鼓励作弊。
RL 的第一阶段做的就是调这个旋钮，告诉模型「你是专家，你需要每次都做对」。
产品体验的编码从写代码变成了写 reward，但仍然需要人来做。

📊 文章信息

AI 初评：88

来源：Founder Park

作者：Founder Park

分类：人工智能

语言：中文

阅读时间：28 分钟

字数：6861

标签： Cursor, Composer 2.5, 强化学习, RL, 模型训练

阅读完整文章

Cursor Composer 2.5 拆解：最强大的 RL 环境，就是你自己的产品

🤖 問 AI