Vol.119｜对话 Macaron AI 创始人 Andrew：下一代模型公司正在从 Agent 产品里长出来？

📌 一句话摘要

深度对话 Macaron AI 创始人 Andrew，探讨如何通过 LoRA 强化学习、长期记忆和持续学习，从 Agent 产品中生长出新一代个性化模型。

📝 详细摘要

本期播客深度对话 Mind Lab 与 Macaron AI 创始人 Andrew，围绕「从 Agent 产品中长出模型公司」这一核心命题展开。Andrew 分享了其团队在万亿参数规模下实现 LoRA 强化学习的突破性进展，成为全球首个在该规模下支持 DSA 和 MTP 的 LoRA RL 基础设施。内容深入剖析了 AI 记忆系统的演进路径，指出当前基于文件系统的记忆（如 OpenClaw 的实践）存在「越用越难用」的根本缺陷，并提出了向参数化记忆（Parametric Memory）转型的必要性。Andrew 详细介绍了其团队构建的基于 LoRA 的个性化模型方案，通过为每个用户维护低秩适配器、实现记忆隔离与持续更新，在百万分之一的基础模型参数开销下，使得「每人一模型」成为工程可能。讨论还涉及了 Agent 数据作为预训练新源的价值、后训练的重要性、模型架构（如 Titans、N-gram）与优化器在记忆学习中的角色，以及从「南坡」（算力堆叠）与「北坡」（应用驱动）两种路径登顶 AGI 的务实选择。

💡 主要观点

- 文件系统记忆存在「越用越难用」的根本缺陷 OpenClaw 等平台依赖文件系统存储记忆，记忆数量单调递增但模型工作记忆有限，导致命中率持续下降，最终体验恶化。

长期记忆的本质是持续学习与真实经验的学习 长期记忆不应被视为独立能力，而应与任务目标绑定。真正的进步来自模型在真实环境中持续学习，将 Agent 交互的轨迹作为训练数据。

基于 LoRA 的个性化模型使「每人一模型」成为工程可能 通过共享基础模型与用户专属低秩适配器，可在极低开销（百万分之一参数）下为数百万用户部署个性化模型，实现记忆隔离与持续更新。

Agent 数据是预训练的新增长来源 自生成数据无法提供新信号，但 Agent 与真实环境交互产生的轨迹和奖励信号能系统性提升模型智能，成为预训练数据的新增量。

模型迭代路径应选择「北坡」：从应用场景反推研究 相对于依靠算力堆叠的「南坡」路线，Mind Lab 选择从真实用户场景出发，用产品中的 Agent 轨迹和反馈反向训练模型，实现务实增长。

💬 文章金句

- 当模型参数量极小的时候，模型的数学性质本身会更多地去 regularize 它的更新形状，而不只是数据中的信息。我们需要去研究它数学上的范数、黎曼流形。

如果我们把 memory 当成能力去评价，它很容易变成为了优化某个 memory benchmark 而做，但实际上 memory 应该为了优化终端任务的 benchmark。
越好的模型其实越安全。越好的模型越不容易被钓鱼，越能遵守你设下的限制。这是一个被低估的结论。
未来会有追求更聪明更贵的模型，也有追求效率与普及的模型。我们没有能力和资源去追求第一个方向，这是客观现实，要敬畏。
我觉得未来是我们和用户去构造一个模型公司，有全尺寸模型能力，但我们的 inside 来源于用户，我们的模型也会服务于用户。

📊 文章信息

AI 初评：88

来源：开始连接LinkStart

作者：开始连接LinkStart

分类：人工智能

语言：中文

阅读时间：174 分钟

字数：43268

标签： LoRA 强化学习, 长期记忆, 持续学习, Agent 模型, 个性化模型

收听完整播客

Vol.119｜对话 Macaron AI 创始人 Andrew：下一代模型公司正在从 Agent 产品里长出来？

🤖 問 AI