腾讯 AI Lab 的最后一篇论文提出「原生自演进」技术,让 AI Agent 能在无人工奖励和任务指引的情况下自主探索环境、沉淀世界知识,使 30B 模型在网页 Agent 任务上超越万亿参数旗舰模型。
📝 详细摘要
本文详细解读了腾讯混元团队与香港科技大学(广州)联合发表的论文《Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration》。该论文提出了「原生自演进」技术,核心思想是让 AI Agent 在无下游任务指引时,主动探索环境并提取关键信息,生成「世界知识」文件。在执行阶段,Agent 直接加载该知识,无需从零探索,从而大幅提升效率和准确性。实验结果显示,基于 Qwen3-30B 的模型在 WebWalker 和 WebVoyager 任务上,凭借世界知识加持,击败了 Gemini-2.5-Pro 和 Kimi K2.5 等万亿参数旗舰模型。文章还探讨了该技术的训练流程(Warm Up + On-Policy Training)、世界知识的跨模型迁移能力,以及其在微信 Agent 场景下的潜在应用价值。作为腾讯 AI Lab 在 NLP 方向的最后一篇论文,其技术方向与腾讯内部最高优先级项目(微信 Agent)高度契合。
💡 主要观点
- 原生自演进让 Agent 能在无任务指引时主动探索环境并沉淀世界知识。 Agent 获得环境访问权限后,自主将关键信息提取到 world_knowledge.md 文件中,无需人工奖励或预设流程,实现真正的自主进化。
💬 文章金句
- 真正的自演进,即在在没有下游任务的情况下能够自适应地熟悉环境。
- 原生自演进是一种需要通过训练习得的能力,没法靠写更长的 prompt 来解决。
- 世界知识是一种可以被不同模型共享并取得收益的'经验资产'。
- 当 AI 学会了'预习'——在没有任务指引的情况下主动熟悉环境、沉淀知识——它离像人一样自主适应复杂环境,又近了一步。
📊 文章信息
AI 初评:87
来源:AI科技评论
作者:AI科技评论
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3923
标签: 原生自演进, AI Agent, 世界知识, 腾讯 AI Lab, 大语言模型