腾讯 AI Lab 绝唱：30B 模型击败万亿旗舰，靠的是让 AI 学会「预习」

📌 一句话摘要

腾讯 AI Lab 的最后一篇论文提出「原生自演进」技术，让 AI Agent 能在无人工奖励和任务指引的情况下自主探索环境、沉淀世界知识，使 30B 模型在网页 Agent 任务上超越万亿参数旗舰模型。

📝 详细摘要

本文详细解读了腾讯混元团队与香港科技大学（广州）联合发表的论文《Training LLM Agents for Spontaneous， Reward-Free Self-Evolution via World Knowledge Exploration》。该论文提出了「原生自演进」技术，核心思想是让 AI Agent 在无下游任务指引时，主动探索环境并提取关键信息，生成「世界知识」文件。在执行阶段，Agent 直接加载该知识，无需从零探索，从而大幅提升效率和准确性。实验结果显示，基于 Qwen3-30B 的模型在 WebWalker 和 WebVoyager 任务上，凭借世界知识加持，击败了 Gemini-2.5-Pro 和 Kimi K2.5 等万亿参数旗舰模型。文章还探讨了该技术的训练流程（Warm Up + On-Policy Training）、世界知识的跨模型迁移能力，以及其在微信 Agent 场景下的潜在应用价值。作为腾讯 AI Lab 在 NLP 方向的最后一篇论文，其技术方向与腾讯内部最高优先级项目（微信 Agent）高度契合。

💡 主要观点

- 原生自演进让 Agent 能在无任务指引时主动探索环境并沉淀世界知识。 Agent 获得环境访问权限后，自主将关键信息提取到 world_knowledge.md 文件中，无需人工奖励或预设流程，实现真正的自主进化。

世界知识可跨模型迁移，轻量级模型凭此击败万亿参数旗舰。 训练好的模型生成的世界知识，直接喂给 Qwen3-14B、Kimi-K2-Turbo 等模型，均带来显著提升，证明了高质量知识组织可弥补参数规模差距。

该技术能有效降低 Token 消耗和任务执行步数。 世界知识使 Agent 执行任务步数减少 17%，且知识加载可命中缓存，额外开销低于 5%，在提升智能的同时优化了效率。

原生自演进能力需通过专门训练习得，无法仅靠 Prompt 工程实现。 未训练的基模即使配上相同 Prompt，生成世界知识的效果不升反降，证明该能力需要 Warm Up SFT 和 On-Policy Training 的迭代训练。

💬 文章金句

- 真正的自演进，即在在没有下游任务的情况下能够自适应地熟悉环境。

原生自演进是一种需要通过训练习得的能力，没法靠写更长的 prompt 来解决。
世界知识是一种可以被不同模型共享并取得收益的'经验资产'。
当 AI 学会了'预习'——在没有任务指引的情况下主动熟悉环境、沉淀知识——它离像人一样自主适应复杂环境，又近了一步。

📊 文章信息

AI 初评：87

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3923

标签：原生自演进, AI Agent, 世界知识, 腾讯 AI Lab, 大语言模型

阅读完整文章

腾讯 AI Lab 绝唱：30B 模型击败万亿旗舰，靠的是让 AI 学会「预习」

🤖 問 AI