← 回總覽

腾讯 AI Lab 绝唱:30B 模型击败万亿旗舰,靠的是让 AI 学会「预习」

📅 2026-05-11 18:01 AI科技评论 人工智能 2 分鐘 1620 字 評分: 87
原生自演进 AI Agent 世界知识 腾讯 AI Lab 大语言模型
📌 一句话摘要 腾讯 AI Lab 的最后一篇论文提出「原生自演进」技术,让 AI Agent 能在无人工奖励和任务指引的情况下自主探索环境、沉淀世界知识,使 30B 模型在网页 Agent 任务上超越万亿参数旗舰模型。 📝 详细摘要 本文详细解读了腾讯混元团队与香港科技大学(广州)联合发表的论文《Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration》。该论文提出了「原生自演进」技术,核心思想是让 AI Agent 在无下游任务指引时,主动探索环境并提取

📌 一句话摘要

腾讯 AI Lab 的最后一篇论文提出「原生自演进」技术,让 AI Agent 能在无人工奖励和任务指引的情况下自主探索环境、沉淀世界知识,使 30B 模型在网页 Agent 任务上超越万亿参数旗舰模型。

📝 详细摘要

本文详细解读了腾讯混元团队与香港科技大学(广州)联合发表的论文《Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration》。该论文提出了「原生自演进」技术,核心思想是让 AI Agent 在无下游任务指引时,主动探索环境并提取关键信息,生成「世界知识」文件。在执行阶段,Agent 直接加载该知识,无需从零探索,从而大幅提升效率和准确性。实验结果显示,基于 Qwen3-30B 的模型在 WebWalker 和 WebVoyager 任务上,凭借世界知识加持,击败了 Gemini-2.5-Pro 和 Kimi K2.5 等万亿参数旗舰模型。文章还探讨了该技术的训练流程(Warm Up + On-Policy Training)、世界知识的跨模型迁移能力,以及其在微信 Agent 场景下的潜在应用价值。作为腾讯 AI Lab 在 NLP 方向的最后一篇论文,其技术方向与腾讯内部最高优先级项目(微信 Agent)高度契合。

💡 主要观点

- 原生自演进让 Agent 能在无任务指引时主动探索环境并沉淀世界知识。 Agent 获得环境访问权限后,自主将关键信息提取到 world_knowledge.md 文件中,无需人工奖励或预设流程,实现真正的自主进化。

世界知识可跨模型迁移,轻量级模型凭此击败万亿参数旗舰。 训练好的模型生成的世界知识,直接喂给 Qwen3-14B、Kimi-K2-Turbo 等模型,均带来显著提升,证明了高质量知识组织可弥补参数规模差距。
该技术能有效降低 Token 消耗和任务执行步数。 世界知识使 Agent 执行任务步数减少 17%,且知识加载可命中缓存,额外开销低于 5%,在提升智能的同时优化了效率。
原生自演进能力需通过专门训练习得,无法仅靠 Prompt 工程实现。 未训练的基模即使配上相同 Prompt,生成世界知识的效果不升反降,证明该能力需要 Warm Up SFT 和 On-Policy Training 的迭代训练。

💬 文章金句

- 真正的自演进,即在在没有下游任务的情况下能够自适应地熟悉环境。

  • 原生自演进是一种需要通过训练习得的能力,没法靠写更长的 prompt 来解决。
  • 世界知识是一种可以被不同模型共享并取得收益的'经验资产'。
  • 当 AI 学会了'预习'——在没有任务指引的情况下主动熟悉环境、沉淀知识——它离像人一样自主适应复杂环境,又近了一步。

📊 文章信息

AI 初评:87

来源:AI科技评论

作者:AI科技评论

分类:人工智能

语言:中文

阅读时间:16 分钟

字数:3923

标签: 原生自演进, AI Agent, 世界知识, 腾讯 AI Lab, 大语言模型

阅读完整文章

查看原文 → 發佈: 2026-05-11 18:01:00 收錄: 2026-05-12 00:00:11

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。