← 回總覽

Qwen-AgentWorld 开源:让 Agent 学会“先预测,再行动”

📅 2026-06-24 11:32 通义实验室 人工智能 2 分鐘 1419 字 評分: 90
AI Agent 世界模型 模型训练与推理 强化学习 模型评测与基准
📌 一句话摘要 通义实验室开源 Qwen-AgentWorld,首个原生语言世界模型,从继续预训练阶段即开始环境建模,在 AgentWorldBench 上超越 GPT-5.4 等前沿模型,并展示可控模拟与跨任务泛化两种应用范式。 📝 详细摘要 文章介绍通义实验室开源的 Qwen-AgentWorld,这是首个覆盖七大领域的语言世界模型,通过 CPT(继续预训练)→SFT(监督微调)→RL(强化学习)三阶段训练,在 AgentWorldBench 上超越 GPT-5.4、Claude Opus 4.8 等模型。文章详细阐述了训练流程的关键设计(轮次级信息论损失掩码、思维链拒绝采样、混合奖励

📌 一句话摘要

通义实验室开源 Qwen-AgentWorld,首个原生语言世界模型,从继续预训练阶段即开始环境建模,在 AgentWorldBench 上超越 GPT-5.4 等前沿模型,并展示可控模拟与跨任务泛化两种应用范式。

📝 详细摘要

文章介绍通义实验室开源的 Qwen-AgentWorld,这是首个覆盖七大领域的语言世界模型,通过 CPT(继续预训练)→SFT(监督微调)→RL(强化学习)三阶段训练,在 AgentWorldBench 上超越 GPT-5.4、Claude Opus 4.8 等模型。文章详细阐述了训练流程的关键设计(轮次级信息论损失掩码、思维链拒绝采样、混合奖励信号),并介绍了 AgentWorldBench 评测基准。在应用层面,文章探索了两种范式:作为解耦的环境模拟器,可控 Sim RL 在 MCP 和搜索任务上超越真实环境训练,且能泛化到未见过的环境;作为统一的智能体基础模型,LWM 预热训练在未涉足领域上涌现显著增益,表明下一状态预测是一种可迁移的元推理能力。项目已开源。

💡 主要观点

- 世界模型三阶段训练流程(CPT→SFT→RL)系统性提升了环境建模能力。 CPT 注入环境知识、SFT 激活思维链推理、RL 精炼模拟真实性,整体方法在 AgentWorldBench 上超越 GPT-5.4,且小模型规模下提升 8.66 分,验证了流水线的有效性。

可控模拟使 Sim RL 在多个任务上超越真实环境训练。 通过自然语言指令控制模拟器行为(如注入 API 错误、分页响应等扰动),在 MCPMark 提升 12.3、WideSearch 提升 16.3,甚至在 WideSearch 上超越使用真实搜索引擎训练的 Real RL(F1 50.3% vs 45.6%)。
下一状态预测可作为可迁移的元推理能力,实现跨任务泛化。 单轮非工具调用的 LWM RL 预热训练后,直接迁移到多轮工具调用基准,在 Claw-Eval、QwenClawBench 等三个完全未涉足领域上分别涌现 11.3、9.7、9.0 的提升,无需额外微调。

💬 文章金句

- 与其在真实环境里试错,不如先让 AI 学会'预测环境会发生什么'。

  • CPT 注入,SFT 激活,RL 精炼。
  • 可控模拟以真实环境无法实现的方式定向塑造智能体行为。
  • 下一状态预测教会智能体在行动前模拟环境响应。

📊 文章信息

AI 初评:90

来源:通义实验室

作者:通义实验室

分类:人工智能

语言:中文

阅读时间:16 分钟

字数:3958

标签: AI Agent, 世界模型, 模型训练与推理, 强化学习, 模型评测与基准

阅读完整文章

查看原文 → 發佈: 2026-06-24 11:32:00 收錄: 2026-06-24 22:00:40

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。