Qwen-AgentWorld 开源：让 Agent 学会“先预测，再行动”

📌 一句话摘要

通义实验室开源 Qwen-AgentWorld，首个原生语言世界模型，从继续预训练阶段即开始环境建模，在 AgentWorldBench 上超越 GPT-5.4 等前沿模型，并展示可控模拟与跨任务泛化两种应用范式。

📝 详细摘要

文章介绍通义实验室开源的 Qwen-AgentWorld，这是首个覆盖七大领域的语言世界模型，通过 CPT（继续预训练）→SFT（监督微调）→RL（强化学习）三阶段训练，在 AgentWorldBench 上超越 GPT-5.4、Claude Opus 4.8 等模型。文章详细阐述了训练流程的关键设计（轮次级信息论损失掩码、思维链拒绝采样、混合奖励信号），并介绍了 AgentWorldBench 评测基准。在应用层面，文章探索了两种范式：作为解耦的环境模拟器，可控 Sim RL 在 MCP 和搜索任务上超越真实环境训练，且能泛化到未见过的环境；作为统一的智能体基础模型，LWM 预热训练在未涉足领域上涌现显著增益，表明下一状态预测是一种可迁移的元推理能力。项目已开源。

💡 主要观点

- 世界模型三阶段训练流程（CPT→SFT→RL）系统性提升了环境建模能力。 CPT 注入环境知识、SFT 激活思维链推理、RL 精炼模拟真实性，整体方法在 AgentWorldBench 上超越 GPT-5.4，且小模型规模下提升 8.66 分，验证了流水线的有效性。

可控模拟使 Sim RL 在多个任务上超越真实环境训练。 通过自然语言指令控制模拟器行为（如注入 API 错误、分页响应等扰动），在 MCPMark 提升 12.3、WideSearch 提升 16.3，甚至在 WideSearch 上超越使用真实搜索引擎训练的 Real RL（F1 50.3% vs 45.6%）。

下一状态预测可作为可迁移的元推理能力，实现跨任务泛化。 单轮非工具调用的 LWM RL 预热训练后，直接迁移到多轮工具调用基准，在 Claw-Eval、QwenClawBench 等三个完全未涉足领域上分别涌现 11.3、9.7、9.0 的提升，无需额外微调。

💬 文章金句

- 与其在真实环境里试错，不如先让 AI 学会'预测环境会发生什么'。

CPT 注入，SFT 激活，RL 精炼。
可控模拟以真实环境无法实现的方式定向塑造智能体行为。
下一状态预测教会智能体在行动前模拟环境响应。

📊 文章信息

AI 初评：90

来源：通义实验室

作者：通义实验室

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3958

标签： AI Agent, 世界模型, 模型训练与推理, 强化学习, 模型评测与基准

阅读完整文章

Qwen-AgentWorld 开源：让 Agent 学会“先预测，再行动”

🤖 問 AI