通义实验室开源 Qwen-AgentWorld,首个原生语言世界模型,从继续预训练阶段即开始环境建模,在 AgentWorldBench 上超越 GPT-5.4 等前沿模型,并展示可控模拟与跨任务泛化两种应用范式。
📝 详细摘要
文章介绍通义实验室开源的 Qwen-AgentWorld,这是首个覆盖七大领域的语言世界模型,通过 CPT(继续预训练)→SFT(监督微调)→RL(强化学习)三阶段训练,在 AgentWorldBench 上超越 GPT-5.4、Claude Opus 4.8 等模型。文章详细阐述了训练流程的关键设计(轮次级信息论损失掩码、思维链拒绝采样、混合奖励信号),并介绍了 AgentWorldBench 评测基准。在应用层面,文章探索了两种范式:作为解耦的环境模拟器,可控 Sim RL 在 MCP 和搜索任务上超越真实环境训练,且能泛化到未见过的环境;作为统一的智能体基础模型,LWM 预热训练在未涉足领域上涌现显著增益,表明下一状态预测是一种可迁移的元推理能力。项目已开源。
💡 主要观点
- 世界模型三阶段训练流程(CPT→SFT→RL)系统性提升了环境建模能力。 CPT 注入环境知识、SFT 激活思维链推理、RL 精炼模拟真实性,整体方法在 AgentWorldBench 上超越 GPT-5.4,且小模型规模下提升 8.66 分,验证了流水线的有效性。
💬 文章金句
- 与其在真实环境里试错,不如先让 AI 学会'预测环境会发生什么'。
- CPT 注入,SFT 激活,RL 精炼。
- 可控模拟以真实环境无法实现的方式定向塑造智能体行为。
- 下一状态预测教会智能体在行动前模拟环境响应。
📊 文章信息
AI 初评:90
来源:通义实验室
作者:通义实验室
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3958
标签: AI Agent, 世界模型, 模型训练与推理, 强化学习, 模型评测与基准