15 个前沿大模型，100 个职业场景：谁才是最强 AI 打工人？

📌 一句话摘要

本文介绍了通义千问与港中文联合发布的 OccuBench 评测基准，它利用语言世界模型模拟 100 个职业场景，对 15 个前沿大模型的 AI Agent 能力进行了系统性评测，并揭示了模型在专业领域、故障处理及环境模拟能力上的显著差异。

📝 详细摘要

文章详细解读了由通义千问团队和香港中文大学联合发布的 AI Agent 评测基准 OccuBench。该基准的核心创新在于提出了语言世界模型的概念，即利用大语言模型本身来模拟难以构建真实测试环境的复杂职业场景，从而将环境构建从工程问题转化为配置问题。OccuBench 覆盖了 10 大行业、100 个职业场景和 382 个评测实例。文章重点展示了基于该基准对 15 个前沿大模型的评测结果，包括 GPT-5.2、Claude 全系列、Gemini 等。主要发现包括：没有全能模型，各模型在不同行业表现差异显著；隐式故障比显式故障对 Agent 的挑战更大；模型规模、代际迭代和推理深度依然遵循 Scaling Law；优秀的 Agent 模型未必是可靠的环境模拟器。文章通过多个具体案例生动说明了这些发现，并提供了 OccuBench 的开源地址。

💡 主要观点

- OccuBench 通过语言世界模型创新性地解决了复杂职业场景的 Agent 评测难题。 传统 Agent 评测受限于真实环境的不可得性。OccuBench 让 LLM 根据配置扮演特定职业系统，实现了对急诊分诊、核电站报警等高价值、高封闭性场景的低成本、可扩展评测。

评测结果显示，当前大模型在职业场景中尚无全能选手，且对隐式故障的鲁棒性普遍不足。 GPT-5.2 总分第一但在电商领域落后 Qwen 14 个百分点。所有模型在遭遇数据截断等无报错的隐式故障时，性能下降幅度远超显式故障，揭示了 Agent 在真实复杂环境中自主性的关键短板。

Agent 能力与环境模拟能力是两种不同的能力，这对基于 LLM 模拟的评测与训练方案具有重要启示。 交叉实验发现，作为 Agent 表现最佳的 GPT-5.2，在充当环境模拟器时却导致所有 Agent 平均分暴跌，暴露出其存在状态虚构、实体遗漏等问题，而 Qwen 3.5 Plus 的模拟一致性更高。

💬 文章金句

- 环境的构建从工程问题变成了配置问题，不用写后端代码，不用搭基础设施，只要 LLM 能理解这个领域就行。

每个模型都有自己擅长和不擅长的行业。这启示我们，在实际生产中，选 Agent 不能只看总分，还得看你的具体场景。
隐式故障就不一样了...数据截断了，但返回格式完全正确，没有报错信号，Agent 不知道自己拿到的数据是残缺的。
做 agent 和做环境模拟器，看起来是两种不太一样的能力。这个结果对所有用 LLM 模拟环境来做评测/训练的方案来说，都值得参考。

📊 文章信息

AI 初评：87

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3305

标签： AI Agent, 评测基准, 语言世界模型, OccuBench, 大模型评测

阅读完整文章

15 个前沿大模型，100 个职业场景：谁才是最强 AI 打工人？

🤖 問 AI