ACL 2026 | OPeRA Dataset: LLM 真的能模仿人类行为了吗？首次系统评估 LLM 的人类行为模拟能力

📌 一句话摘要

本文介绍了 ACL 2026 收录的 OPeRA 数据集，这是一个通过记录真实用户在线购物行为轨迹来系统评估大语言模型模拟人类决策能力的数据集与评测框架，揭示了当前 LLM 在细粒度、个性化行为预测上的显著不足。

📝 详细摘要

文章报道了 ACL 2026 会议上的一项研究，该研究提出了 OPeRA 数据集，旨在系统评估大语言模型模拟人类行为的能力。研究指出，当前 LLM 生成的行为虽然看起来合理，但缺乏与真实人类行为的量化对比。OPeRA 通过浏览器插件记录了 51 名真实用户的近 700 个购物会话，包含 step-wise 的行为序列、页面观察、用户画像和实时决策理由，首次为个体化行为预测提供了可验证的数据基础。基于此数据集的评测显示，即使是 GPT-4.1，在预测用户下一步具体操作上的准确率也仅有 20% 左右，模型更倾向于“完成任务”而非“模拟真实人类”，尤其在利用用户画像进行细粒度决策和准确定位交互目标方面存在明显短板。文章最后展望了结合强化学习、多模态感知和个体建模的未来改进方向。

💡 主要观点

- LLM 生成的行为“看起来合理”不等于“接近真实”，缺乏系统性量化评估。 现有研究多关注行为的连贯性和情境合理性，但 OPeRA 研究首次指出，需要基于真实用户的行为轨迹、画像和决策理由，来量化评估 LLM 模拟的准确性，而不仅仅是“可信度”。

OPeRA 数据集填补了人类行为模拟评估的空白，提供了多维度、细粒度的真实数据。 该数据集通过浏览器插件记录真实用户的在线购物行为，同步收集操作、页面上下文、用户画像和实时决策理由，为评估 LLM 在个体化、序列化决策上的能力提供了前所未有的数据基础。

当前主流 LLM 在模拟人类细粒度、个性化行为方面能力仍然有限。 实验表明，GPT-4.1 在预测用户下一步具体操作上的准确率仅约 20%。模型难以有效利用用户画像，且更倾向于生成“完成任务”式的行为，而非反映真实人类可能放弃或做出不同选择的决策模式。

决策理由比用户画像对模型预测更有帮助，揭示了模型推理的依赖路径。 在输入信息中，移除历史决策理由会导致模型性能显著下降，而用户画像的引入对细粒度行为预测的提升有限甚至带来噪声，说明当前模型更依赖显式的中间推理信号而非静态身份信息。

💬 文章金句

- Believable，并不等于 Accurate。

我们关心：在这个具体上下文中，这个具体的人，会不会这样做？
以最优的 GPT-4.1 为例，其下一步行为预测的准确率仅在 20% 左右。
这些现象揭示了一个重要偏差：当前 LLM 更倾向于「完成任务」，而不是「模拟真实人类」。
OPeRA 不仅提供了一个更贴近真实场景的数据集，也揭示了当前 LLM 在人类行为模拟中的能力边界。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3314

标签： LLM, 人类行为模拟, 评测数据集, OPeRA, Agent

阅读完整文章

ACL 2026 | OPeRA Dataset: LLM 真的能模仿人类行为了吗？首次系统评估 LLM 的人类行为模拟能力

🤖 問 AI