DataClawBench 是一个基于 492 个真实金融智库任务的数据分析评测基准,通过保留未清洗数据和隐藏数据源先验,对前沿大模型进行过程级评估,揭示了它们在真实探索式分析场景中的能力边界与失败模式。
📝 详细摘要
本文由中山大学陈川课题组联合南方周末科创力研究中心发布,介绍了 DataClawBench 评测基准。该基准的核心创新在于保留了真实数据分析中的「探索负担」——数据未经预清洗、数据源和 schema 未被指定,要求 Agent 自主探索。基准包含 492 个来自真实智库咨询任务,横跨企业、产业和政策三大领域,并提供了唯一客观答案、关键里程碑和参考轨迹三层标注。实验评测了 8 款前沿 LLM Agent,结果显示最强模型 Claude Opus 4.6 整体准确率仅 63.4%,其余均低于 50%。通过过程级评估,文章将模型失败模式分为决断派、磨叽坚持派、乱试派和躺平派四类,并发现 Agent 通常在早期就丢失分析线索,且失败原因不仅在于执行错误操作,还在于操作失败后选择了错误的停止方式。
💡 主要观点
- DataClawBench 通过保留真实数据环境的「探索负担」来评估 Agent 能力。 与现有简化数据环境的 Benchmark 不同,DataClawBench 不预先指定数据源、不提供完整 schema、不预清洗数据,要求 Agent 自主在未知嘈杂环境中探索和发现所需数据,更贴近真实部署场景。
💬 文章金句
- 真实的数据分析,从来不是「读一段表、出几个相关的数」。它本质上是一个准确度要求很高的开放式工作流。
- 要让评测分数真正能预测现实部署表现,Benchmark 就必须把数据负担原样保留下来,否则跑出来的高分很容易在落地时打回原形。
- 同一个错误答案可能隐藏着完全不同的过程失败模式。
- Agent 丢失分析线索,不仅因为它执行了错误的操作,还因为它在操作失败后选择了错误的停止方式。
📊 文章信息
AI 初评:88
来源:AI前线
作者:AI前线
分类:人工智能
语言:中文
阅读时间:18 分钟
字数:4360
标签: DataClawBench, 数据分析 Agent, 评测基准, 大模型评估, 金融数据分析