当 Agent 真正走进复杂数据分析场景：DataClawBench 用 492 个真实任务，给前沿模型做了一次过程级体检

📌 一句话摘要

DataClawBench 是一个基于 492 个真实金融智库任务的数据分析评测基准，通过保留未清洗数据和隐藏数据源先验，对前沿大模型进行过程级评估，揭示了它们在真实探索式分析场景中的能力边界与失败模式。

📝 详细摘要

本文由中山大学陈川课题组联合南方周末科创力研究中心发布，介绍了 DataClawBench 评测基准。该基准的核心创新在于保留了真实数据分析中的「探索负担」——数据未经预清洗、数据源和 schema 未被指定，要求 Agent 自主探索。基准包含 492 个来自真实智库咨询任务，横跨企业、产业和政策三大领域，并提供了唯一客观答案、关键里程碑和参考轨迹三层标注。实验评测了 8 款前沿 LLM Agent，结果显示最强模型 Claude Opus 4.6 整体准确率仅 63.4%，其余均低于 50%。通过过程级评估，文章将模型失败模式分为决断派、磨叽坚持派、乱试派和躺平派四类，并发现 Agent 通常在早期就丢失分析线索，且失败原因不仅在于执行错误操作，还在于操作失败后选择了错误的停止方式。

💡 主要观点

- DataClawBench 通过保留真实数据环境的「探索负担」来评估 Agent 能力。 与现有简化数据环境的 Benchmark 不同，DataClawBench 不预先指定数据源、不提供完整 schema、不预清洗数据，要求 Agent 自主在未知嘈杂环境中探索和发现所需数据，更贴近真实部署场景。

前沿 LLM Agent 在真实数据分析任务上表现远未成熟。 最强模型 Claude Opus 4.6 整体准确率仅 63.4%，其余 7 个模型均低于 50%，且从中等难度到困难难度存在断崖式下降，表明该问题远未被解决。

过程级评估揭示了结果导向评估无法发现的失败模式差异。 通过 Acc × GPR × TPE 三轴交叉分析，模型被分为决断派、磨叽坚持派、乱试派和躺平派四类，同一错误答案背后可能隐藏着完全不同的过程失败模式。

Agent 通常在早期就丢失分析线索，且失败原因与操作类型和停止方式相关。 多数模型在第一个里程碑就失败，强模型能跨过初始证据获取阶段后才失手。Agent 丢失线索不仅因为执行错误操作，还因为操作失败后选择了错误的停止方式——如聚合计数等操作容易产出貌似合理的错误答案。

💬 文章金句

- 真实的数据分析，从来不是「读一段表、出几个相关的数」。它本质上是一个准确度要求很高的开放式工作流。

要让评测分数真正能预测现实部署表现，Benchmark 就必须把数据负担原样保留下来，否则跑出来的高分很容易在落地时打回原形。
同一个错误答案可能隐藏着完全不同的过程失败模式。
Agent 丢失分析线索，不仅因为它执行了错误的操作，还因为它在操作失败后选择了错误的停止方式。

📊 文章信息

AI 初评：88

来源：AI前线

作者：AI前线

分类：人工智能

语言：中文

阅读时间：18 分钟

字数：4360

标签： DataClawBench, 数据分析 Agent, 评测基准, 大模型评估, 金融数据分析

阅读完整文章

当 Agent 真正走进复杂数据分析场景：DataClawBench 用 492 个真实任务，给前沿模型做了一次过程级体检

🤖 問 AI