verify-data：一个端到端的数据验数 Agent Skill

📌 一句话摘要

本文系统介绍了阿里云团队开发的 verify-data Agent Skill，通过自然语言交互自动完成数据验数全流程，将传统手工验数从 2-4 小时压缩至 30 分钟以内。

📝 详细摘要

文章详细介绍了 verify-data，一个面向数据开发团队的端到端数据验证 Agent Skill。该技能通过自然语言交互，自动完成从表结构获取、基准表发现、代码逻辑分析、验数 SQL 生成、执行到报告发布的全流程。核心能力包括两阶段基准表自动发现策略、10 类标准化验数 SQL 模板、Code Diff 驱动的风险扫描、4 种降级验数策略以及评审级报告自动生成。文章从背景痛点、核心架构、实战案例、设计原则、踩坑经验、当前挑战和未来展望等多个维度进行了系统阐述。作者强调，标准化比智能化更重要，踩坑记录是核心资产，红线约束是保障 Agent 可靠性的关键。该方案基于 MaxCompute、DataWorks 和钉钉文档实现，但核心设计思路与具体平台无关。

💡 主要观点

- verify-data 通过 Agent Skill 将数据验数流程标准化和自动化，大幅提升效率。 传统手工验数需 2-4 小时，verify-data 通过 7-9 步主流程和条件触发的子步骤，将时间压缩至 30 分钟内，实现从手写多条 SQL 到一句话触发的转变。

两阶段基准表自动发现策略解决了基准表选错的核心痛点。 通过血缘发现候选集和指标/维度精排两阶段策略，自动计算综合评分选择最优基准表，支持多基准表联合覆盖，并在无基准表时提供 4 种降级策略兜底。

10 类标准化 SQL 模板和 Code Diff 风险扫描确保验证覆盖度和深度。 10 类模板覆盖总量对比、关联膨胀检测、日期维度关联校验等关键验证项，Code Diff 扫描 8 类风险信号并生成定量证实 SQL，从知道差了多少到知道为什么差。

踩坑记录和红线约束是 Agent 工具可靠性的核心保障。 19 条踩坑记录沉淀在 lessons-learned.md 中防止重复犯错，4 条强制红线从流程层面约束 Agent 行为，避免在边缘场景翻车。

💬 文章金句

- 标准化比智能化更重要：验数最关键的是覆盖度和可重复性，10 类标准化模板比'让 AI 自由发挥'可靠得多。

踩坑记录是核心资产：lessons-learned.md 里记录的 19 条实战经验，每一条都是真实踩过的坑。没有这些，Agent 就会重复犯同样的错误。
红线要硬：关键红线在流程层面做了约束，不是'建议'而是'强制'。没有红线的 Agent 工具很容易在边缘场景翻车。
从最高频场景开始：不要试图一开始就覆盖所有场景。我们先做了 S1 新表上线和 S2 迭代对比，这两个场景占了 80% 的验数需求。

📊 文章信息

AI 初评：88

来源：阿里云开发者

作者：阿里云开发者

分类：人工智能

语言：中文

阅读时间：38 分钟

字数：9396

标签： Agent Skill, 数据验证, 数据质量, AI Agent, 大数据

阅读完整文章

verify-data：一个端到端的数据验数 Agent Skill

🤖 問 AI