Harness Engineering: C 端 AIGC 内容生产自优化实践

📌 一句话摘要

本文详细阐述了蚂蚁保保险快查深度解读页面生成系统（DIPG）如何通过离线生成、多 Agent 验证闭环和错误回灌机制，将 C 端 AIGC 内容交付质量从不可控的实时生成转变为可控的离线生产。

📝 详细摘要

本文是阿里云开发者社区发布的一篇深度技术实践文章，作者来自蚂蚁集团。文章系统介绍了 DIPG（Deep Interpretation Page Generator）系统，该系统用于生成保险产品的深度解读 HTML 页面。核心思想是将 C 端 AIGC 内容交付从“实时生成直出”架构翻转成“离线生成-验证-修正-入库-按品开启-直出”的 Harness 模式。文章详细拆解了系统内部的三层 LangGraph 多 Agent 架构：Host Agent 负责编排与精准修正，Research Agent 负责从零生成 HTML，Verify Agent 负责程序化结构校验和 LLM 事实校验。通过一个真实的“孤儿闭合标签”和“幻觉数据”badcase，文章展示了 Verify Agent 如何通过两层校验（程序化+LLM）拦截质量问题。文章还重点介绍了错误模式回灌机制，将 Verify Agent 高频发现的问题蒸馏成 Research Agent 的 prompt 规则，形成“把关-回灌-前移”的持续改进闭环。最后，文章总结了 C 端 AIGC 交付的四大工程经验，并指出该模式可迁移至其他 AI 直面用户的场景。

💡 主要观点

- C 端 AIGC 交付应将离线生成与验证闭环作为主路径，实时生成仅作兜底。 实时生成直出存在时延和质量不可控两大问题。DIPG 采用“离线生成 → Harness 把关 → 持久化产物给用户”的架构，确保用户看到的每一份 HTML 都经过校验，从根本上解决了 LLM 一次过无法保证 100%正确的问题。

多 Agent 系统通过 Host Agent 的 prompt 层行为契约实现灵活的三方协作，而非硬编码的 Graph 边。 DIPG 内部由 Host、Research、Verify 三个 Agent 组成。Host Agent 负责编排，通过 task 工具异步调用 Research 和 Verify Agent。修正闭环由 Host Agent 根据 Verify Agent 的 fix_hint 在已有 HTML 上做局部编辑，而非重新调用 Research Agent，这避免了全盘重写带来的风险。

Verify Agent 采用“程序化校验+LLM 事实校验”两层分工，提升效率和准确率。 程序化校验（如 HTML 结构检查）毫秒级响应、零假阳性，负责处理确定性规则。LLM 事实校验则专注于语义和事实性判断，通过对比 HTML 产物与/audit/目录下的原始数据供给，发现幻觉数据。这种分工让 LLM 的 token 预算全部投入其擅长的领域。

错误回灌机制是系统质量持续演进的关键，将 Verify Agent 的发现蒸馏为 Research Agent 的 prompt 规则。 离线链路不仅把关当次生成，还将高频错误模式（如实体对齐错误、无数据捏造）抽象成通用规则，回灌到 Research Agent 的 prompt 中。这使得系统的一次过能力持续前移，形成“把关-回灌-前移”的持续改进闭环，降低后续验证和修正成本。

💬 文章金句

- C 端 AIGC 不应该把'实时生成给用户'作为默认假设。默认假设应该是'离线生成 → Harness 把关 → 持久化产物给用户'，实时只作为兜底。

能用确定性程序判定的，不要留给 LLM 判。
verify 必须看得到生产原料。事实性校验不是对 HTML 做语言学分析，而是对'HTML 数值 vs 数据源'做对齐。
离线 Harness 在这里承担两重价值：直接价值是不合格的 HTML 不会被刷入 DB、不会被 C 端看到，间接价值是高频错误蒸馏回 prompt 减少下次犯错。

📊 文章信息

AI 初评：92

来源：阿里云开发者

作者：阿里云开发者

分类：人工智能

语言：中文

阅读时间：46 分钟

字数：11413

标签： AIGC, Harness Engineering, 多Agent系统, LangGraph, 质量保障

阅读完整文章

Harness Engineering: C 端 AIGC 内容生产自优化实践

🤖 問 AI