让 AI 自己做增长：基于 OPC 和 Harness 思想的自主增长系统探索

📌 一句话摘要

本文详细介绍了基于 OPC 和 Harness Engineering 思想构建的 AI 自主增长系统，通过多 Agent 架构、状态机流程控制、独立评估门禁和 Benchmark 驱动的自进化机制，实现了从需求发现到代码上线的全链路自动化。

📝 详细摘要

文章分享了作者团队在高德地图 PC 站 SEO 场景下，借鉴 OPC（一人公司）和 Harness Engineering 思想，构建 AI 自主增长系统的实践经验。系统核心架构包括：总控 Orchestrator 负责任务调度与状态管理，通过状态机定义流程、子 Agent 分工、反馈循环和独立评审门禁保障长任务稳定执行；通过将 Planner 和 Builder 拆分为多个专业 Agent 解决上下文污染问题；通过独立的 Evaluator 体系（如 impl_reviewer、prd_reviewer 等）保证评估客观性。文章重点阐述了如何通过 Benchmark 数据集和评分体系实现 Agent 的自进化，三轮优化将评审均分从 64.5 提升至 83.4。最后总结了踩坑经验，包括环境工具化、评审报告标准化、端到端工程化难度、以及重新理解「完全无人干预」等，并展望了 OPC + AI Agent 的未来。

💡 主要观点

- 基于 Harness Engineering 构建多 Agent 自主增长系统，实现从需求发现到代码上线的全链路自动化。 系统通过总控 Orchestrator、状态机流程、子 Agent 分工和独立评审门禁，让 AI 能够自主完成增长机会发现、方案设计、代码实现和部署上线的完整闭环，全程无需人工干预。

通过拆分 Planner 和 Builder 为多个专业 Agent，有效解决上下文污染和爆炸问题。 将 Planner 拆分为 product、design、arch 三个 Agent，Builder 拆分为 testcase 和 builder 两个 Agent，每个 Agent 专注单一职责，强制每次启动新 SubAgent，避免上下文污染导致生成质量下降。

建立独立的 Evaluator 体系和 Benchmark 驱动的自进化机制，持续提升评审能力。 通过 code snippets 和 full project 两层 Benchmark 数据集，配合三层评估流程（代码质量、静态质量、动态运行质量）和快速失败优先原则，实现评审能力的可量化评估和持续优化，三轮优化后均分从 64.5 提升至 83.4。

端到端自动化的工程化难度被严重低估，需要重视环境一致性、状态管理、超时策略和可追溯日志。 串联多个 Agent 的工程复杂度远超预期，包括状态判断、超时管理、环境一致性、失败追溯等问题，需要系统化的工程设计和持续迭代才能保障稳定性。

现阶段真正有价值的不是追求 100% 无人化，而是将人工干预频率降到一个人可同时监护几十个任务的水平。 完全无人干预不是 0/1 状态，系统价值在于放大个人产能，让一个人能管理多个并行任务，仅在关键节点人工介入，实现 OPC 模式下的效率倍增。

💬 文章金句

- 评审与生成彻底分离：同一个 AI 既写又审行不通——它给自己打满分太容易了。Evaluator 只输出反馈，不改代码。

零信任：Builder 说'测试通过了'，Evaluator 得自己跑一遍测试。Builder 说'服务已启动'，得自己验证。没亲自验证过的声明，一律当不存在。
宁可让 Evaluator 花 10 次 1 秒钟快速退回，也不允许 1 次 4 分钟的无效评审。
完全无人干预不是一个 0/1 的状态，我们认为现阶段真正有价值的不是追求 100% 的无人化，而是把人工干预的频率和成本降到足够低。
评审能力提升不靠感觉，靠数据说话。

📊 文章信息

AI 初评：90

来源：阿里云开发者

作者：阿里云开发者

分类：人工智能

语言：中文

阅读时间：45 分钟

字数：11188

标签： AI Agent, Harness Engineering, OPC, 多 Agent 架构, 自主增长

阅读完整文章

让 AI 自己做增长：基于 OPC 和 Harness 思想的自主增长系统探索

🤖 問 AI