用数据说话：贴吧 AI CR（小码哥）落地 10 周，bug 密度下降 66.87%

📌 一句话摘要

贴吧 Server 团队分享了将小码哥 AI CR 规模化落地 10 周的完整实践，通过规则定制、自动化评测和三层反馈闭环，将评审占比从 33% 提升至 84%，bug 密度下降 66.87%。

📝 详细摘要

本文详细记录了百度贴吧 Server 团队将内部 AI 代码评审工具「小码哥」规模化落地的 10 周实践。文章以 bug 密度下降 66.87% 的核心数据开篇，展示了 AI CR 的显著效果。团队通过先上量、定制规则、自动化评测和建立协同机制四步策略，将评审占比从 33% 提升至 84%。文章重点介绍了定制规则集的沉淀方法——从历史线上事故和日常 CR 中提炼 14 条规则，以及基于 Comate Skills 和 Sub-agent 的自动化评测工作流，实现了规则迭代的飞轮效应。此外，还详细说明了反馈群、iCafe 卡片和周会组成的三层闭环协同机制。文章为其他团队提供了可直接迁移的方法论和工程资产。

💡 主要观点

- AI CR 规模化落地 10 周后，bug 密度下降 66.87%，评审占比从 33% 提升至 84%。 通过持续推广和规则优化，AI 评审的使用量与 bug 率呈现明确的负相关，验证了 AI CR 在提升代码质量方面的有效性。

定制规则是 AI CR 效果最深层次的护城河，需从历史线上事故和日常 CR 中沉淀。 团队从 25/26 年历史问题中提炼出 14 条定制规则（分语言 22 条），并通过「配置→评测→优化→再评测」的闭环持续迭代，适配业务特异性。

自动化评测工作流是规则迭代的核心基础设施，已实现模板化可迁移。 基于 Comate Skills 和 Sub-agent 构建的评测体系，支持一句话生成全套评测 case 和标准答案，包含推理、评估、标注和报告四个环节，大幅降低规则优化成本。

三层闭环协同机制保障问题落地和规则持续优化。 反馈群实时响应、iCafe 卡片跟踪和周会评审需求的三层机制，确保每条反馈都有响应和闭环，形成正向积累。

💬 文章金句

- bug 密度 -66.87%。这是贴吧 Server 团队，在持续推进小码哥 AI CR 10 周后交出的成绩单。

定制规则从 case 提炼：从历史线上事故和日常 CR 问题中沉淀自己的规则，这是 AI CR 效果最深层次的护城河。
自动化评测必须跟上：利用 agent/skills 工作流，让规则迭代形成「配置→评测→优化→再评测」的飞轮。
我们的目标是让 AI CR 成为贴吧研发流程里不需要想起来、自然存在的一环。就像 CI 检查一样理所当然。

📊 文章信息

AI 初评：87

来源：百度Geek说

作者：百度Geek说

分类：软件编程

语言：中文

阅读时间：14 分钟

字数：3369

标签： AI Code Review, 代码评审, 工程实践, 百度贴吧, 小码哥

阅读完整文章

用数据说话：贴吧 AI CR（小码哥）落地 10 周，bug 密度下降 66.87%

🤖 問 AI