← 回總覽

用数据说话:贴吧 AI CR(小码哥)落地 10 周,bug 密度下降 66.87%

📅 2026-06-01 18:00 百度Geek说 软件编程 2 分鐘 1518 字 評分: 87
AI Code Review 代码评审 工程实践 百度贴吧 小码哥
📌 一句话摘要 贴吧 Server 团队分享了将小码哥 AI CR 规模化落地 10 周的完整实践,通过规则定制、自动化评测和三层反馈闭环,将评审占比从 33% 提升至 84%,bug 密度下降 66.87%。 📝 详细摘要 本文详细记录了百度贴吧 Server 团队将内部 AI 代码评审工具「小码哥」规模化落地的 10 周实践。文章以 bug 密度下降 66.87% 的核心数据开篇,展示了 AI CR 的显著效果。团队通过先上量、定制规则、自动化评测和建立协同机制四步策略,将评审占比从 33% 提升至 84%。文章重点介绍了定制规则集的沉淀方法——从历史线上事故和日常 CR 中提炼 14

📌 一句话摘要

贴吧 Server 团队分享了将小码哥 AI CR 规模化落地 10 周的完整实践,通过规则定制、自动化评测和三层反馈闭环,将评审占比从 33% 提升至 84%,bug 密度下降 66.87%。

📝 详细摘要

本文详细记录了百度贴吧 Server 团队将内部 AI 代码评审工具「小码哥」规模化落地的 10 周实践。文章以 bug 密度下降 66.87% 的核心数据开篇,展示了 AI CR 的显著效果。团队通过先上量、定制规则、自动化评测和建立协同机制四步策略,将评审占比从 33% 提升至 84%。文章重点介绍了定制规则集的沉淀方法——从历史线上事故和日常 CR 中提炼 14 条规则,以及基于 Comate Skills 和 Sub-agent 的自动化评测工作流,实现了规则迭代的飞轮效应。此外,还详细说明了反馈群、iCafe 卡片和周会组成的三层闭环协同机制。文章为其他团队提供了可直接迁移的方法论和工程资产。

💡 主要观点

- AI CR 规模化落地 10 周后,bug 密度下降 66.87%,评审占比从 33% 提升至 84%。 通过持续推广和规则优化,AI 评审的使用量与 bug 率呈现明确的负相关,验证了 AI CR 在提升代码质量方面的有效性。

定制规则是 AI CR 效果最深层次的护城河,需从历史线上事故和日常 CR 中沉淀。 团队从 25/26 年历史问题中提炼出 14 条定制规则(分语言 22 条),并通过「配置→评测→优化→再评测」的闭环持续迭代,适配业务特异性。
自动化评测工作流是规则迭代的核心基础设施,已实现模板化可迁移。 基于 Comate Skills 和 Sub-agent 构建的评测体系,支持一句话生成全套评测 case 和标准答案,包含推理、评估、标注和报告四个环节,大幅降低规则优化成本。
三层闭环协同机制保障问题落地和规则持续优化。 反馈群实时响应、iCafe 卡片跟踪和周会评审需求的三层机制,确保每条反馈都有响应和闭环,形成正向积累。

💬 文章金句

- bug 密度 -66.87%。这是贴吧 Server 团队,在持续推进小码哥 AI CR 10 周后交出的成绩单。

  • 定制规则从 case 提炼:从历史线上事故和日常 CR 问题中沉淀自己的规则,这是 AI CR 效果最深层次的护城河。
  • 自动化评测必须跟上:利用 agent/skills 工作流,让规则迭代形成「配置→评测→优化→再评测」的飞轮。
  • 我们的目标是让 AI CR 成为贴吧研发流程里不需要想起来、自然存在的一环。就像 CI 检查一样理所当然。

📊 文章信息

AI 初评:87

来源:百度Geek说

作者:百度Geek说

分类:软件编程

语言:中文

阅读时间:14 分钟

字数:3369

标签: AI Code Review, 代码评审, 工程实践, 百度贴吧, 小码哥

阅读完整文章

查看原文 → 發佈: 2026-06-01 18:00:00 收錄: 2026-06-01 22:00:46

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。