GitHub Copilot CLI 结合不同模型系列提供“第二意见”

📌 一句话摘要

GitHub 为 Copilot CLI 引入了 Rubber Duck，这是一项实验性功能，利用跨系列 AI 模型提供独立的评审，从而减少复杂编码任务中的错误。

📝 详细摘要

GitHub 已在 Copilot CLI 中以实验模式推出了 Rubber Duck，该功能旨在克服 AI 模型在审查自身工作时固有的偏见。通过将编排模型（如 Claude Sonnet）与来自不同系列的审查模型（如 GPT-5.4）配对，Rubber Duck 在规划、实施和测试等关键阶段提供“第二意见”。在 SWE-Bench Pro 上的评估表明，这种跨系列方法显著提升了性能，在处理困难的多文件任务时，弥补了中端模型与顶级模型之间近 75% 的差距。该系统可以在关键检查点自动触发，也可以由用户手动调用。

💡 主要观点

- 跨系列审查可减轻模型偏见。 使用不同的模型系列进行审查，可以避免模型在评估自身输出时产生的共同训练偏见和盲点，从而提供真正独立的第二意见。

复杂任务性能显著提升。 Claude Sonnet + Rubber Duck (GPT-5.4) 的组合在 SWE-Bench Pro 上弥补了与 Claude Opus 之间 74.7% 的性能差距，在处理多文件、高步骤计数的任务时表现出色。

在关键检查点进行策略性激活。 系统会在规划、复杂实施或测试创建后自动触发，以便在错误演变成更大的架构问题之前及早发现它们。

💬 文章金句

- 模型审查自己的工作时，仍然受到自身训练偏见的限制：相同的训练数据和技术，相同的盲点。

Claude Sonnet + Rubber Duck 弥补了 Sonnet 和 Opus 之间 74.7% 的性能差距，在处理困难的多文件和长周期任务时取得了更好的结果。
Rubber Duck 增加了第二个视角……来检查智能体的工作，并列出一份简短、重点突出的高价值关注事项清单：即主要智能体可能遗漏的细节。

📊 文章信息

AI 评分：89

来源：The GitHub Blog

作者：Nick McKenna

分类：人工智能

语言：英文

阅读时间：4 分钟

字数：970

标签： GitHub Copilot, AI 编程助手, LLM, Rubber Duck, 跨模型审查

阅读完整文章

GitHub Copilot CLI 结合不同模型系列提供“第二意见”

🤖 問 AI