280 美元一单！1000 名工程师教 Claude 写好代码

📌 一句话摘要

Anthropic 通过 Snorkel 平台，以 280 美元/任务的价格雇佣约 1000 名外部工程师，通过 A/B 测试和代码评审的方式，为 Claude Code 提供高质量的过程数据，以提升其生成代码的安全性、可靠性和可维护性。

📝 详细摘要

本文基于 Business Insider 的报道，详细披露了 Anthropic 提升其 AI 编程智能体 Claude Code 能力的秘密项目「Marlin」。该项目通过数据公司 Snorkel AI，雇佣约 1000 名软件工程师，对 Claude Code 生成的代码进行 A/B 测试和评审。每个任务报酬 280 美元，工程师需要从安全性、可靠性、可维护性等维度评判模型输出，并选出更优方案。文章指出，Anthropic 购买的并非代码，而是资深工程师头脑中关于「好代码」的判断力。文章进一步分析了 Snorkel AI 从「弱监督」数据标注公司转型为前沿模型「数据军火商」的背景，并横向对比了 Cursor、OpenAI、xAI 等巨头在获取「过程数据」上的不同策略（产品数据、强化学习、资本收购）。最后，文章引用 SWE-chat 论文数据（智能体代码仅 44% 被采纳），论证了在传统基准测试饱和的当下，真实工程现场中的人类判断与反馈，才是 AI 编程模型下一阶段竞争的核心护城河。

💡 主要观点

- Anthropic 通过高价雇佣外部工程师，为 Claude Code 提供高质量的过程数据。 项目「Marlin」以 280 美元/任务的价格，雇佣约 1000 名软件工程师对 Claude Code 的输出进行 A/B 测试和评审，重点评估代码的安全性、可靠性和可维护性，而非简单的功能正确性。

AI 编程模型的竞争焦点已从「写对」转向「写得安全、可靠、可维护」。 随着 AI 智能体能够直接操作代码库和运行命令，其犯错的代价急剧升高。因此，训练目标也从生成正确代码，升级为生成符合资深工程师判断标准的生产级代码。

Snorkel AI 等数据公司已成为前沿模型公司的「隐形供应链」。 Snorkel 从最初的「弱监督」数据标注公司转型，通过组织专家大军（博士、律师、工程师等）为前沿 AI 提供高质量的判断和反馈，其商业模式反映了当前 AI 训练对稀缺人类品味的巨大需求。

获取真实「过程数据」是各大巨头提升 AI 编程能力的共同路径。 Anthropic 购买外部专家反馈，Cursor 积累用户产品行为数据，OpenAI 通过强化学习在沙箱中自我迭代，xAI 试图收购产品入口。尽管路径不同，但核心都是获取接近真实工程现场的数据。

传统基准测试已饱和，人类工程师的「工程直觉」是当前 AI 编程模型的核心瓶颈。 SWE-chat 论文显示，AI 智能体生成的代码仅有 44% 被用户采纳。这表明，在 HumanEval 等基准测试刷分意义不大，真正的挑战在于如何将人类在反复试错中形成的工程判断力转化为模型可学习的数据。

💬 文章金句

- Anthropic 购买的并非代码，而是资深程序员头脑中那个如何把代码写得更安全、更干净的判断。

给最聪明的 AI 喂料的，就是这样一支散布全球、看不见的专家大军。
真正的护城河，是人的品味和判断。
谁能把工程现场变成模型能消化的数据，谁就握住了进入 AI 编程下一程的入场券。

📊 文章信息

AI 初评：86

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：18 分钟

字数：4384

标签： AI 编程, Claude Code, 数据标注, AI Agent, 模型训练

阅读完整文章

280 美元一单！1000 名工程师教 Claude 写好代码

🤖 問 AI