本文通过采访两位从业者,揭示了大模型时代数据标注行业的分化:一边是高薪、高专业要求的专家数据标注,另一边是仍具流水线性质、薪资普通的创意类标注。
📝 详细摘要
文章聚焦大模型时代数据标注行业的结构性变化。传统认知中低门槛、机械性的数据标注工作,正因后训练阶段对高质量、专业化数据的需求而出现分化。一方面,字节、阿里等大厂推出专家数据平台,招募金融、法律、医学等领域的资深从业者,以时薪制(可达 500 元/小时)进行模型评测和偏好数据构建,工作内容涉及复杂判断和过程解释。另一方面,以 AI 小说标注为代表的创意类标注,虽对写作能力有要求,但本质上仍是高度细分、标准化的流水线工作,薪资水平较低(约 8000 元/月),工作氛围压抑。文章通过 Molly 和渊星两位受访者的对比,展现了同一行业下截然不同的职业现实,并探讨了如何更有尊严地对待人类经验在 AI 训练中的价值。
💡 主要观点
- 大模型后训练阶段催生了对高质量、专业化数据标注的需求。 随着互联网数据枯竭,模型能力提升越来越依赖人工反馈,特别是金融、法律等专业领域,需要具备深厚行业经验的人来产出高质量数据。
💬 文章金句
- 数据标注正成为一项更有技术含量的工作。
- 很多硕博学生没有真正的从业经历,所以很难设计出有行业深度的问题。
- 抛去创意工作的外壳,其本质上是一套高度细分的数据生产流程。
- 制造数据、训练 AI 本质上是一种知识共享过程。
- 如何让人的经验被更有尊严地对待、让专业判断的价值被更清晰地看见,正在成为这个新生产体系中无法回避的问题。
📊 文章信息
AI 初评:86
来源:智东西
作者:智东西
分类:人工智能
语言:中文
阅读时间:18 分钟
字数:4280
标签: 数据标注, 大模型, 后训练, RLHF, AI 行业