本文介绍 KDD 2026 接收论文 DOMINO,提出一种仅需少量参考样例即可让 LLM 掌握全新领域规律的数据合成方法,解决了「领域说不清」的工程痛点。
📝 详细摘要
文章围绕大模型领域适配中「领域无法被准确描述」的现实问题展开,介绍 Vivo、蚂蚁集团与浙大合作的 KDD 2026 论文 DOMINO。主流数据合成方法(如 Self-Instruct)依赖用户用自然语言写出领域描述,但在时间漂移、隐式规范、混合风格等场景下,这一步几乎不可能完成。DOMINO 的核心思路是让模型从少量真实样例中自动学习领域共同规律,而非记住样本细节。具体做法是让模型同时学习两组软 token:一组承载领域共性,另一组承载样本个性,并用对比目标显式解耦。训练后仅保留领域 token 用于合成新数据,从而生成更丰富、更多样的域内数据。文章在随时间变化的代码任务域上验证了方法有效性,实验表明 DOMINO 在多种强代码大模型骨干上带来一致收益,且用指令模型合成的数据微调基础模型,有机会让基础模型在目标域上超过原本的指令模型版本。最后总结了该方法在工程实践中的价值:无需写领域描述、无需大量 prompt 调整,仅需少量参考样例即可工作。
💡 主要观点
- 主流数据合成方法依赖「能写清领域定义」这一隐含假设,但在许多高价值场景中不成立。 时间漂移的领域、隐式规范的领域、混合风格的领域等场景下,用户很难将领域规律写成可执行的文字,导致合成数据质量差或过拟合。
💬 文章金句
- 把「领域共同规律」和「单个样本细节」分开学。让模型只把最核心的那部分当成「领域」,把其余东西当成「个例噪声」。
- 给例子,而不是写定义。
- 不是把领域写成文字交给模型,而是把领域变成一小批样例,让模型自己归纳出规律。
📊 文章信息
AI 初评:84
来源:PaperAgent
作者:PaperAgent
分类:人工智能
语言:中文
阅读时间:9 分钟
字数:2063
标签: LLM, 数据合成, 领域适配, AI Agent, KDD 2026