KDD-26｜只要 100 条样本，让 LLM 掌握全新领域，Agent 起飞！

📌 一句话摘要

本文介绍 KDD 2026 接收论文 DOMINO，提出一种仅需少量参考样例即可让 LLM 掌握全新领域规律的数据合成方法，解决了「领域说不清」的工程痛点。

📝 详细摘要

文章围绕大模型领域适配中「领域无法被准确描述」的现实问题展开，介绍 Vivo、蚂蚁集团与浙大合作的 KDD 2026 论文 DOMINO。主流数据合成方法（如 Self-Instruct）依赖用户用自然语言写出领域描述，但在时间漂移、隐式规范、混合风格等场景下，这一步几乎不可能完成。DOMINO 的核心思路是让模型从少量真实样例中自动学习领域共同规律，而非记住样本细节。具体做法是让模型同时学习两组软 token：一组承载领域共性，另一组承载样本个性，并用对比目标显式解耦。训练后仅保留领域 token 用于合成新数据，从而生成更丰富、更多样的域内数据。文章在随时间变化的代码任务域上验证了方法有效性，实验表明 DOMINO 在多种强代码大模型骨干上带来一致收益，且用指令模型合成的数据微调基础模型，有机会让基础模型在目标域上超过原本的指令模型版本。最后总结了该方法在工程实践中的价值：无需写领域描述、无需大量 prompt 调整，仅需少量参考样例即可工作。

💡 主要观点

- 主流数据合成方法依赖「能写清领域定义」这一隐含假设，但在许多高价值场景中不成立。 时间漂移的领域、隐式规范的领域、混合风格的领域等场景下，用户很难将领域规律写成可执行的文字，导致合成数据质量差或过拟合。

DOMINO 将「领域定义」从人写文字变为模型从样例中自动学习。 通过让模型同时学习领域共性软 token 和样本个性软 token，并用对比目标解耦，训练后仅保留领域 token 用于合成，避免模型记住样本细节。

DOMINO 在随时间变化的代码任务域上验证有效，且能提升基础模型在目标域上的表现。 实验使用较早样例作为参考，合成数据微调后在较晚测试集上评测，DOMINO 在多种代码大模型上带来一致收益，甚至能让基础模型超过指令模型版本。

💬 文章金句

- 把「领域共同规律」和「单个样本细节」分开学。让模型只把最核心的那部分当成「领域」，把其余东西当成「个例噪声」。

给例子，而不是写定义。
不是把领域写成文字交给模型，而是把领域变成一小批样例，让模型自己归纳出规律。

📊 文章信息

AI 初评：84

来源：PaperAgent

作者：PaperAgent

分类：人工智能

语言：中文

阅读时间：9 分钟

字数：2063

标签： LLM, 数据合成, 领域适配, AI Agent, KDD 2026

阅读完整文章

KDD-26｜只要 100 条样本，让 LLM 掌握全新领域，Agent 起飞！

🤖 問 AI