快手技术团队发布 OneSearch-V2 生成式搜索框架,通过自蒸馏隐式推理增强、思维增强查询理解和基于用户行为反馈的偏好对齐,在不增加推理成本的前提下,显著提升电商搜索的点击率、转化率和买家数。
📝 详细摘要
本文详细介绍了快手技术团队在电商搜索领域的最新成果 OneSearch-V2。该框架针对 OneSearch V1 在复杂查询理解、用户意图挖掘和奖励系统过拟合等方面的瓶颈,提出了三项核心创新:一是思维增强的查询理解,利用 LLM 生成关键词级 CoT 来增强语义理解;二是推理内化的自蒸馏,通过信息不对称的自蒸馏机制将显式推理能力编码进模型权重,实现零额外推理成本的性能提升;三是基于用户行为反馈的偏好对齐,提出 TPMA-GRPO 机制实现精准的层次化信用分配。实验表明,该系统已在快手电商搜索平台全量上线,在保持推理成本不变的前提下,商品点击率提升 3.98%,买家数提升 2.07%,订单量提升 2.11%,并有效缓解了信息茧房和长尾稀疏问题。文章还深入分析了不同用户群体、查询频次和商品冷启动场景下的表现,展示了模型的鲁棒性和泛化能力。
💡 主要观点
- OneSearch-V2 通过自蒸馏隐式推理增强,在不增加推理成本的前提下提升搜索性能。 核心创新在于将 LLM 生成的显式推理(关键词级 CoT)通过信息不对称的自蒸馏机制编码进模型权重,使模型在推理时无需额外计算即可获得推理能力,解决了显式推理带来的延迟和成本问题。
💬 文章金句
- 在不增加任何推理成本与服务时延的前提下,取得了商品 CTR 提升 3.98%、买家数提升 2.07%、订单量提升 2.11%的显著业务收益。
- 自蒸馏基于信息不对称原则:教师观察到比学生严格更丰富的输入,而学生在信息劣势下被训练去匹配教师的输出分布。
- Self-Distill (S) 在推理时从未观察到关键词的情况下仍持续优于 Base(T),有力证实推理能力已被编码进模型权重、内化为'直觉'式推理。
- 模型应该学习的是推理的能力,而非推理的结果。
📊 文章信息
AI 初评:90
来源:快手技术
作者:快手技术
分类:人工智能
语言:中文
阅读时间:43 分钟
字数:10585
标签: 生成式搜索, 自蒸馏, 隐式推理, 电商搜索, 偏好对齐