快手 OneSearch-V2 全量上线，生成式搜索进入「懂你」时代

📌 一句话摘要

快手技术团队发布 OneSearch-V2 生成式搜索框架，通过自蒸馏隐式推理增强、思维增强查询理解和基于用户行为反馈的偏好对齐，在不增加推理成本的前提下，显著提升电商搜索的点击率、转化率和买家数。

📝 详细摘要

本文详细介绍了快手技术团队在电商搜索领域的最新成果 OneSearch-V2。该框架针对 OneSearch V1 在复杂查询理解、用户意图挖掘和奖励系统过拟合等方面的瓶颈，提出了三项核心创新：一是思维增强的查询理解，利用 LLM 生成关键词级 CoT 来增强语义理解；二是推理内化的自蒸馏，通过信息不对称的自蒸馏机制将显式推理能力编码进模型权重，实现零额外推理成本的性能提升；三是基于用户行为反馈的偏好对齐，提出 TPMA-GRPO 机制实现精准的层次化信用分配。实验表明，该系统已在快手电商搜索平台全量上线，在保持推理成本不变的前提下，商品点击率提升 3.98%，买家数提升 2.07%，订单量提升 2.11%，并有效缓解了信息茧房和长尾稀疏问题。文章还深入分析了不同用户群体、查询频次和商品冷启动场景下的表现，展示了模型的鲁棒性和泛化能力。

💡 主要观点

- OneSearch-V2 通过自蒸馏隐式推理增强，在不增加推理成本的前提下提升搜索性能。 核心创新在于将 LLM 生成的显式推理（关键词级 CoT）通过信息不对称的自蒸馏机制编码进模型权重，使模型在推理时无需额外计算即可获得推理能力，解决了显式推理带来的延迟和成本问题。

思维增强的查询理解有效解决了复杂查询的语义歧义和用户意图挖掘难题。 利用 LLM 生成关键词级 CoT，包含意图理解、类目识别、属性识别和话题推荐，再结合用户画像进行个性化偏好校准，显著提升了头部模糊查询和长尾复杂查询的理解能力。

TPMA-GRPO 机制实现了基于生成位置的精准信用分配，优于标准 GRPO。 针对 SID 序列的层次因果结构，TPMA-GRPO 将序列级奖励分解为位置级边际贡献，并引入前缀门控实现层次化课程学习，使模型先学习粗粒度类目再学习细粒度属性。

在线 A/B 测试显示 OneSearch-V2 在关键业务指标上取得显著提升。 商品点击率提升 3.98%，买家数提升 2.07%，订单量提升 2.11%，且在所有用户群体、查询频次和商品热度级别上均表现出一致的提升，弥补了 V1 在头部和长尾查询上的不足。

💬 文章金句

- 在不增加任何推理成本与服务时延的前提下，取得了商品 CTR 提升 3.98%、买家数提升 2.07%、订单量提升 2.11%的显著业务收益。

自蒸馏基于信息不对称原则：教师观察到比学生严格更丰富的输入，而学生在信息劣势下被训练去匹配教师的输出分布。
Self-Distill (S) 在推理时从未观察到关键词的情况下仍持续优于 Base(T)，有力证实推理能力已被编码进模型权重、内化为'直觉'式推理。
模型应该学习的是推理的能力，而非推理的结果。

📊 文章信息

AI 初评：90

来源：快手技术

作者：快手技术

分类：人工智能

语言：中文

阅读时间：43 分钟

字数：10585

标签：生成式搜索, 自蒸馏, 隐式推理, 电商搜索, 偏好对齐

阅读完整文章

快手 OneSearch-V2 全量上线，生成式搜索进入「懂你」时代

🤖 問 AI