本文汇总了百度入选 ACL 2026 的 23 篇研究成果,重点展示了百度在大模型强化学习、推理优化、长上下文处理及智能体搜索等核心领域的创新技术方案。
📝 详细摘要
本文介绍了百度在 ACL 2026 会议上入选的 23 篇论文,涵盖了大模型安全对齐、强化学习(RL)、推理优化、多模态智能体及长上下文处理等前沿方向。文章详细梳理了多项核心技术创新,如用于提升推理稳定性的 ConsistRM 与 ReflectRM、解决安全与效用冲突的 CAST 框架、提升长篇问答质量的 RioRAG、以及针对长上下文推理的 RRAttention 等。这些研究展示了百度在国产大模型底层技术演进中的深度布局,特别是在通过强化学习提升模型逻辑推理能力与训练效率方面的系统性突破。
💡 主要观点
- 强化学习在推理优化中的深度应用 百度提出了一系列基于强化学习的优化框架(如 TEPO、AAPO、CoVerRL),通过改进奖励建模与策略优化,有效解决了大模型推理中的稀疏奖励、熵崩溃及冗余思考问题。
💬 文章金句
- CAST 核心创新是将安全-效用冲突从全局参数聚焦到单个注意力头,实现精准定位与选择性更新。
- TEPO 词元级策略优化框架,解决大模型数学推理中 GRPO 面临的词元级稀疏奖励、熵崩溃与训练不稳定难题。
- RRAttention 仅计算约一半的注意力块即恢复超过 99% 的全注意力性能,128K 长度下实现 2.4 倍加速。
📊 文章信息
AI 评分:86
来源:百度AI
作者:百度AI
分类:人工智能
语言:中文
阅读时间:53 分钟
字数:13061
标签: ACL 2026, 百度文心, 大模型, 强化学习, 推理优化