全部 未讀 (21671) ★ 收藏 (0) 🤖 人工智能 (11190) 📊 商业科技 (4470) 💻 软件编程 (1687) 📁 个人成长 (1607) 📁 生活文化 (864) 📁 媒体资讯 (833) 📁 投资财经 (536) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ On-Policy Distillation 共 4 篇 ✕ 清除篩選
21673
全部文章
21671
未讀
35
今日新增
0
收藏
📡 Poller 最後抓取: 51 分鐘前 (06-09 00:00)
BestBlogs 精選 (21638)

🏷️ 熱門標籤

AI Agent 2168 AI 编程 991 Anthropic 981 Claude Code 917 AI 智能体 780 OpenAI 745 LLM 684 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 399 具身智能 338 Agent 334 个人成长 334 GitHub 321 生产力 315
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (2)--- On-Policy Distillation
📌 一句话摘要 本文深入剖析了 OpenClaw-RL 框架中的 On-Policy Distillation (OPD) 机制,详细阐述了其原理、数学形式、与 PPO/DPO/KD 的区别,以及 Hindsight-Guided OPD 的具体实现。 📝 详细摘要 本文是 OpenClaw-R
📅 2026-05-27 20:53 (12 天前) 罗西的思考 人工智能 2 分鐘 ★ 87
强化学习 On-Policy Distillation OpenClaw-RL 知识蒸馏
系统聊聊 On-Policy Distillation 的原理
📌 一句话摘要 本文系统梳理了 On-Policy Distillation 的原理、与离线蒸馏和强化学习的对比,并介绍了 OPSD、SDFT、SDPO、OPCD、OEL、G-OPD 等最新研究进展。 📝 详细摘要 文章从大模型预训练、SFT、RL 的基础知识出发,引出知识蒸馏的核心概念,并深入
📅 2026-04-27 16:14 (04-27 16:14) AINLP 人工智能 2 分鐘 ★ 86
On-Policy Distillation 知识蒸馏 大模型训练 强化学习
影响 OPD work 的因素有哪些?聊聊 Rethinking OPD 这一路
📌 一句话摘要 本文深入分析了影响 On-Policy Distillation (OPD) 效果的关键因素,包括思维模式匹配、信息增益和跨尺寸蒸馏的挑战,并提出了冷启动和提示选择等实用干预策略。 📝 详细摘要 文章基于清华大学 THUNLP 团队的最新研究,系统探讨了 OPD 在 LLM 训练
📅 2026-04-25 00:00 (04-25 00:00) 青稞AI 人工智能 2 分鐘 ★ 87
On-Policy Distillation LLM 训练 知识蒸馏 强化学习
Rethinking On-Policy Distillation of Large Language Models: 现象、机制与配方
📌 一句话摘要 本文系统性地分析了 On-Policy Distillation 的成功条件与失败机制,指出师生模型的思维模式一致性与教师提供增量知识是关键,并揭示了高概率 Token 对齐的微观动态,最后提出了 SFT 冷启动和 Prompt 对齐等实用策略。 📝 详细摘要 文章对近期热门的
📅 2026-04-17 12:30 (04-17 12:30) 青稞AI 人工智能 2 分鐘 ★ 89
On-Policy Distillation 知识蒸馏 大语言模型 训练动力学