全部 未讀 (21615) ★ 收藏 (0) 🤖 人工智能 (11168) 📊 商业科技 (4461) 💻 软件编程 (1685) 📁 个人成长 (1605) 📁 生活文化 (857) 📁 媒体资讯 (827) 📁 投资财经 (529) 🎨 产品设计 (408) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ 知识蒸馏 共 12 篇 ✕ 清除篩選
21617
全部文章
21615
未讀
204
今日新增
0
收藏
📡 Poller 最後抓取: 16 分鐘前 (06-08 20:00)
BestBlogs 精選 (21582)

🏷️ 熱門標籤

AI Agent 2157 AI 编程 985 Anthropic 981 Claude Code 916 AI 智能体 780 OpenAI 745 LLM 674 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 398 具身智能 334 Agent 334 个人成长 331 GitHub 321 生产力 315
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (2)--- On-Policy Distillation
📌 一句话摘要 本文深入剖析了 OpenClaw-RL 框架中的 On-Policy Distillation (OPD) 机制,详细阐述了其原理、数学形式、与 PPO/DPO/KD 的区别,以及 Hindsight-Guided OPD 的具体实现。 📝 详细摘要 本文是 OpenClaw-R
📅 2026-05-27 20:53 (11 天前) 罗西的思考 人工智能 2 分鐘 ★ 87
强化学习 On-Policy Distillation OpenClaw-RL 知识蒸馏
OPD 深度解析:从数学推导到 DeepSeekV4、SWIFT 与 verl 实践
📌 一句话摘要 本文从数学推导出发,系统性地解析了同策略蒸馏(OPD)的核心原理、关键维度(prefix 来源、teacher 信号粒度、KL 方向、优化方式),并详细对比了 MiniLLM、DeepSeek V4、SWIFT、verl 等主流框架的实现差异与实践选择。 📝 详细摘要 本文是一篇
📅 2026-05-15 00:22 (24 天前) 大模型智能 人工智能 3 分鐘 ★ 88
OPD 同策略蒸馏 知识蒸馏 大语言模型
TPAMI 2026 | GNN 潜力真的释放了吗?BiKT 让 MLP 反向补课
📌 一句话摘要 本文介绍了一项被 TPAMI 2026 收录的研究 BiKT,该研究通过双向知识转移框架,让 GNN 与仅含特征变换操作的 MLP 互相学习,从而释放 GNN 中特征变换操作的潜力,并实现 20-100 倍的推理加速。 📝 详细摘要 本文解读了发表于 TPAMI 2026 的论文
📅 2026-05-13 12:33 (26 天前) PaperWeekly 人工智能 2 分鐘 ★ 82
GNN MLP 知识蒸馏 特征变换
VLA 大模型部署的成本被同济 ActDistill 打下来了!
📌 一句话摘要 同济大学等机构提出的 ActDistill 方法,通过动作引导的知识蒸馏和动态路由,在不牺牲性能的前提下将 VLA 大模型的计算量压缩一半以上,实现最高 1.67 倍推理加速。 📝 详细摘要 本文介绍了同济大学等机构提出的 ActDistill 方法,旨在解决 VLA(Visio
📅 2026-05-09 11:22 (05-09 11:22) PaperAgent 人工智能 2 分鐘 ★ 82
VLA 知识蒸馏 具身智能 模型压缩
张雪峰被蒸馏,打工人被「永生」
📌 一句话摘要 本文以「张雪峰.skill」和「同事.skill」等开源项目为引,深入探讨了 AI 技能包(Skill)技术对职场、法律和人文伦理的冲击,揭示了技术蒸馏背后关于人的工具性与主体性的深刻矛盾。 📝 详细摘要 文章从 GitHub 上爆火的「张雪峰.skill」和「同事.skill」
📅 2026-04-28 08:00 (04-28 08:00) 36氪 人工智能 1 分鐘 ★ 86
AI技能包 知识蒸馏 数字分身 AI伦理
系统聊聊 On-Policy Distillation 的原理
📌 一句话摘要 本文系统梳理了 On-Policy Distillation 的原理、与离线蒸馏和强化学习的对比,并介绍了 OPSD、SDFT、SDPO、OPCD、OEL、G-OPD 等最新研究进展。 📝 详细摘要 文章从大模型预训练、SFT、RL 的基础知识出发,引出知识蒸馏的核心概念,并深入
📅 2026-04-27 16:14 (04-27 16:14) AINLP 人工智能 2 分鐘 ★ 86
On-Policy Distillation 知识蒸馏 大模型训练 强化学习
影响 OPD work 的因素有哪些?聊聊 Rethinking OPD 这一路
📌 一句话摘要 本文深入分析了影响 On-Policy Distillation (OPD) 效果的关键因素,包括思维模式匹配、信息增益和跨尺寸蒸馏的挑战,并提出了冷启动和提示选择等实用干预策略。 📝 详细摘要 文章基于清华大学 THUNLP 团队的最新研究,系统探讨了 OPD 在 LLM 训练
📅 2026-04-25 00:00 (04-25 00:00) 青稞AI 人工智能 2 分鐘 ★ 87
On-Policy Distillation LLM 训练 知识蒸馏 强化学习
苹果研究:通过线性化注意力中间体实现 Transformer 到 Mamba SSM 的跨架构蒸馏
📌 一句话摘要 苹果的研究展示了如何通过一个线性化注意力中间体,将 Transformer 模型蒸馏成 Mamba 状态空间模型,并取得更优的困惑度。 📝 详细摘要 这条推文详细解读了苹果公司的一项研究进展:实现从 Transformer 架构到 Mamba 状态空间模型(SSM)的跨架构知识蒸
📅 2026-04-20 07:23 (04-20 07:23) Berryxia.AI 人工智能 1 分鐘 ★ 79
Mamba Transformer 知识蒸馏 状态空间模型
开源「仓颉.Skill」,你现在可以蒸馏任何书!
📌 一句话摘要 本文介绍了作者开源的「仓颉.Skill」项目,这是一个利用多阶段 AI 流水线将书籍内容“蒸馏”成可被 Agent 自动调用的、具有明确触发条件和执行步骤的原子化技能的方法论与实践。 📝 详细摘要 文章详细阐述了作者为解决“读过的书用不上”这一痛点而开发的「仓颉.Skill」项目
📅 2026-04-17 08:29 (04-17 08:29) 袋鼠帝AI客栈 人工智能 2 分鐘 ★ 87
AI Agent 知识蒸馏 Skill 开源项目
Rethinking On-Policy Distillation of Large Language Models: 现象、机制与配方
📌 一句话摘要 本文系统性地分析了 On-Policy Distillation 的成功条件与失败机制,指出师生模型的思维模式一致性与教师提供增量知识是关键,并揭示了高概率 Token 对齐的微观动态,最后提出了 SFT 冷启动和 Prompt 对齐等实用策略。 📝 详细摘要 文章对近期热门的
📅 2026-04-17 12:30 (04-17 12:30) 青稞AI 人工智能 2 分鐘 ★ 89
On-Policy Distillation 知识蒸馏 大语言模型 训练动力学
用强化学习做知识蒸馏,方差太大怎么办?
📌 一句话摘要 本文介绍了 KETCHUP 方法,一种通过 K-step return 和 teacher 模型 Q-value 来构造 baseline,从而有效降低 RL-based 知识蒸馏中 REINFORCE 算法高方差问题的技术方案。 📝 详细摘要 文章聚焦于强化学习用于知识蒸馏时
📅 2026-04-15 19:00 (04-15 19:00) 青稞AI 人工智能 2 分鐘 ★ 88
强化学习 知识蒸馏 方差缩减 REINFORCE
NanoVDR:将 2B 视觉语言模型蒸馏为 70M 纯文本编码器
📌 一句话摘要 NanoVDR 引入了一种新方法,将 2B 参数的视觉语言检索模型蒸馏为高效的 70M 纯文本编码器,用于视觉文档检索。 📝 详细摘要 这条推文重点介绍了一篇名为“NanoVDR”的研究论文。其核心贡献在于一种知识蒸馏技术,能够将拥有 2B 参数的大型视觉语言模型(VLM)压缩为
📅 2026-03-17 00:00 (03-17 00:00) AK 人工智能 1 分鐘 ★ 84
NanoVDR 知识蒸馏 视觉语言模型 文档检索