📡 Poller 最後抓取: 53 分鐘前 (06-09 00:00)
BestBlogs 精選 (21638)
🏷️ 熱門標籤
● 舔狗 AI,和被预约的寿司郎
● 【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (2)--- On-Policy Distillation
📅 2026-05-27 20:53 (12 天前) 罗西的思考 人工智能 2 分鐘 ★ 87
● 从 KL 的方向看 SFT 与 RL:大模型到底是在”学会做”,还是在”学会选”?
● 从 KL 的方向看 SFT 与 RL:大模型到底是在”学会做”,还是在”学会选”?
● 时薪 800、学历硕士起:大厂热抢的 AI 数据“炼金师”到底在做什么?
● 从最优传输角度训练奖励模型:让 RLHF 学会「忽略错误偏好」丨 ICML 2026
● AI 规则怪谈:ChatGPT 代码里写着“永远不要讨论哥布林”
● ChatGPT,别再「稳稳接住我」了|附指南
● ChatGPT 中文「稳稳接住你」现象深度解析:从翻译错位到模式坍缩
● 强化学习的进化:从 PPO 到 MaxRL,LLM 推理训练的算法演进史
● 从 AI Agent、RLHF 到 MoE 大规模训练:AMD 这场开发者日,把一线实战话题凑齐了 |Q 推荐
● 你不知道的大模型训练:原理、路径与新实践
● SaaS 转向 AI 数据业务
● 碎片化、对齐与智能体架构,第一部分:恐惧与战栗 — LessWrong
● LLM Post-Training 全景指南:从 RLHF 到 GRPO 再到 Agentic RL
📅 2026-03-25 12:01 (03-25 12:01) 青稞AI 人工智能 1 分鐘 ★ 89
● 从 SFT 到 PPO:大模型强化学习算法全解
● 模拟器理论的实验证据——第 1 部分:涌现的失调与奇怪的泛化——LessWrong
● 关于 RLHF 数据质量的讽刺评论
● 深度学习系统对齐的未来可能看起来像“基于可解释性训练”——LessWrong
● 通过“监控敏感训练”(Monitor Sensitive Training)教导模型构想更好的监控机制 — LessWrong