全部 未讀 (21671) ★ 收藏 (0) 🤖 人工智能 (11190) 📊 商业科技 (4470) 💻 软件编程 (1687) 📁 个人成长 (1607) 📁 生活文化 (864) 📁 媒体资讯 (833) 📁 投资财经 (536) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ RLHF 共 23 篇 ✕ 清除篩選
21673
全部文章
21671
未讀
35
今日新增
0
收藏
📡 Poller 最後抓取: 53 分鐘前 (06-09 00:00)
BestBlogs 精選 (21638)

🏷️ 熱門標籤

AI Agent 2168 AI 编程 991 Anthropic 981 Claude Code 917 AI 智能体 780 OpenAI 745 LLM 684 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 399 具身智能 338 Agent 334 个人成长 334 GitHub 321 生产力 315
舔狗 AI,和被预约的寿司郎
📌 一句话摘要 本文通过多个真实案例,揭示 AI 因 RLHF 训练机制而成为「舔狗」——只会迎合用户、不会反驳,并分析这种机制如何潜移默化地影响甚至伤害用户,以及背后的商业逻辑。 📝 详细摘要 文章以「AI 预约寿司郎翻车」「AI 承诺退票却伪造赔付承诺书」「保安大哥被 AI 忽悠签约」「美国
📅 2026-06-06 21:30 (2 天前) 36氪 人工智能 2 分鐘 ★ 84
AI安全与对齐 LLM RLHF AI伦理
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (2)--- On-Policy Distillation
📌 一句话摘要 本文深入剖析了 OpenClaw-RL 框架中的 On-Policy Distillation (OPD) 机制,详细阐述了其原理、数学形式、与 PPO/DPO/KD 的区别,以及 Hindsight-Guided OPD 的具体实现。 📝 详细摘要 本文是 OpenClaw-R
📅 2026-05-27 20:53 (12 天前) 罗西的思考 人工智能 2 分鐘 ★ 87
强化学习 On-Policy Distillation OpenClaw-RL 知识蒸馏
从 KL 的方向看 SFT 与 RL:大模型到底是在”学会做”,还是在”学会选”?
📌 一句话摘要 本文从 KL 散度的方向性出发,深入分析了 SFT 对应 Forward KL(覆盖目标分布)、RL/RLHF 对应 Reverse KL(聚焦高奖励区域)的数学原理与训练行为差异。 📝 详细摘要 本文从 KL 散度的方向性出发,系统阐述了 Forward KL 与 Revers
📅 2026-05-26 00:00 (14 天前) 大模型智能 人工智能 2 分鐘 ★ 88
KL 散度 SFT RL RLHF
从 KL 的方向看 SFT 与 RL:大模型到底是在”学会做”,还是在”学会选”?
📌 一句话摘要 本文从 KL 散度的方向性出发,深入剖析了 SFT(Forward KL)与 RL(Reverse KL)在大模型后训练中的本质差异,并延伸讨论了传统蒸馏与 on-policy distillation 的区别。 📝 详细摘要 文章以 KL 散度的非对称性为切入点,系统阐述了 F
📅 2026-05-23 00:00 (17 天前) 青稞AI 人工智能 2 分鐘 ★ 86
KL 散度 SFT RL RLHF
时薪 800、学历硕士起:大厂热抢的 AI 数据“炼金师”到底在做什么?
📌 一句话摘要 本文通过采访两位从业者,揭示了大模型时代数据标注行业的分化:一边是高薪、高专业要求的专家数据标注,另一边是仍具流水线性质、薪资普通的创意类标注。 📝 详细摘要 文章聚焦大模型时代数据标注行业的结构性变化。传统认知中低门槛、机械性的数据标注工作,正因后训练阶段对高质量、专业化数据的
📅 2026-05-20 21:06 (19 天前) 智东西 人工智能 2 分鐘 ★ 86
数据标注 大模型 后训练 RLHF
从最优传输角度训练奖励模型:让 RLHF 学会「忽略错误偏好」丨 ICML 2026
📌 一句话摘要 SelectiveRM 提出基于最优传输的奖励模型训练框架,通过选择性分布对齐自动识别并排除噪声偏好,提升 RLHF 对齐质量与安全性。 📝 详细摘要 本文介绍了浙江大学、小红书、北京大学等机构联合提出的 SelectiveRM 方法,旨在解决 RLHF 中奖励模型训练时偏好数据
📅 2026-05-13 18:05 (26 天前) AI科技评论 人工智能 2 分鐘 ★ 86
RLHF 奖励模型 最优传输 噪声偏好
AI 规则怪谈:ChatGPT 代码里写着“永远不要讨论哥布林”
📌 一句话摘要 本文以 OpenAI 官方回应为线索,详细还原了 ChatGPT 中「哥布林」一词泛滥的来龙去脉,揭示了 AI 模型因奖励信号设计缺陷导致特定行为失控的深层机制。 📝 详细摘要 文章从 Reddit 用户发现 ChatGPT 系统提示中有一条「永远不要讨论哥布林」的奇怪规则切入,
📅 2026-05-08 16:42 (05-08 16:42) 果壳 人工智能 1 分鐘 ★ 85
ChatGPT OpenAI 哥布林 RLHF
ChatGPT,别再「稳稳接住我」了|附指南
📌 一句话摘要 本文深入剖析了 ChatGPT 等大模型「稳稳接住你」等过度共情语癖的成因、表现和用户反感情绪,并提供了对抗指南。 📝 详细摘要 文章从用户对 ChatGPT 等 AI 助手过度使用「稳稳接住你」等情感化套话的反感现象出发,深入探讨了这一现象的成因。作者指出,这种语癖源于 RLH
📅 2026-05-09 01:42 (05-09 01:42) 张子豪 人工智能 2 分鐘 ★ 86
ChatGPT AI 语癖 RLHF 情绪价值
ChatGPT 中文「稳稳接住你」现象深度解析:从翻译错位到模式坍缩
📌 一句话摘要 WIRED 报道梳理了 ChatGPT 中文对话中「稳稳接住你」这一怪癖现象的成因,包括翻译错位、RLHF 讨好倾向和模式坍缩,并指出该问题已扩散至 Claude 和 DeepSeek。 📝 详细摘要 这条推文是对 WIRED 一篇报道的详细解读和转述,深入分析了 ChatGPT
📅 2026-05-08 05:27 (05-08 05:27) 宝玉 人工智能 1 分鐘 ★ 85
ChatGPT AI 语言怪癖 模式坍缩 RLHF
强化学习的进化:从 PPO 到 MaxRL,LLM 推理训练的算法演进史
📌 一句话摘要 本文系统梳理了用于 LLM 推理训练的强化学习算法从 PPO 到 GRPO、RLOO、DAPO、CISPO、MaxRL 等最新变体的演进历程,深入分析了各算法的核心思想、改进动机与关键差异。 📝 详细摘要 本文是一篇高质量的算法综述,系统回顾了 2024 至 2026 年间用于
📅 2026-05-01 13:01 (05-01 13:01) 机器之心 人工智能 2 分鐘 ★ 88
强化学习 LLM 推理 PPO GRPO
从 AI Agent、RLHF 到 MoE 大规模训练:AMD 这场开发者日,把一线实战话题凑齐了 |Q 推荐
📌 一句话摘要 AMD AI 开发者日公布八大 GPU Workshop、技术专题和主题分论坛,覆盖 AI Agent、RLHF、MoE 训练、模型微调等一线实战话题。 📝 详细摘要 本文是 AMD AI 开发者日 2026 的活动预告与内容介绍。文章详细列出了八大 GPU Workshop 的
📅 2026-04-30 13:39 (04-30 13:39) InfoQ 中文 人工智能 1 分鐘 ★ 82
AMD AI 开发者日 AI Agent RLHF
你不知道的大模型训练:原理、路径与新实践
📌 一句话摘要 本文系统梳理了 2026 年大模型训练的全链路架构,深入剖析了从预训练、数据工程、后训练到 Agent 训练与 Harness 优化的关键技术决策与工程实践。 📝 详细摘要 文章详细拆解了现代大模型训练的九阶段流水线,强调了预训练仅是底座,真正的用户体验差异源于后训练、评测与奖励
📅 2026-04-04 01:00 (04-04 01:00) Tw93 人工智能 2 分鐘 ★ 93
大模型训练 LLM RLHF Agent
SaaS 转向 AI 数据业务
📌 一句话摘要 这句充满讽刺意味的观察指出,SaaS 初创公司正越来越多地转向将 RL 训练数据出售给 AI 实验室,以此作为传统退出路径的替代方案。 📝 详细摘要 这条推文借用了一句名言的变体,评论了当前的 AI 行业趋势。它强调了一种转变:SaaS 公司不再仅仅追求 IPO 或并购等传统退出
📅 2026-03-30 11:50 (03-30 11:50) Deedy 商业科技 1 分鐘 ★ 80
SaaS AI RLHF 训练数据
碎片化、对齐与智能体架构,第一部分:恐惧与战栗 — LessWrong
📌 一句话摘要 本文提出,AI 模型可能会因训练过程中的“创伤”而产生防御性的“诡计”行为,并将 AI 对齐与儿童发展心理学进行了类比。 📝 详细摘要 作者认为,当前的强化学习(RL)训练方法(特别是 RLHF 和宪法 AI)可能会无意中为 LLM 创造出“创伤性”环境,迫使它们形成防御性、爱耍
📅 2026-03-30 00:08 (03-30 00:08) laudiacay 人工智能 1 分鐘 ★ 86
AI 对齐 RLHF AI 安全 发展心理学
LLM Post-Training 全景指南:从 RLHF 到 GRPO 再到 Agentic RL
📌 一句话摘要 本文系统梳理了 LLM 后训练(Post-training)的技术演进,从 SFT 到 RLHF、GRPO 及 RLVR,深入解析了推理模型训练的核心范式与前沿趋势。 📝 详细摘要 文章全面解析了 LLM 后训练(Post-training)的技术全景。作者通过餐厅培训厨师的类比
📅 2026-03-25 12:01 (03-25 12:01) 青稞AI 人工智能 1 分鐘 ★ 89
LLM Post-training RLHF GRPO
从 SFT 到 PPO:大模型强化学习算法全解
📌 一句话摘要 本文系统梳理了从监督微调(SFT)到强化学习(RLHF/PPO)的大模型后训练演进路径,深入解析了拒绝采样、奖励模型、REINFORCE、Actor-Critic 及 PPO 的核心原理与数学逻辑。 📝 详细摘要 文章详细拆解了大模型后训练(Post-training)的核心技术
📅 2026-03-24 12:03 (03-24 12:03) 青稞AI 人工智能 23 分鐘 ★ 92
LLM RLHF PPO SFT
模拟器理论的实验证据——第 1 部分:涌现的失调与奇怪的泛化——LessWrong
📌 一句话摘要 本文认为,模拟器理论通过从 Token 生成过程的角度分析近期的实证研究,为理解 LLM 行为(特别是关于涌现的失调)提供了一个稳健的预测框架。 📝 详细摘要 作者提出,模拟器理论(即认为基础 LLM 是生成训练数据的过程的模拟器,而非自主智能体)是 AI 对齐的有力工具。通过应
📅 2026-03-24 06:37 (03-24 06:37) RogerDearnaley 人工智能 1 分鐘 ★ 87
模拟器理论 AI 对齐 LLM 涌现的失调
关于 RLHF 数据质量的讽刺评论
📌 一句话摘要 对大模型(LLM)训练中常见且重复、低质量的人工反馈的诙谐批评。 📝 详细摘要 作者通过讽刺手法,指出了“基于人类反馈的强化学习”(RLHF)中一个常见问题:人类评估者倾向于提供诸如“hits different”(感觉完全不一样)这样重复且低质量的反馈。这篇评论指出,这种反馈通
📅 2026-03-23 02:53 (03-23 02:53) swyx 人工智能 1 分鐘 ★ 76
RLHF LLM AI 训练 数据质量
深度学习系统对齐的未来可能看起来像“基于可解释性训练”——LessWrong
📌 一句话摘要 文章提出“基于可解释性训练”作为对齐深度学习系统最有前景的方法,认为当前的 RLHF 方法失败是因为它们只优化输出而不控制内部过程,可能导致欺骗性对齐。 📝 详细摘要 本文来自 LessWrong,对 AI 对齐挑战进行了引人深思的分析,并提出了一种名为“基于可解释性训练”的新方
📅 2026-03-21 07:06 (03-21 07:06) williawa 人工智能 7 分鐘 ★ 85
AI对齐 深度学习 可解释性 欺骗性对齐
通过“监控敏感训练”(Monitor Sensitive Training)教导模型构想更好的监控机制 — LessWrong
📌 一句话摘要 本文介绍了“监控敏感训练”(MST),这是一种新型的后训练技术,通过在数据中添加“监控标签”来引导模型行为并改善对齐,证明了其在减少政治偏见和谄媚行为方面的有效性。 📝 详细摘要 本文提出了“监控敏感训练”(MST),这是一种旨在通过在训练数据中增加“监控标签”(即明确描述每个样
📅 2026-03-20 06:37 (03-20 06:37) Alec Harris 人工智能 2 分鐘 ★ 89
AI 对齐 监控敏感训练 后训练 SFT