全部 未讀 (21598) ★ 收藏 (0) 🤖 人工智能 (11165) 📊 商业科技 (4460) 💻 软件编程 (1685) 📁 个人成长 (1604) 📁 生活文化 (856) 📁 媒体资讯 (817) 📁 投资财经 (529) 🎨 产品设计 (408) 📁 AI 产品 (39) 📁 体育运动 (27)
篩選中: 🏷️ 后训练 共 18 篇 ✕ 清除篩選
21600
全部文章
21598
未讀
187
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-08 18:00)
BestBlogs 精選 (21565)

🏷️ 熱門標籤

AI Agent 2155 AI 编程 984 Anthropic 981 Claude Code 916 AI 智能体 780 OpenAI 745 LLM 674 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 398 具身智能 334 Agent 334 个人成长 331 GitHub 321 生产力 315
openJiuwen 社区又上新: JiuwenSwarm 给 Harness 装上「后训练」
📌 一句话摘要 openJiuwen 社区开源了评测驱动的 Auto Harness 框架,通过双层架构(Meta Harness 改基座、Expert Harness 加扩展)实现 Agent 外部执行系统的自动化优化,补上了 Agent「后训练」的关键拼图。 📝 详细摘要 本文介绍了 ope
📅 2026-06-05 14:30 (3 天前) InfoQ 中文 人工智能 2 分鐘 ★ 85
AI Agent Auto Harness Agent 工程 后训练
22.9 倍加速!FlashAR:仅用 0.05%数据,让预训练好的自回归图像模型飞起来
📌 一句话摘要 FlashAR 提出一种轻量级后训练加速框架,通过为预训练自回归图像模型新增垂直预测头和对角线并行解码,仅用 0.05% 原始数据即可实现最高 22.9 倍加速,且生成质量几乎无损。 📝 详细摘要 本文介绍了由浙江大学和阿德莱德大学联合提出的 FlashAR 框架,旨在解决自回归
📅 2026-05-23 21:58 (15 天前) 机器之心 人工智能 2 分鐘 ★ 86
FlashAR 自回归图像生成 模型加速 后训练
从 KL 的方向看 SFT 与 RL:大模型到底是在”学会做”,还是在”学会选”?
📌 一句话摘要 本文从 KL 散度的方向性出发,深入剖析了 SFT(Forward KL)与 RL(Reverse KL)在大模型后训练中的本质差异,并延伸讨论了传统蒸馏与 on-policy distillation 的区别。 📝 详细摘要 文章以 KL 散度的非对称性为切入点,系统阐述了 F
📅 2026-05-23 00:00 (16 天前) 青稞AI 人工智能 2 分鐘 ★ 86
KL 散度 SFT RL RLHF
时薪 800、学历硕士起:大厂热抢的 AI 数据“炼金师”到底在做什么?
📌 一句话摘要 本文通过采访两位从业者,揭示了大模型时代数据标注行业的分化:一边是高薪、高专业要求的专家数据标注,另一边是仍具流水线性质、薪资普通的创意类标注。 📝 详细摘要 文章聚焦大模型时代数据标注行业的结构性变化。传统认知中低门槛、机械性的数据标注工作,正因后训练阶段对高质量、专业化数据的
📅 2026-05-20 21:06 (18 天前) 智东西 人工智能 2 分鐘 ★ 86
数据标注 大模型 后训练 RLHF
ACL 2026 Findings | 浙大提出 GFT:On-Policy SFT 视角下的奖励微调
📌 一句话摘要 浙大团队提出 GFT 框架,从训练动力学角度将 SFT 改造为 on-policy 的奖励微调,通过组内优势学习和动态系数修正解决 SFT 单路径依赖和梯度不稳定问题。 📝 详细摘要 本文是浙大团队在 ACL 2026 Findings 上发表的工作 GFT 的技术解读。文章从训
📅 2026-05-18 00:00 (21 天前) 青稞AI 人工智能 2 分鐘 ★ 86
GFT SFT 奖励微调 后训练
无惧 Off-Policy 偏移!Bengio 团队解绑后训练,大模型 RL 提速 50 倍
📌 一句话摘要 Bengio 团队提出 TBA 异步框架,通过解耦采样与训练并引入轨迹平衡目标,使大模型 RL 后训练最高提速 50 倍,同时保持或提升性能。 📝 详细摘要 本文解读了 Bengio 团队在 NeurIPS 2025 提出的 TBA(Trajectory Balance with
📅 2026-05-12 17:07 (27 天前) PaperWeekly 人工智能 2 分鐘 ★ 88
TBA RL 后训练 Off-Policy GFlowNet
前 OpenAI 研究员离职文章核心观点提炼:后训练、评估、对齐与 AI 依赖风险
📌 一句话摘要 一位前 OpenAI 研究员离职后撰文,提炼了关于后训练前沿、评估方法影响力、模型人格塑造、AI 依赖风险及对齐问题的新视角。 📝 详细摘要 该推文提炼了一篇由前 OpenAI 研究员撰写的深度文章的核心观点。文章指出,随着基础模型能力增强,下一个前沿在于后训练阶段;创建正确的评
📅 2026-04-29 00:19 (04-29 00:19) 向阳乔木 人工智能 1 分鐘 ★ 82
OpenAI 后训练 AI 对齐 AI 评估
DeepSeek-V4 技术报告解读: 从架构到 Infra 的全栈重构
📌 一句话摘要 DeepSeek-V4 技术报告深度解读,聚焦百万上下文基础设施重构、CSA/HCA 混合注意力架构、Specialist+OPD 后训练范式以及 Agent 训练基础设施的四根支柱。 📝 详细摘要 本文是对 DeepSeek-V4 技术报告的深度解读,核心叙事是将百万 toke
📅 2026-04-28 12:06 (04-28 12:06) 青稞AI 人工智能 2 分鐘 ★ 88
DeepSeek-V4 MoE 长上下文 混合注意力
AI 真能搞钱了!这家公司把大模型玩成闭环赚钱机器
📌 一句话摘要 零犀科技通过自研因果大模型和 RaaS(按结果付费)商业模式,在保险、金融等垂直领域用 AI 销售智能体帮客户创造确定性业务增量,并在 2025 年实现规模化盈利与正现金流。 📝 详细摘要 本文深度报道了零犀科技如何在大模型行业普遍烧钱的背景下,走出了一条差异化的商业化路径。核心
📅 2026-04-28 15:21 (04-28 15:21) 田, 晏林 人工智能 2 分鐘 ★ 87
因果大模型 RaaS AI销售智能体 后训练
AI 真能搞钱了!这家公司把大模型玩成闭环赚钱机器
📌 一句话摘要 零犀科技通过自研因果大模型和 RaaS(按结果付费)商业模式,在保险、金融等垂直领域用 AI 销售智能体帮客户创造确定性业务增量,并在 2025 年实现规模化盈利与正现金流。 📝 详细摘要 本文深度报道了零犀科技如何在大模型行业普遍烧钱的背景下,走出了一条差异化的商业化路径。核心
📅 2026-04-28 15:21 (04-28 15:21) 田, 晏林 人工智能 2 分鐘 ★ 87
因果大模型 RaaS AI销售智能体 后训练
小米罗福莉深度访谈:AI 范式向 Agent 后训练巨变
📌 一句话摘要 小米大模型负责人罗福莉详解 2026 年 AI 竞争焦点从预训练转向 Agent 后训练,以及 OpenClaw 框架的战略价值。 📝 详细摘要 本推文详细摘要了小米大模型负责人罗福莉的技术访谈。核心观点包括:AI 竞争已进入第二幕,焦点从预训练转向 Agent 后训练(RL S
📅 2026-04-24 13:04 (04-24 13:04) 人工智能 1 分鐘 ★ 87
罗福莉 小米大模型 Agent 后训练 OpenClaw
138. 对罗福莉 3.5 小时访谈:AI 范式已然巨变!OpenClaw、Agent 范式很吃后训练、卡的分配、组织平权
📌 一句话摘要 小米大模型负责人罗福莉首次深度技术访谈,详解 2026 年 AI 范式从预训练向 Agent 后训练巨变,以及 OpenClaw 框架如何通过群体智能和开源生态重塑研究效率与组织方式。 📝 详细摘要 本期播客是小米大模型团队负责人罗福莉的首次深度技术访谈,系统性探讨了 2026
📅 2026-04-24 11:44 (04-24 11:44) 张小珺 人工智能 2 分鐘 ★ 94
AI 范式转变 Agent 后训练 OpenClaw 群体智能
The Art of Efficient Reasoning: 大道至简做好思维链压缩!
📌 一句话摘要 本文深入探讨了基于 Reward Shaping 实现大语言模型高效推理(思维链压缩)的实验观察与核心洞见,总结了在 Qwen3 系列模型上实现 20-40% 思维链压缩同时保持性能的关键策略与陷阱。 📝 详细摘要 文章围绕一篇名为《The Art of Efficient Re
📅 2026-04-15 19:00 (04-15 19:00) 青稞AI 人工智能 2 分鐘 ★ 87
高效推理 思维链压缩 Reward Shaping Qwen3
Hugging Face 发布 TRL v1,开启开源模型后训练新时代
📌 一句话摘要 Hugging Face 正式发布 TRL v1,这是一个包含超过 75 种方法的综合性库,支持包括 SFT、DPO 和 GRPO 在内的开源模型后训练。 📝 详细摘要 Hugging Face 的 CEO Clement Delangue 宣布了 TRL v1 的发布。这次重大
📅 2026-04-01 07:23 (04-01 07:23) clem 🤗 人工智能 1 分鐘 ★ 87
HuggingFace TRL 开源 LLM
Intercom 新推出的后训练模型 Fin Apex 1.0 在客户服务解决率方面超越了 GPT-5.4 和 Claude Sonnet 4.6
📌 一句话摘要 Intercom 推出了 Fin Apex 1.0,这是一款专为客户服务打造的后训练 AI 模型,声称在解决率、速度和成本效益方面优于通用前沿模型。 📝 详细摘要 Intercom 推出了 Fin Apex 1.0,这是一款专为客户服务设计的专有 AI 模型,公司声称其在解决率和
📅 2026-03-27 01:17 (03-27 01:17) Carl Franzen 人工智能 9 分鐘 ★ 80
AI 模型 后训练 客户服务 AI Intercom
通过“监控敏感训练”(Monitor Sensitive Training)教导模型构想更好的监控机制 — LessWrong
📌 一句话摘要 本文介绍了“监控敏感训练”(MST),这是一种新型的后训练技术,通过在数据中添加“监控标签”来引导模型行为并改善对齐,证明了其在减少政治偏见和谄媚行为方面的有效性。 📝 详细摘要 本文提出了“监控敏感训练”(MST),这是一种旨在通过在训练数据中增加“监控标签”(即明确描述每个样
📅 2026-03-20 06:37 (03-20 06:37) Alec Harris 人工智能 2 分鐘 ★ 89
AI 对齐 监控敏感训练 后训练 SFT
[AI 新闻] 上下文干旱
📌 一句话摘要 本文介绍了关于受硬件限制的 LLM 上下文窗口的“上下文干旱”理论,并回顾了智能体记忆、后训练研究和系统优化方面的主要 AI 进展。 📝 详细摘要 文章提出,由于物理内存(HBM/DRAM)短缺,LLM 上下文窗口可能会在 100 万 token 的水平停滞多年,行业已进入“上下
📅 2026-03-14 11:25 (03-14 11:25) Latent.Space 人工智能 13 分鐘 ★ 84
上下文窗口 LLM 基础设施 智能体工作流 后训练
Garry Tan 重申 AI 后训练不存在“规模化瓶颈”
📌 一句话摘要 Garry Tan 强调,在强化学习 (RL) 领域,扩展基础设施和数据仍能带来显著的 AI 能力提升,且尚未触及性能上限。 📝 详细摘要 Garry Tan 引用 kuchaev 的技术更新指出,AI 行业在后训练阶段尚未遇到“瓶颈”。引用的内容详细介绍了一个统一的多环境 RL
📅 2026-03-12 22:10 (03-12 22:10) Garry Tan 人工智能 1 分鐘 ★ 83
规模法则 强化学习 后训练 AI 基础设施