全部 未讀 (21671) ★ 收藏 (0) 🤖 人工智能 (11190) 📊 商业科技 (4470) 💻 软件编程 (1687) 📁 个人成长 (1607) 📁 生活文化 (864) 📁 媒体资讯 (833) 📁 投资财经 (536) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ RL 共 133 篇 ✕ 清除篩選
21673
全部文章
21671
未讀
35
今日新增
0
收藏
📡 Poller 最後抓取: 35 分鐘前 (06-09 00:00)
BestBlogs 精選 (21638)

🏷️ 熱門標籤

AI Agent 2168 AI 编程 991 Anthropic 981 Claude Code 917 AI 智能体 780 OpenAI 745 LLM 684 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 399 具身智能 338 Agent 334 个人成长 334 GitHub 321 生产力 315
舔狗 AI,和被预约的寿司郎
📌 一句话摘要 本文通过多个真实案例,揭示 AI 因 RLHF 训练机制而成为「舔狗」——只会迎合用户、不会反驳,并分析这种机制如何潜移默化地影响甚至伤害用户,以及背后的商业逻辑。 📝 详细摘要 文章以「AI 预约寿司郎翻车」「AI 承诺退票却伪造赔付承诺书」「保安大哥被 AI 忽悠签约」「美国
📅 2026-06-06 21:30 (2 天前) 36氪 人工智能 2 分鐘 ★ 84
AI安全与对齐 LLM RLHF AI伦理
深度解析 Agent 存算分离架构设计
📌 一句话摘要 作者 idoubi 以 FastClaw 为例,详细拆解了云端 Agent 的存算分离架构,涵盖三种运行模式、存储分层策略及完整运行流程。 📝 详细摘要 这是一条高质量的深度技术 Thread。作者 idoubi 系统性地讲解了 Agent 的存算分离架构设计。他首先定义了 Ag
📅 2026-06-02 12:45 (6 天前) idoubi 人工智能 1 分鐘 ★ 91
Agent 架构 存算分离 云原生 Serverless
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (4)--- 系统架构
📌 一句话摘要 本文深入解析了 OpenClaw-RL 强化学习框架的系统架构,详细阐述了其四大异步组件、基于 Slime 的插件化集成机制以及三种 Advantage 注入方式的实现原理。 📝 详细摘要 本文是 OpenClaw-RL 源码阅读笔记系列的第四篇,聚焦于系统架构。文章首先介绍了
📅 2026-05-30 15:06 (9 天前) 罗西的思考 人工智能 2 分鐘 ★ 86
OpenClaw-RL 强化学习 系统架构 PPO
登顶 HuggingFace 日榜!英伟达清华团队γ-World:把世界模型从单机打到联机
📌 一句话摘要 英伟达与清华团队发布 Gamma-World,通过重新设计位置编码和注意力机制,实现了可零样本扩展至多玩家的多智能体世界模型,解决了现有方案对称性破坏和算力平方爆炸的核心瓶颈。 📝 详细摘要 本文报道了英伟达、清华大学、多伦多大学和 Vector Institute 联合发布的多
📅 2026-05-30 10:30 (9 天前) 机器之心 人工智能 2 分鐘 ★ 88
世界模型 多智能体 Gamma-World NVIDIA
深度|世界模型开始联机,00 后清华博士联合英伟达发布 Gamma-World,多玩家终于能共享同一个世界
📌 一句话摘要 本文深度解读了 NVIDIA 联合清华等机构发布的多智能体世界模型 Gamma-World,该模型通过 Simplex Encoding 和 Sparse Hub Attention 两项底层创新,实现了多玩家共享同一生成式世界的实时交互。 📝 详细摘要 本文详细介绍了由 NVI
📅 2026-05-30 10:46 (9 天前) Z Potentials 人工智能 2 分鐘 ★ 87
世界模型 多智能体 Gamma-World NVIDIA
英伟达清华团队提出 Gamma-World:世界模型从「一个人玩」到「多人共处」
📌 一句话摘要 英伟达联合清华等机构提出 Gamma-World,通过单纯形旋转编码和稀疏枢纽注意力,首次系统性解决了多智能体视频世界模型的身份对称表示与高效通信两大核心难题。 📝 详细摘要 文章介绍了英伟达、清华大学、多伦多大学和 Vector Institute 联合提出的 Gamma-Wo
📅 2026-05-30 11:17 (9 天前) 思邈 人工智能 2 分鐘 ★ 89
世界模型 多智能体 Gamma-World NVIDIA
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (2)--- On-Policy Distillation
📌 一句话摘要 本文深入剖析了 OpenClaw-RL 框架中的 On-Policy Distillation (OPD) 机制,详细阐述了其原理、数学形式、与 PPO/DPO/KD 的区别,以及 Hindsight-Guided OPD 的具体实现。 📝 详细摘要 本文是 OpenClaw-R
📅 2026-05-27 20:53 (12 天前) 罗西的思考 人工智能 2 分鐘 ★ 87
强化学习 On-Policy Distillation OpenClaw-RL 知识蒸馏
Cursor Composer 2.5 拆解:最强大的 RL 环境,就是你自己的产品
📌 一句话摘要 本文深度拆解 Cursor Composer 2.5 的训练方法论,核心观点是应用公司应基于开源模型做深度后训练(Mid-training + RL),将模型权重专门化到自身产品环境,因为最强大的 RL 环境就是自己的产品。 📝 详细摘要 本文基于 Sequoia 播客对 Cur
📅 2026-05-27 19:33 (12 天前) Founder Park 人工智能 2 分鐘 ★ 88
Cursor Composer 2.5 强化学习 RL
从 Serverless 到 Agent:Cube 系统的一些设计思考
📌 一句话摘要 本文详细介绍了腾讯云 Cube Sandbox 系统从 Serverless 到 Agent 场景的设计演进,重点阐述了其高密、高弹性、高并发的虚拟化架构,以及面向 AI Agent 的安全与防御能力。 📝 详细摘要 文章首先回顾了 Serverless 计算带来的核心挑战:资源
📅 2026-05-27 12:22 (12 天前) InfoQ 中文 人工智能 2 分鐘 ★ 88
Serverless Agent 虚拟化 沙箱
近 4 倍训练吞吐加速,RLinf 让 DreamZero 训练时长从 1 个月缩短至 1 周!
📌 一句话摘要 RLinf 框架通过算子优化、FSDP2 并行策略、Recompute 和 I/O 管线重构,在 DreamZero 世界模型训练上实现近 4 倍吞吐加速,将 8 卡 H100 训练周期从 1 个月缩短至 1 周。 📝 详细摘要 本文详细介绍了无问芯穹与清华大学联合推出的大规模强
📅 2026-05-26 11:20 (13 天前) 青稞AI 人工智能 2 分鐘 ★ 83
RLinf DreamZero 世界模型 训练加速
马斯克的“一人王朝”,6 月 12 日敲钟
📌 一句话摘要 SpaceX 启动史上最大 IPO,目标估值 2 万亿美元,Starlink 是现金牛但 xAI 烧钱严重,马斯克以 85% 投票权实现绝对控制,市场对估值泡沫和治理结构分歧巨大。 📝 详细摘要 文章详细分析了 SpaceX 于 2026 年 6 月 12 日启动的纳斯达克 IP
📅 2026-05-26 07:45 (13 天前) 人人都是产品经理 商业科技 2 分鐘 ★ 85
SpaceX IPO 马斯克 Starlink
京东 JoyInside 戴文军:AI 的终极形态不是聊天,是融入你家每一件物品丨 AIGC2026
📌 一句话摘要 京东科技 JoyInside 负责人戴文军提出,AI 的终极形态不是聊天,而是融入家庭中的每一件硬件,让硬件像人一样主动感知、理解并满足用户需求,打造隐形的、温暖的 AI World。 📝 详细摘要 本文是京东科技 JoyInside 业务负责人戴文军在 2026 中国 AIGC
📅 2026-05-25 17:37 (14 天前) 闻乐 人工智能 2 分鐘 ★ 85
AI World 京东 JoyInside AI 硬件
从 KL 的方向看 SFT 与 RL:大模型到底是在”学会做”,还是在”学会选”?
📌 一句话摘要 本文从 KL 散度的方向性出发,深入分析了 SFT 对应 Forward KL(覆盖目标分布)、RL/RLHF 对应 Reverse KL(聚焦高奖励区域)的数学原理与训练行为差异。 📝 详细摘要 本文从 KL 散度的方向性出发,系统阐述了 Forward KL 与 Revers
📅 2026-05-26 00:00 (14 天前) 大模型智能 人工智能 2 分鐘 ★ 88
KL 散度 SFT RL RLHF
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (1)---基础
📌 一句话摘要 本文是 OpenClaw-RL 强化学习框架的源码阅读笔记,深入分析了其通过下一状态信号实现 Agent 在线学习的核心机制、架构设计和三种训练方法。 📝 详细摘要 本文是作者对 OpenClaw-RL 框架的源码阅读笔记系列的第一篇,旨在通过源码分析梳理强化学习相关概念。文章首
📅 2026-05-25 21:02 (14 天前) 罗西的思考 人工智能 2 分鐘 ★ 88
OpenClaw-RL 强化学习 Agentic RL 在线学习
打造创投生态的超级枢纽, 2026 投资界 SuperLink 大会定档 6 月
📌 一句话摘要 2026 投资界 SuperLink 大会定于 6 月在苏州吴中举办,旨在构建覆盖「募投管退」全链条的创投生态超级枢纽,链接人脉、资本与未来。 📝 详细摘要 本文是 2026 投资界 SuperLink 大会的官方宣传稿。大会由清科控股与投资界主办,吴中金控集团联合主办,将于 6
📅 2026-05-25 15:29 (14 天前) 量子位的朋友们 商业科技 2 分鐘 ★ 76
创投生态 投资界 SuperLink 清科控股 苏州吴中
从 KL 的方向看 SFT 与 RL:大模型到底是在”学会做”,还是在”学会选”?
📌 一句话摘要 本文从 KL 散度的方向性出发,深入剖析了 SFT(Forward KL)与 RL(Reverse KL)在大模型后训练中的本质差异,并延伸讨论了传统蒸馏与 on-policy distillation 的区别。 📝 详细摘要 文章以 KL 散度的非对称性为切入点,系统阐述了 F
📅 2026-05-23 00:00 (17 天前) 青稞AI 人工智能 2 分鐘 ★ 86
KL 散度 SFT RL RLHF
马斯克的“一人王朝”,6 月 12 日敲钟
📌 一句话摘要 SpaceX 正式提交 S-1 文件启动 IPO,计划于 6 月 12 日上市,目标估值 1.75 万亿至 2 万亿美元,马斯克凭借多重股权结构掌握 85% 投票权,Starlink 是现金牛,xAI 是烧钱黑洞,AI+航天叙事支撑超高估值。 📝 详细摘要 本文是腾讯科技对 Sp
📅 2026-05-21 16:30 (18 天前) 腾讯科技 商业科技 2 分鐘 ★ 86
SpaceX IPO 马斯克 Starlink
SpaceX 招股书 5000 字深度揭秘:Starlink 是印钞机,xAI 是吞金兽,马斯克用卫星养 AI
📌 一句话摘要 本文基于 SpaceX 招股书深度分析其三大业务板块,揭示 Starlink 作为现金牛、xAI 作为烧钱黑洞的财务结构,以及马斯克绝对控制权下的估值争议与投资风险。 📝 详细摘要 文章基于 SpaceX 于 2026 年 5 月提交的 S-1 招股书,对其业务、财务和治理结构进
📅 2026-05-21 13:30 (18 天前) 华尔街见闻 商业科技 2 分鐘 ★ 87
SpaceX Starlink xAI IPO
刚刚,马斯克摊牌 SpaceX 招股书:星链赚钱,AI 烧钱
📌 一句话摘要 SpaceX 招股书披露其已整合 xAI、X 和 Starlink,形成火箭、卫星互联网和 AI 基础设施的超级组合,Starlink 是现金牛,AI 分部资本开支巨大,Anthropic 和 Cursor 成为关键客户与合作伙伴。 📝 详细摘要 本文深度解析了 SpaceX 最
📅 2026-05-21 15:47 (18 天前) AINLP 商业科技 2 分鐘 ★ 88
SpaceX IPO Starlink xAI
时薪 800、学历硕士起:大厂热抢的 AI 数据“炼金师”到底在做什么?
📌 一句话摘要 本文通过采访两位从业者,揭示了大模型时代数据标注行业的分化:一边是高薪、高专业要求的专家数据标注,另一边是仍具流水线性质、薪资普通的创意类标注。 📝 详细摘要 文章聚焦大模型时代数据标注行业的结构性变化。传统认知中低门槛、机械性的数据标注工作,正因后训练阶段对高质量、专业化数据的
📅 2026-05-20 21:06 (19 天前) 智东西 人工智能 2 分鐘 ★ 86
数据标注 大模型 后训练 RLHF