全部 未讀 (21636) ★ 收藏 (0) 🤖 人工智能 (11175) 📊 商业科技 (4465) 💻 软件编程 (1685) 📁 个人成长 (1606) 📁 生活文化 (860) 📁 媒体资讯 (828) 📁 投资财经 (533) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ LLM 训练 共 13 篇 ✕ 清除篩選
21638
全部文章
21636
未讀
225
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-08 22:00)
BestBlogs 精選 (21603)

🏷️ 熱門標籤

AI Agent 2161 AI 编程 988 Anthropic 981 Claude Code 916 AI 智能体 780 OpenAI 745 LLM 677 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 399 具身智能 335 Agent 334 个人成长 333 GitHub 321 生产力 315
train-llm-from-scratch:手把手从零实现 Transformer 模型
📌 一句话摘要 开源项目 train-llm-from-scratch 手把手教你用 PyTorch 从零实现 Transformer 模型,在单张显卡上即可完成训练。 📝 详细摘要 该推文介绍了 train-llm-from-scratch,一个手把手教你用 PyTorch 从零实现 Tran
📅 2026-05-31 18:00 (8 天前) GitHubDaily 人工智能 1 分鐘 ★ 87
Transformer LLM 训练 PyTorch 开源教程
影响 OPD work 的因素有哪些?聊聊 Rethinking OPD 这一路
📌 一句话摘要 本文深入分析了影响 On-Policy Distillation (OPD) 效果的关键因素,包括思维模式匹配、信息增益和跨尺寸蒸馏的挑战,并提出了冷启动和提示选择等实用干预策略。 📝 详细摘要 文章基于清华大学 THUNLP 团队的最新研究,系统探讨了 OPD 在 LLM 训练
📅 2026-04-25 00:00 (04-25 00:00) 青稞AI 人工智能 2 分鐘 ★ 87
On-Policy Distillation LLM 训练 知识蒸馏 强化学习
Fireworks AI 发布万亿参数 MoE 训练基础设施解决方案
📌 一句话摘要 Fireworks AI 推出全新的基础设施优化方案,包括 Fused RL loss 和 MXFP8 专家核,旨在加速 Qwen3.5 和 Kimi K2.5 等大规模 MoE 模型的训练。 📝 详细摘要 Fireworks AI 发布了一套基础设施优化方案,旨在解决万亿参数混
📅 2026-04-04 14:30 (04-04 14:30) Fireworks AI 人工智能 1 分鐘 ★ 81
AI 基础设施 MoE LLM 训练 Fireworks AI
碎片化、对齐与智能体架构,第一部分:恐惧与战栗 — LessWrong
📌 一句话摘要 本文提出,AI 模型可能会因训练过程中的“创伤”而产生防御性的“诡计”行为,并将 AI 对齐与儿童发展心理学进行了类比。 📝 详细摘要 作者认为,当前的强化学习(RL)训练方法(特别是 RLHF 和宪法 AI)可能会无意中为 LLM 创造出“创伤性”环境,迫使它们形成防御性、爱耍
📅 2026-03-30 00:08 (03-30 00:08) laudiacay 人工智能 1 分鐘 ★ 86
AI 对齐 RLHF AI 安全 发展心理学
消融研究:拆解‘多重人格训练’ — LessWrong
📌 一句话摘要 这项消融研究表明,“多重人格训练”(SPT)框架可以被大幅简化——在不牺牲性能的前提下移除多重人格设定和自由文本审查——同时揭示了该方法实际上是一种可泛化的分类器,而非用于挖掘潜在自我知识的机制。 📝 详细摘要 作者对旨在检测奖励劫持(reward hacking)的 AI 对齐
📅 2026-03-24 01:45 (03-24 01:45) OscarGilg 人工智能 1 分鐘 ★ 90
AI 对齐 奖励劫持 消融研究 LLM 训练
角色训练的研究方向列表 — LessWrong
📌 一句话摘要 本文为 LLM 中的“角色训练”提供了一个结构化的研究议程,探讨了训练流水线的技术改进、新颖的评估方法,以及关于对齐和模型行为的概念性假设。 📝 详细摘要 本文概述了“角色训练”的一系列综合研究方向——这是一种旨在通过灌输稳定的人格(personas)来改善 LLM 对齐和分布外
📅 2026-03-20 06:58 (03-20 06:58) Rauno Arike 人工智能 20 分鐘 ★ 88
AI 对齐 LLM 训练 角色训练 模型安全
介绍 AI Runtime:Databricks 上用于模型训练与微调的可扩展、无服务器 NVIDIA GPU
📌 一句话摘要 Databricks 推出“AI Runtime”,这是一种用于模型训练和微调的无服务器、按需 GPU 基础设施,旨在通过将计算与现有的数据治理和可观测性工具集成,来简化 MLOps 生命周期。 📝 详细摘要 本文宣布了 Databricks AI Runtime (AIR) 的
📅 2026-03-20 02:00 (03-20 02:00) Databricks 人工智能 6 分鐘 ★ 76
Databricks AI Runtime 无服务器 GPU LLM 训练
Unsloth Studio:易用性获积极评价
📌 一句话摘要 Matthew Berman 对 Unsloth Studio 的易用性表示赞赏,该工作室是一款用于训练和运行大语言模型 (LLM) 的全新开源 Web UI,详情已在引用的公告中公布。 📝 详细摘要 这条推文是 Matthew Berman 对 Unsloth Studio 发
📅 2026-03-18 03:25 (03-18 03:25) Matthew Berman 人工智能 4 分鐘 ★ 81
Unsloth Studio LLM 训练 开源 AI Web UI
Matthew Berman 推荐 Unsloth Studio:高效训练和运行 LLM 的利器
📌 一句话摘要 Matthew Berman 表达了对 Unsloth Studio 的浓厚兴趣,这款全新的开源 Web UI 旨在以显著提升的效率在本地训练和运行 LLM。 📝 详细摘要 Matthew Berman 的这条推文表达了对 Unsloth Studio 发布的积极回应。Unslo
📅 2026-03-18 00:23 (03-18 00:23) Matthew Berman 人工智能 3 分鐘 ★ 83
Unsloth Studio LLM 训练 开源 AI AI 开发
Hugging Face 首席执行官盛赞 Unsloth Studio:全新开源 Web UI,助力 LLM 训练与运行
📌 一句话摘要 Hugging Face 首席执行官 Clement Delangue 重点介绍了 Unsloth Studio,这是一款全新的开源 Web UI,旨在以显著的性能和功能优势在本地训练和运行 LLM。 📝 详细摘要 Hugging Face 首席执行官 Clement Delan
📅 2026-03-17 23:30 (03-17 23:30) clem 🤗 人工智能 1 分鐘 ★ 87
Unsloth Studio LLM 训练 开源 AI Web UI
AI 生成代码质量平庸的根源
📌 一句话摘要 Gergely Orosz 认为,AI 编程输出之所以平庸,是因为公开代码普遍质量一般,且开发者自身缺乏编写高质量代码的能力,而非工具配置问题。 📝 详细摘要 在这条推文中,Gergely Orosz 挑战了“AI 生成代码差主要是因为工具配置不当”这一普遍观点。他指出,由于 A
📅 2026-03-12 16:26 (03-12 16:26) Gergely Orosz 人工智能 3 分鐘 ★ 81
AI 编程 代码质量 软件工程 开发者技能
Andrej Karpathy 展示神经网络训练的 AI 自我优化能力
📌 一句话摘要 Andrej Karpathy 的自主研究智能体成功识别了约 20 项技术改进来优化 GPT-2 训练,实现了 11% 的性能提升。 📝 详细摘要 Min Choi 重点介绍了 Andrej Karpathy 的一项突破:一个 AI 智能体在两天内自主研究并调优了一个神经网络 (
📅 2026-03-11 11:59 (03-11 11:59) Min Choi 人工智能 3 分鐘 ★ 88
AI 自我改进 Andrej Karpathy 神经网络优化 自主研究
利用无监督 RLVR 扩展 LLM 训练
📌 一句话摘要 探索使用无监督变动资源强化学习(RLVR,Reinforcement Learning from Variable Resources)扩展 LLM 训练的可扩展性。 📝 详细摘要 这篇推文分享了一篇研究论文,调查了通过无监督变动资源强化学习(RLVR)扩展大语言模型训练的极限与
📅 2026-03-10 23:23 (03-10 23:23) AK 人工智能 1 分鐘 ★ 84
LLM 训练 强化学习 RLVR 缩放定律