全部 未讀 (21615) ★ 收藏 (0) 🤖 人工智能 (11168) 📊 商业科技 (4461) 💻 软件编程 (1685) 📁 个人成长 (1605) 📁 生活文化 (857) 📁 媒体资讯 (827) 📁 投资财经 (529) 🎨 产品设计 (408) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ 预训练 共 23 篇 ✕ 清除篩選
21617
全部文章
21615
未讀
204
今日新增
0
收藏
📡 Poller 最後抓取: 16 分鐘前 (06-08 20:00)
BestBlogs 精選 (21582)

🏷️ 熱門標籤

AI Agent 2157 AI 编程 985 Anthropic 981 Claude Code 916 AI 智能体 780 OpenAI 745 LLM 674 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 398 具身智能 334 Agent 334 个人成长 331 GitHub 321 生产力 315
最近,国产 AI 自己造了 AI,全球首例!
📌 一句话摘要 面壁智能发布全球首个完全由 AI 编写的生产级大模型预训练框架 ForgeTrain,并基于此训练出 MiniCPM5-1B 小模型,性能超越英伟达 Megatron。 📝 详细摘要 本文报道了面壁智能的最新成果:全球首个完全由 AI 编写的生产级大模型预训练框架 ForgeTr
📅 2026-05-30 16:00 (9 天前) 果壳 人工智能 2 分鐘 ★ 82
面壁智能 ForgeTrain MiniCPM5-1B AI 制造 AI
最大开源中文预训练合成数据集来了!面壁清华端出 6000 亿 Token 大模型“精饲料”
📌 一句话摘要 面壁智能联合清华大学、OpenBMB 开源了最大中文预训练合成数据集 Ultra-FineWeb-L3(6000 亿 Token)和千万级 SFT 数据集 UltraData-SFT-2605,旨在缓解高质量训练数据短缺问题。 📝 详细摘要 本文报道了面壁智能、清华大学和 Ope
📅 2026-05-29 21:34 (9 天前) 智东西 人工智能 2 分鐘 ★ 83
开源数据集 预训练 SFT 面壁智能
数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开
📌 一句话摘要 面壁智能开源了 MiniCPM5-1B 背后的核心数据集 UltraData,包含 600B tokens 的 L3 级预训练数据和千万级 SFT 数据,并公开了完整的数据治理方法论,强调在端侧模型竞争中数据质量才是真正的壁垒。 📝 详细摘要 本文深入分析了面壁智能最新开源的 U
📅 2026-05-29 13:50 (10 天前) 夕小瑶科技说 人工智能 2 分鐘 ★ 86
端侧模型 数据治理 MiniCPM 预训练数据
深度|不经后训练照样能打,这家中国公司的开源具身预训练模型如何做到?
📌 一句话摘要 本文深度解析了中国公司自变量机器人开源的具身预训练模型 Wall-OSS-0.5,该模型通过让动作能力直接进入模型主干,实现了不经任务微调即可在真实机器人上进行零样本操作的技术突破。 📝 详细摘要 本文围绕自变量机器人开源的 Wall-OSS-0.5 模型展开深度分析,探讨了具身
📅 2026-05-28 16:50 (11 天前) Z Potentials 人工智能 2 分鐘 ★ 86
具身智能 VLA 机器人基础模型 预训练
刚刚,国产 AI 自己造了 AI,全球首例!
📌 一句话摘要 面壁智能发布全球首个完全由 AI 编写的生产级大模型预训练框架 ForgeTrain,并用它训练出 MiniCPM5-1B 模型,性能超越英伟达 Megatron,标志着 AI 制造 AI 从概念进入可评测的工程样本阶段。 📝 详细摘要 本文报道了面壁智能的重大技术突破:全球首个
📅 2026-05-26 16:46 (13 天前) 十三 人工智能 2 分鐘 ★ 87
面壁智能 ForgeTrain MiniCPM5-1B AI制造AI
大神出山!Karpathy 为何加入 Anthropic?马斯克强力 22 万卡助攻,这波 Anthropic 赢麻了?
📌 一句话摘要 两位主播围绕 Karpathy 加入 Anthropic 预训练团队的事件,展开对 AI 行业人才流动、预训练与后训练倒挂、科技巨头合纵连横以及 SpaceX 算力生意等热点的发散式闲聊评论。 📝 详细摘要 本期节目以 Karpathy 加入 Anthropic 预训练团队为引子
📅 2026-05-26 07:00 (13 天前) 叫我小苏就好了 商业科技 2 分鐘 ★ 80
Karpathy Anthropic 预训练 合成数据
Karpathy 为何突然加入 Anthropic,只能当 Dario 的「-2」?
📌 一句话摘要 本文深度分析了 Andrej Karpathy 加入 Anthropic 的原因、他的职业轨迹与稀缺性,以及这一事件对 AI 行业格局的深远影响。 📝 详细摘要 文章围绕 Andrej Karpathy 加入 Anthropic 这一事件展开深度分析。首先介绍了 Karpathy
📅 2026-05-20 19:08 (19 天前) 创业邦 商业科技 2 分鐘 ★ 85
Andrej Karpathy Anthropic AI 人才 AI 行业分析
从 P(y|x) 到 P(y):将 RL 引入预训练空间,激发大模型内生推理
📌 一句话摘要 中科院自动化所等机构提出 PreRL 与 DSRL 方法,通过直接优化推理轨迹的边缘分布 P(y) 而非条件分布 P(y|x),配合负样本强化,仅 20 步即可大幅激发大模型内生推理能力,并在多个数学推理基准上超越现有强基线。 📝 详细摘要 本文介绍了由中科院自动化所、新加坡国立
📅 2026-05-18 12:36 (21 天前) PaperWeekly 人工智能 2 分鐘 ★ 88
PreRL DSRL 强化学习 大模型推理
Hermes 团队改写预训练:算力成本降六成,DeepSeek 之后提效新路径
📌 一句话摘要 Nous Research 团队提出 Token Superposition Training (TST) 方法,通过将预训练早期改为粗粒度词元叠加学习,在百亿参数 MoE 模型上实现约 2.5 倍训练提速,算力成本降至原来的四成。 📝 详细摘要 本文报道了 Nous Resea
📅 2026-05-17 10:15 (22 天前) InfoQ 中文 人工智能 2 分鐘 ★ 86
Token Superposition Training 预训练 训练效率 Nous Research
不改架构、不加算力:Nous Research 巧用 Token 叠加,预训练提速 2.5 倍
📌 一句话摘要 Nous Research 提出 Token Superposition Training (TST),通过在预训练前半程将连续 token 的 embedding 平均并预测下一组 token,在不改模型架构和推理方式的前提下,实现 10B MoE 模型同等 loss 下最高 2
📅 2026-05-14 17:36 (25 天前) PaperWeekly 人工智能 2 分鐘 ★ 86
Token Superposition Training 预训练加速 Nous Research MoE
工业级 LLM 预训练数据工程的关键实践!
📌 一句话摘要 本文系统综述了工业级 LLM 预训练数据工程的关键实践,涵盖语料库构建、数据利用与评估方法,并提炼了经大规模训练验证的技术共识与最佳实践。 📝 详细摘要 本文是一篇关于 LLM 预训练数据工程的深度综述,作者李煜东基于 2020 至 2026 年间发布的 GPT、LLaMA、Qw
📅 2026-05-14 19:35 (25 天前) AINLP 人工智能 2 分鐘 ★ 88
LLM 预训练 数据工程 数据质量
140. 对姚顺宇的 4 小时访谈:请允许我小疯一下!在 Anthropic 和 Gemini 训模型、技术预测、英雄主义已过去
📌 一句话摘要 与前 Anthropic 和 Google DeepMind 研究员姚顺宇深度对话,分享训练 Claude 3.7/4.5 和 Gemini 3 的一线经验,探讨模型能力未触顶、AI 集体主义时代的到来以及技术发展的真实驱动力。 📝 详细摘要 本期播客是主持人张小珺对前 Anth
📅 2026-05-11 08:00 (28 天前) 张小珺 人工智能 2 分鐘 ★ 93
Claude Gemini 预训练 强化学习
百度发布文心 5.1:搜索能力登顶国内,预训练成本仅为业界 6%
📌 一句话摘要 百度发布文心大模型 5.1,采用多维弹性预训练技术,以业界 6% 的预训练成本实现基础效果领先,并登顶 LMArena 搜索榜国内第一。 📝 详细摘要 文章报道了百度在 5 月 9 日正式发布的新一代基础大模型文心 5.1。该模型的核心亮点在于其采用的「多维弹性预训练」技术,使得
📅 2026-05-09 11:11 (05-09 11:11) 量子位的朋友们 人工智能 2 分鐘 ★ 86
文心大模型 5.1 百度 大语言模型 预训练
token 级,精准控制生成长度:3B 模型击败 GPT 5.4、Claude
📌 一句话摘要 LenVM 将生成长度建模转化为 token 级价值估计问题,实现了无需标注、三轴可扩展的价值预训练,3B 开源模型在精确长度控制上全面击败 GPT-5.4、Claude-Opus-4-6 等顶级闭源模型。 📝 详细摘要 本文介绍了由 UC Santa Barbara 和 App
📅 2026-05-08 12:12 (05-08 12:12) 新智元 人工智能 1 分鐘 ★ 88
LenVM 长度控制 价值预训练 Token 级建模
用命与运比喻 AI 训练与 Agent
📌 一句话摘要 作者用中国哲学中的「命」与「运」来比喻 AI 的预训练和强化学习,并将 Agent 比作新人,Harness 比作风水工程。 📝 详细摘要 这条推文以极其精炼和富有隐喻的方式,阐述了对 AI 技术栈的理解。作者将 AI 模型的「预训练」比作先天注定的「命」,将「强化学习」比作后天
📅 2026-04-19 20:57 (04-19 20:57) Frank Wang 玉伯 人工智能 1 分鐘 ★ 73
AI 哲学 预训练 强化学习 Agent
论文秀 Live#36|ICLR 独作突破×Oral 精选× LLM 训练推理新方法
📌 一句话摘要 本文预告并介绍了蚂蚁技术团队将在直播中分享的三篇 ICLR 2026 论文,聚焦于 LLM 预训练调度优化、强化学习熵正则化改进以及扩散模型推理加速三大前沿方向。 📝 详细摘要 文章是蚂蚁技术团队对其「论文秀 Live #36」直播活动的预告和内容摘要。直播将重点解读三篇入选 I
📅 2026-04-13 17:11 (04-13 17:11) 蚂蚁技术 AntTech 人工智能 2 分鐘 ★ 84
ICLR 2026 大语言模型 预训练优化 强化学习
中国具身屠榜全球!10 万小时数据炸场,PI、英伟达集体破防
📌 一句话摘要 灵初智能发布具身智能框架 PSI,利用近 10 万小时人类操作数据预训练策略模型 Psi-R2,并结合世界模型 Psi-W0 进行反事实推演,在 MolmoSpaces 榜单上超越 PI 和英伟达 GEAR 等主流方案。 📝 详细摘要 文章报道了灵初智能在具身智能领域的最新突破。
📅 2026-04-12 10:01 (04-12 10:01) 新智元 人工智能 2 分鐘 ★ 88
具身智能 机器人学习 世界模型 人类数据
关于 Anthropic Mythos 模型的推测
📌 一句话摘要 Matthew Berman 指出,“Mythos” 极有可能是 Anthropic 最新一轮预训练跑出的第一个模型。 📝 详细摘要 这条推文对 Anthropic 的模型研发管线提出了推测性见解,认为 “Mythos” 可能是其最近预训练工作的产物。虽然内容简短,但它点出了这家
📅 2026-04-08 05:18 (04-08 05:18) Matthew Berman 人工智能 1 分鐘 ★ 76
Anthropic Mythos LLM AI 模型
daVinci-LLM 全面开源:涵盖权重、数据与训练流程
📌 一句话摘要 daVinci-LLM 正式开源,包括模型权重、数据流水线、训练过程及消融实验。 📝 详细摘要 daVinci-LLM 项目宣布全面开源,不仅提供模型权重,还公开了数据流水线、训练过程及消融实验细节。这对研究人员和开发者深入理解模型预训练科学具有重要参考价值。 📊 文章信息 A
📅 2026-04-01 14:47 (04-01 14:47) 马东锡 NLP 人工智能 1 分鐘 ★ 81
daVinci-LLM 开源模型 预训练 LLM
Cursor 联合创始人解释技术选型路径,事件定性为「沟通事故」
📌 一句话摘要 Cursor 联合创始人 Aman Sanger 详细解释选择 Kimi K2.5 的技术原因(困惑度指标最强),承认发布博客未提基座模型是失误,并定性该事件为「沟通事故」而非许可证纠纷。 📝 详细摘要 该推文是接着上一条的深入分析。推文引用了 Cursor 联合创始人 Aman
📅 2026-03-21 04:58 (03-21 04:58) 宝玉 人工智能 4 分鐘 ★ 82
Cursor Kimi K2.5 Aman Sanger 强化学习