全部 未讀 (21615) ★ 收藏 (0) 🤖 人工智能 (11168) 📊 商业科技 (4461) 💻 软件编程 (1685) 📁 个人成长 (1605) 📁 生活文化 (857) 📁 媒体资讯 (827) 📁 投资财经 (529) 🎨 产品设计 (408) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ Muon 优化器 共 5 篇 ✕ 清除篩選
21617
全部文章
21615
未讀
204
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-08 20:00)
BestBlogs 精選 (21582)

🏷️ 熱門標籤

AI Agent 2157 AI 编程 985 Anthropic 981 Claude Code 916 AI 智能体 780 OpenAI 745 LLM 674 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 398 具身智能 334 Agent 334 个人成长 331 GitHub 321 生产力 315
全面梳理 Muon 优化器的工业挑战及应用实践
📌 一句话摘要 本文系统梳理了 Muon 优化器的数学原理、分布式训练工程挑战及工业落地案例,涵盖 Moonlight、Kimi K2、GLM-4.5、DeepSeek-V4 等主流大模型的应用实践。 📝 详细摘要 本文对 Muon 优化器进行了全面而深入的技术梳理。文章首先从数学原理出发,解释
📅 2026-05-04 12:00 (05-04 12:00) AI闲谈 人工智能 2 分鐘 ★ 87
Muon 优化器 大模型训练 分布式训练 Newton-Schulz
163: 详解 DeepSeek V4:Infra 巨鲸、百万上下文走进现实、极致效率优化
📌 一句话摘要 邀请一线 AI 从业者深度拆解 DeepSeek V4 技术报告,探讨混合稀疏注意力、Muon 优化器、MHC 残差连接及 FP4 训练等组合创新,如何让百万上下文从理论走向实用。 📝 详细摘要 本期播客邀请 RadixArk 工程师(SGLang 核心开发者)赵晨阳和 UCLA
📅 2026-04-30 14:00 (04-30 14:00) 晚点聊 LateTalk 人工智能 2 分鐘 ★ 88
DeepSeek V4 混合稀疏注意力 Muon 优化器 MHC
DeepSeek V4 报告太详尽了!484 天换代之路全公开
📌 一句话摘要 DeepSeek V4 系列模型正式发布,通过 mHC 架构、混合注意力机制和 Muon 优化器,实现了百万 token 上下文下 KV cache 仅为 V3.2 的 10%,并全面开源、支持国产芯片。 📝 详细摘要 本文详细解读了 DeepSeek V4 系列模型的技术报告。
📅 2026-04-25 11:27 (04-25 11:27) henry 人工智能 2 分鐘 ★ 93
DeepSeek V4 大语言模型 MoE 混合注意力
扒完 DeepSeek V4 报告,我翻出了这个隐藏彩蛋
📌 一句话摘要 本文深入分析了 DeepSeek V4 与 Kimi K2.6 在技术架构上的相互借鉴与五次「撞车」发布,揭示了中国开源 AI 双子星在技术路线、国产芯片适配和开源生态上的协同进化。 📝 详细摘要 文章以 DeepSeek V4 发布为引,发现其训练方案中采用了 Kimi 率先验
📅 2026-04-25 03:18 (04-25 03:18) 李超凡 人工智能 2 分鐘 ★ 86
DeepSeek V4 Kimi K2.6 Muon 优化器 MLA 注意力
不加算力,只改一个算法:Muon 在万亿 MoE 模型中最高 2 倍加速
📌 一句话摘要 本文介绍了 Gram Newton-Schulz 算法,通过将 Muon 优化器的迭代过程转移到更小的 Gram 矩阵上,在万亿级 MoE 模型训练中实现了最高 2 倍的优化器加速。 📝 详细摘要 普林斯顿大学和纽约大学的研究者(包括 Tri Dao)提出了 Gram Newto
📅 2026-03-31 13:36 (03-31 13:36) 机器之心 人工智能 1 分鐘 ★ 92
Muon 优化器 Newton-Schulz MoE 模型 模型训练优化