全部 未讀 (21671) ★ 收藏 (0) 🤖 人工智能 (11190) 📊 商业科技 (4470) 💻 软件编程 (1687) 📁 个人成长 (1607) 📁 生活文化 (864) 📁 媒体资讯 (833) 📁 投资财经 (536) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ 优化器 共 9 篇 ✕ 清除篩選
21673
全部文章
21671
未讀
35
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-09 00:00)
BestBlogs 精選 (21638)

🏷️ 熱門標籤

AI Agent 2168 AI 编程 991 Anthropic 981 Claude Code 917 AI 智能体 780 OpenAI 745 LLM 684 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 399 具身智能 338 Agent 334 个人成长 334 GitHub 321 生产力 315
AdamW 和 Muon 的失稳根源有解了,港中文新优化器 Pion:在等谱流形上更新大模型
📌 一句话摘要 香港中文大学等机构提出 Pion 优化器,通过在等谱流形上更新参数,从根源上解决大模型训练中的谱结构失控和稳定性问题。 📝 详细摘要 本文介绍了由香港中文大学等机构提出的新型优化器 Pion。该优化器的核心创新在于,它不再像 AdamW 或 Muon 那样采用加法更新范式,而是直
📅 2026-05-30 10:30 (9 天前) 机器之心 人工智能 2 分鐘 ★ 88
Pion 优化器 大模型训练 训练稳定性
全面梳理 Muon 优化器的工业挑战及应用实践
📌 一句话摘要 本文系统梳理了 Muon 优化器的数学原理、分布式训练工程挑战及工业落地案例,涵盖 Moonlight、Kimi K2、GLM-4.5、DeepSeek-V4 等主流大模型的应用实践。 📝 详细摘要 本文对 Muon 优化器进行了全面而深入的技术梳理。文章首先从数学原理出发,解释
📅 2026-05-04 12:00 (05-04 12:00) AI闲谈 人工智能 2 分鐘 ★ 87
Muon 优化器 大模型训练 分布式训练 Newton-Schulz
详解 DeepSeek V4:Infra 巨鲸 “四连击”,百万上下文走进现实
📌 一句话摘要 本文通过深度访谈两位一线 AI 从业者,详细解析了 DeepSeek-V4 在混合注意力、mHC 残差、Muon 优化器和 FP4 训练等四个层面的系统级创新,并探讨了其百万上下文效率提升背后的工程挑战与行业影响。 📝 详细摘要 本文是《晚点 LatePost》对 UCLA 博士
📅 2026-05-02 19:44 (05-02 19:44) 晚点LatePost 人工智能 2 分鐘 ★ 88
DeepSeek-V4 混合注意力 Muon优化器 FP4训练
163: 详解 DeepSeek V4:Infra 巨鲸、百万上下文走进现实、极致效率优化
📌 一句话摘要 邀请一线 AI 从业者深度拆解 DeepSeek V4 技术报告,探讨混合稀疏注意力、Muon 优化器、MHC 残差连接及 FP4 训练等组合创新,如何让百万上下文从理论走向实用。 📝 详细摘要 本期播客邀请 RadixArk 工程师(SGLang 核心开发者)赵晨阳和 UCLA
📅 2026-04-30 14:00 (04-30 14:00) 晚点聊 LateTalk 人工智能 2 分鐘 ★ 88
DeepSeek V4 混合稀疏注意力 Muon 优化器 MHC
DeepSeek V4 报告太详尽了!484 天换代之路全公开
📌 一句话摘要 DeepSeek V4 系列模型正式发布,通过 mHC 架构、混合注意力机制和 Muon 优化器,实现了百万 token 上下文下 KV cache 仅为 V3.2 的 10%,并全面开源、支持国产芯片。 📝 详细摘要 本文详细解读了 DeepSeek V4 系列模型的技术报告。
📅 2026-04-25 11:27 (04-25 11:27) henry 人工智能 2 分鐘 ★ 93
DeepSeek V4 大语言模型 MoE 混合注意力
扒完 DeepSeek V4 报告,我翻出了这个隐藏彩蛋
📌 一句话摘要 本文深入分析了 DeepSeek V4 与 Kimi K2.6 在技术架构上的相互借鉴与五次「撞车」发布,揭示了中国开源 AI 双子星在技术路线、国产芯片适配和开源生态上的协同进化。 📝 详细摘要 文章以 DeepSeek V4 发布为引,发现其训练方案中采用了 Kimi 率先验
📅 2026-04-25 03:18 (04-25 03:18) 李超凡 人工智能 2 分鐘 ★ 86
DeepSeek V4 Kimi K2.6 Muon 优化器 MLA 注意力
AI 驱动的数据库心脏:如何让云原生「自我进化」
📌 一句话摘要 本文深度解析了腾讯云自研的云原生数据库 TDSQL-C,重点介绍了其如何通过 Serverless 架构、AI 预测式弹性、智能分层存储、自学习 AI 优化器以及全球化部署能力,实现数据库的智能化、弹性化和成本优化。 📝 详细摘要 文章系统性地介绍了腾讯云 TDSQL-C 云原生
📅 2026-04-17 16:40 (04-17 16:40) InfoQ 中文 软件编程 2 分鐘 ★ 88
云原生数据库 TDSQL-C Serverless AI 优化器
不加算力,只改一个算法:Muon 在万亿 MoE 模型中最高 2 倍加速
📌 一句话摘要 本文介绍了 Gram Newton-Schulz 算法,通过将 Muon 优化器的迭代过程转移到更小的 Gram 矩阵上,在万亿级 MoE 模型训练中实现了最高 2 倍的优化器加速。 📝 详细摘要 普林斯顿大学和纽约大学的研究者(包括 Tri Dao)提出了 Gram Newto
📅 2026-03-31 13:36 (03-31 13:36) 机器之心 人工智能 1 分鐘 ★ 92
Muon 优化器 Newton-Schulz MoE 模型 模型训练优化
中国 AI 创业者重登 GTC 舞台:杨植麟用技术语言讲了一个智能上限突破的浪漫故事|甲子光年
📌 一句话摘要 月之暗面创始人杨植麟在 GTC 2026 上分享了 Kimi 在 Token 效率、长上下文、智能体集群及 Attention Residuals 架构方面的核心技术创新,旨在通过基础设施级的开源推动 AI 模型能力上限。 📝 详细摘要 本文详细报道了月之暗面(Kimi)创始人杨
📅 2026-03-18 15:45 (03-18 15:45) 甲子光年 人工智能 2 分鐘 ★ 89
Kimi Moonshot AI GTC 2026 大模型架构