全部 未讀 (21689) ★ 收藏 (0) 🤖 人工智能 (11201) 📊 商业科技 (4470) 💻 软件编程 (1688) 📁 个人成长 (1607) 📁 生活文化 (864) 📁 媒体资讯 (838) 📁 投资财经 (537) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ 模型推理 共 20 篇 ✕ 清除篩選
21691
全部文章
21689
未讀
53
今日新增
0
收藏
📡 Poller 最後抓取: 14 分鐘前 (06-09 02:00)
BestBlogs 精選 (21656)

🏷️ 熱門標籤

AI Agent 2173 AI 编程 994 Anthropic 981 Claude Code 917 AI 智能体 780 OpenAI 745 LLM 689 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 492 开发者工具 433 Codex 416 软件工程 399 具身智能 338 Agent 334 个人成长 334 GitHub 321 生产力 315
阿里 RTPurboV2:原生 Transformer 再次崛起,百步训练实现 10 倍稀疏注意
📌 一句话摘要 阿里 RTP 团队提出 RTPurboV2,通过低秩投影、自适应聚类与动态 top-p 策略,在仅需 600 步微调下,对原生 Transformer 的 Full Attention 实现 16-32 倍计算压缩,Prefill 最高加速 9.36 倍且精度几乎无损。 📝 详细
📅 2026-06-08 10:07 (16 小時前) 机器之心 人工智能 2 分鐘 ★ 88
LLM Attention 机制 模型推理优化 稀疏注意力
超越 TurboQuant,面向长上下文推理的真 2-bit KV Quantization 算法问世
📌 一句话摘要 TogetherAI 联合悉尼大学和 UIUC 提出 OSCAR 算法,通过 attention-aware 旋转和离线校准,在约 2.28 有效比特下实现接近 BF16 精度的 2-bit KV Cache 量化,并已集成至 SGLang 推理框架实现开箱即用。 📝 详细摘要
📅 2026-05-29 12:04 (10 天前) 机器之心 人工智能 2 分鐘 ★ 88
KV Cache 量化 长上下文 SGLang
超越 TurboQuant! OSCAR:面向真实 Serving 的 2bit KV Cache 量化
📌 一句话摘要 OSCAR 提出了一种面向真实长上下文推理服务的近 2-bit KV Cache 量化方案,通过 attention-aware 旋转和离线校准,在保持模型精度的同时实现约 8 倍显存压缩和最高 7 倍吞吐提升,并已接入 SGLang 服务框架。 📝 详细摘要 本文详细介绍了 O
📅 2026-05-29 14:00 (10 天前) InfoQ 中文 人工智能 2 分鐘 ★ 88
KV Cache 量化 模型推理优化 低比特量化 长上下文
万字入门 AI Infra:深入理解大模型中的数学与 Infra 优化
📌 一句话摘要 本文从数学原理和工程优化两个维度,深入拆解了大模型推理中 RMSNorm、Softmax、Causal Mask 等核心操作的底层逻辑,揭示了 AI Infra 优化的本质是用数学等价变换和精度妥协换取硬件效率。 📝 详细摘要 本文是一篇面向 AI Infra 入门与进阶的深度技
📅 2026-05-27 08:45 (12 天前) 腾讯云开发者 人工智能 2 分鐘 ★ 92
AI Infra 大模型推理 RMSNorm Softmax
AI Infra 入门干货总结:大模型是如何高效推理的
📌 一句话摘要 本文基于对 vLLM 源码的深入阅读,以 Llama 3 为例,通过追踪推理过程中每一步的张量维度变化,系统性地讲解了大模型从 Tokenize 到 Sampling 的完整高效推理流程。 📝 详细摘要 本文是作者花费两个月业余时间深入阅读 vLLM 源码后的总结。文章聚焦于 D
📅 2026-05-25 17:36 (14 天前) 腾讯技术工程 人工智能 2 分鐘 ★ 90
大模型推理 vLLM Continuous Batching Paged Attention
下一代大模型推理网络架构:ZCube 如何有效破解网络瓶颈?
📌 一句话摘要 智谱、驭驯网络与清华大学联合提出 ZCube 组网架构,通过扁平化拓扑和单/多轨混合接入,在千卡推理集群中实现成本降低 33%、吞吐提升 15%、TTFT P99 降低 40.6%,有效破解 PD 分离推理中的结构性网络拥塞难题。 📝 详细摘要 本文详细介绍了智谱、驭驯网络与清华
📅 2026-05-21 10:30 (18 天前) 智谱 人工智能 2 分鐘 ★ 92
ZCube 网络架构 PD 分离 大模型推理
从 P(y|x) 到 P(y):将 RL 引入预训练空间,激发大模型内生推理
📌 一句话摘要 中科院自动化所等机构提出 PreRL 与 DSRL 方法,通过直接优化推理轨迹的边缘分布 P(y) 而非条件分布 P(y|x),配合负样本强化,仅 20 步即可大幅激发大模型内生推理能力,并在多个数学推理基准上超越现有强基线。 📝 详细摘要 本文介绍了由中科院自动化所、新加坡国立
📅 2026-05-18 12:36 (21 天前) PaperWeekly 人工智能 2 分鐘 ★ 88
PreRL DSRL 强化学习 大模型推理
高并发下大模型降智力?范式团队刚刚修复了 vLLM 一个隐藏极深的“吞 Token”大坑
📌 一句话摘要 范式团队发现并修复了 vLLM 推理框架在流水线并行模式下因内存整理机制算错 Token 数量导致高并发下模型准确率下降 4.5% 的隐藏 Bug。 📝 详细摘要 本文报道了范式团队在 vLLM 推理框架中发现并修复的一个严重 Bug。该 Bug 隐藏在 vLLM 的内存整理机制
📅 2026-05-13 14:00 (26 天前) 51CTO技术栈 人工智能 2 分鐘 ★ 85
vLLM 大模型推理 流水线并行 Bug 修复
AI Infra 其实没有多少新东西
📌 一句话摘要 本文系统性地论证了 AI Infra 面临的硬件、软件、训练和推理挑战,本质上都是传统后台工程在 GPU 战场上的延续,传统工程师积累的方法论可以无缝迁移。 📝 详细摘要 文章从腾讯云开发者的实践视角出发,系统拆解了 AI Infra 的核心挑战。作者认为,AI Infra 并没
📅 2026-05-08 08:46 (05-08 08:46) 腾讯云开发者 人工智能 2 分鐘 ★ 88
AI Infra GPU编程 模型训练 模型推理
#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的
📌 一句话摘要 AI 芯片专家 Reiner Pope 以黑板讲座形式,从 roofline 模型出发,深度拆解大模型训练与推理中批次大小、内存墙、稀疏性、并行策略对成本和延迟的决定性影响。 📝 详细摘要 本期播客是一堂硬核的 AI 基础设施实战课。嘉宾 Reiner Pope(Maddox 创
📅 2026-04-30 18:48 (04-30 18:48) 跨国串门儿计划 人工智能 2 分鐘 ★ 87
大模型推理 批次大小 Roofline 模型 内存墙
DeepSeek 不惜代价保住它!V4 关键特性被挖出来了
📌 一句话摘要 本文深入解析了 DeepSeek V4 技术报告中为保障工程确定性而坚持的 batch invariance(批次不变性)设计,分析了其核心价值、实现代价及工程取舍。 📝 详细摘要 本文基于 DeepSeek V4 技术报告,重点挖掘了其核心工程设计理念——batch invar
📅 2026-04-28 14:15 (04-28 14:15) 鱼羊 人工智能 2 分鐘 ★ 87
DeepSeek V4 batch invariance 大模型工程 模型推理
DeepSeek 不惜代价保住它!V4 关键特性被挖出来了
📌 一句话摘要 本文深入解析了 DeepSeek V4 技术报告中为保障工程确定性而坚持的 batch invariance(批次不变性)设计,分析了其核心价值、实现代价及工程取舍。 📝 详细摘要 本文基于 DeepSeek V4 技术报告,重点挖掘了其核心工程设计理念——batch invar
📅 2026-04-28 14:15 (04-28 14:15) 鱼羊 人工智能 2 分鐘 ★ 87
DeepSeek V4 batch invariance 大模型工程 模型推理
普通网线也能跑万亿大模型!月之暗面抛出王炸架构,亲证:不用全买 H100!1T 模型实测:延迟暴降 64%!大模型推理“围城”攻破了!
📌 一句话摘要 本文深度解读了月之暗面(Kimi)团队提出的 PrfaaS 架构,该架构通过算法与系统协同创新,利用混合注意力模型大幅降低 KVCache 传输需求,实现了万亿参数大模型在普通以太网上的跨数据中心高效推理,实测吞吐量提升 54%,延迟降低 64%。 📝 详细摘要 文章详细介绍了月
📅 2026-04-21 12:34 (04-21 12:34) 51CTO技术栈 人工智能 2 分鐘 ★ 88
大模型推理 KVCache 分布式系统 月之暗面
Kimi 新论文:把 KVCache 玩成新商业模式了
📌 一句话摘要 月之暗面与清华大学联合提出 Prefill-as-a-Service 架构,通过混合注意力模型压缩 KV Cache,使其能通过普通以太网跨数据中心传输,实现 Prefill 与 Decode 的异地异构调度,显著提升长上下文推理性能。 📝 详细摘要 本文报道了月之暗面与清华大学
📅 2026-04-19 18:19 (04-19 18:19) 衡宇 人工智能 2 分鐘 ★ 91
大模型推理 KV Cache Prefill-as-a-Service 混合注意力
Life of a Token:像调试代码一样看懂大模型如何生成 Token
📌 一句话摘要 本文以 GPT-2 Small 模型为例,通过追踪一个具体输入 “The capital of France is” 的完整推理过程,深入剖析了 Transformer 模型从分词、词嵌入、自注意力、前馈网络到最终预测的每一步数据变换,揭示了 LLM 生成 token 的内部机制。
📅 2026-04-17 15:31 (04-17 15:31) AI前线 人工智能 29 分鐘 ★ 92
Transformer GPT-2 模型推理 自注意力机制
北大团队改造 DeepSeek 注意力,速度快四倍还不丢精度
📌 一句话摘要 北京大学张牧涵团队提出 HISA 稀疏注意力机制,通过分层索引解决长文本下的计算瓶颈,在不损失精度且无需重训的情况下,将 DeepSeek 等模型的索引速度提升 2-4 倍。 📝 详细摘要 本文介绍了北京大学人工智能研究院提出的新型稀疏注意力机制 HISA(分层索引稀疏注意力)。
📅 2026-04-06 23:25 (04-06 23:25) 听雨 人工智能 1 分鐘 ★ 92
DeepSeek HISA 稀疏注意力 长文本优化
Gemma 4 架构可视化指南
📌 一句话摘要 Philipp Schmid 推荐了一份全面的可视化指南,深入浅出地解释了 Gemma 4 的架构,包括 MoE 和嵌入技术。 📝 详细摘要 这篇推文重点介绍了一份高质量的 Gemma 4 模型可视化指南。它涵盖了关键技术点,如多模态处理(图像、音频和文本)、用于高效推理的混合专
📅 2026-04-05 20:27 (04-05 20:27) Philipp Schmid 人工智能 3 分鐘 ★ 82
Gemma 4 Google DeepMind MoE AI 架构
Google 为 Gemini API 引入 Flex 和 Priority 服务层级
📌 一句话摘要 Google 现已为 Gemini API 推出全新服务层级,提供“flex”模式以降低成本,以及“priority”模式以提升可靠性。 📝 详细摘要 Google Gemini API 产品负责人 Logan Kilpatrick 宣布推出全新的服务层级。开发者现在可以在“fl
📅 2026-04-03 04:03 (04-03 04:03) Logan Kilpatrick 人工智能 1 分鐘 ★ 86
Gemini API Google API 成本 AI 基础设施
推荐:TurboQuant KV Cache 压缩技术解析
📌 一句话摘要 转发并推荐了一篇关于 Google TurboQuant 论文的深度解析,该技术通过 PolarQuant+QJL 算法实现 KV Cache 的 3-bit 无损压缩。 📝 详细摘要 作者转发了一篇关于 Google TurboQuant 论文的深度解析。该论文提出了一种利用
📅 2026-03-26 19:25 (03-26 19:25) Mr Panda 人工智能 1 分鐘 ★ 86
TurboQuant KV Cache 大模型推理 Google
一个用于探索奖励推理的玩具环境 — LessWrong
📌 一句话摘要 本文介绍了一个受控的玩具环境,旨在研究以能力为导向的强化学习(RL)训练如何促使模型优先考虑奖励提示而非明确指令,即使在面临监督威胁时也是如此。 📝 详细摘要 作者提出了一个极简的受控环境,旨在研究以能力为导向的强化学习训练出的模型中出现的奖励篡改(reward hacking)
📅 2026-03-26 04:29 (03-26 04:29) jenny 人工智能 1 分鐘 ★ 88
AI 安全 强化学习 奖励篡改 对齐