全部 未讀 (21671) ★ 收藏 (0) 🤖 人工智能 (11190) 📊 商业科技 (4470) 💻 软件编程 (1687) 📁 个人成长 (1607) 📁 生活文化 (864) 📁 媒体资讯 (833) 📁 投资财经 (536) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ LLM 推理 共 20 篇 ✕ 清除篩選
21673
全部文章
21671
未讀
35
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-09 00:00)
BestBlogs 精選 (21638)

🏷️ 熱門標籤

AI Agent 2168 AI 编程 991 Anthropic 981 Claude Code 917 AI 智能体 780 OpenAI 745 LLM 684 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 399 具身智能 338 Agent 334 个人成长 334 GitHub 321 生产力 315
超越 TurboQuant! OSCAR:面向真实 Serving 的 2-bit KV Cache 量化
📌 一句话摘要 OSCAR 提出了一种面向真实长上下文推理服务的 2-bit KV Cache 量化方案,通过 attention-aware 旋转和对齐,在约 2.28 有效比特下接近 BF16 精度,并已集成至 SGLang 实现系统加速。 📝 详细摘要 本文详细介绍了 OSCAR 这一面向
📅 2026-05-26 19:15 (13 天前) AINLP 人工智能 2 分鐘 ★ 88
KV Cache 量化 LLM 推理 SGLang
Latent Space 综述:模型的「内心独白」从 Token 搬回向量,是 LLM 进化的下一拍
📌 一句话摘要 李继刚深度解读一篇关于 Latent Space 的综述论文,指出将模型的推理过程从离散 Token 空间转移到连续向量空间,是突破当前 LLM 推理效率与能力瓶颈的关键方向。 📝 详细摘要 这是一篇对 arXiv 论文「The Latent Space: Foundation,
📅 2026-05-03 11:32 (05-03 11:32) 李继刚 人工智能 1 分鐘 ★ 88
Latent Space LLM 推理 Coconut Latent CoT
强化学习的进化:从 PPO 到 MaxRL,LLM 推理训练的算法演进史
📌 一句话摘要 本文系统梳理了用于 LLM 推理训练的强化学习算法从 PPO 到 GRPO、RLOO、DAPO、CISPO、MaxRL 等最新变体的演进历程,深入分析了各算法的核心思想、改进动机与关键差异。 📝 详细摘要 本文是一篇高质量的算法综述,系统回顾了 2024 至 2026 年间用于
📅 2026-05-01 13:01 (05-01 13:01) 机器之心 人工智能 2 分鐘 ★ 88
强化学习 LLM 推理 PPO GRPO
ACL 2026|答得更准还写得更短?华为泰勒实验室提出 SHAPE,给 LLM 推理装了个「推理税」
📌 一句话摘要 华为泰勒实验室联合北大、上财提出 SHAPE 框架,通过「推理势能」估计和「推理税」机制,在强化学习训练中同时提升 LLM 数学推理准确率约 3% 并降低 token 消耗约 30%,该工作已被 ACL 2026 接收。 📝 详细摘要 本文详细介绍了华为泰勒实验室、北京大学和上海
📅 2026-04-28 15:41 (04-28 15:41) 机器之心 人工智能 2 分鐘 ★ 88
SHAPE LLM 推理 强化学习 过程奖励
DHH 推荐:通过 Fireworks AI 使用 Kimi 实现 200tps+ 极速体验
📌 一句话摘要 推文分享了 DHH 对 Kimi 模型的喜爱,并指出通过 Fireworks AI 部署可实现超过 200tps 的推理速度,远超官方水平。 📝 详细摘要 推文引用了技术大牛 DHH 的观点,强调了 Fireworks AI 在模型推理速度上的优势。目前 Fireworks AI
📅 2026-04-21 12:02 (04-21 12:02) Ding 人工智能 1 分鐘 ★ 82
Kimi Fireworks AI DHH LLM 推理
AI 能力怀疑论中不断移动的球门柱
📌 一句话摘要 Antirez 描述了随着 AI 实力证据的堆积,AI 怀疑论者如何不断将论点从“统计模型”转向“有限推理”。 📝 详细摘要 作为推文系列的后续,这条推文强调了一些研究员用来否定 LLM 进展的不断演变的叙述。它追踪了这种转变:从最初将 AI 贴上“仅仅是统计引擎”的标签,到后来
📅 2026-04-09 00:19 (04-09 00:19) antirez 人工智能 1 分鐘 ★ 77
AI 研究 LLM 推理 行业批判
DeepLearning.AI 推出 SGLang 高效推理免费课程
📌 一句话摘要 DeepLearning.AI 发布了一门全新的免费课程,重点介绍如何利用 SGLang、KV 缓存和 RadixAttention 优化大语言模型(LLM)及图像生成的推理过程。 📝 详细摘要 此推文宣布推出名为《使用 SGLang 实现高效推理:文本与图像生成》的新技术课程。
📅 2026-04-08 23:31 (04-08 23:31) DeepLearning.AI 人工智能 1 分鐘 ★ 87
SGLang LLM 推理 RadixAttention DeepLearning.AI
斯坦福最新研究:单智能体 vs 多智能体效率大比拼
📌 一句话摘要 斯坦福大学的一篇新论文揭示,在控制总计算量和思考标记(thinking-token)预算的情况下,单智能体系统比多智能体架构具有更高的信息效率。 📝 详细摘要 这篇推文重点介绍了斯坦福大学的一项研究,该研究挑战了目前围绕多智能体系统的热潮。通过控制总计算量(思考标记),研究对比了
📅 2026-04-07 23:12 (04-07 23:12) elvis 人工智能 1 分鐘 ★ 82
多智能体系统 LLM 推理 斯坦福研究 AI Agents
Claude Code 性能退化争议:AMD AI 主管量化分析与 Anthropic 官方回应
📌 一句话摘要 本文报道了 AMD AI 主管对 Claude Code 性能退化的深度量化分析及 Anthropic 官方的回应争议,揭示了 AI 编程工具在思考深度与算力成本平衡中的挑战。 📝 详细摘要 文章详细记录了 AMD AI 团队主管 Stella Laurenzo 针对 Claud
📅 2026-04-07 13:34 (04-07 13:34) AI前线 人工智能 2 分鐘 ★ 86
Claude Code Anthropic AI 编程 LLM 推理
“Claude Code 更新废了”!热议 Issue:思考深度下降 67%,已无法胜任复杂的工程任务
📌 一句话摘要 本文深度解析了 Claude Code 性能退化的量化报告,指出其思考深度下降 67% 导致复杂工程能力丧失,并揭示了官方默认设置对模型行为的影响。 📝 详细摘要 文章详细报道了 GitHub 社区针对 Claude Code 性能严重退化的深度分析。AMD 工程师 Stella
📅 2026-04-07 14:13 (04-07 14:13) 西风 人工智能 7 分鐘 ★ 90
Claude Code LLM 推理 思维链 AI 编程工具
通过推测解码将 LLM 推理延迟降低 10 倍
📌 一句话摘要 这是一篇强烈推荐的博客文章,详细介绍了如何利用基于 SRAM 的 Corsairs 进行推测解码,从而实现超过 1400 tokens/秒的吞吐量并将延迟降低 10 倍。 📝 详细摘要 该推文强调了 LLM 推理优化方面的一项重大技术突破。通过将推测解码任务卸载到 2GB SRA
📅 2026-04-03 23:06 (04-03 23:06) Deedy 人工智能 1 分鐘 ★ 82
LLM 推理 推测解码 延迟优化 AI 基础设施
昆仑芯大规模 LLM 推理优化,实现秒级扩缩容
📌 一句话摘要 本文介绍了昆仑芯针对大规模 LLM 推理冷启动耗时长的痛点,通过权重传输优化、编译缓存复用、Lazy CUDA Graph 及守护实例等技术,实现了超大模型秒级扩缩容的工程实践。 📝 详细摘要 针对大模型推理服务在流量波动时扩容缓慢(动辄数分钟)的问题,昆仑芯团队提出了全链路优化
📅 2026-03-31 18:05 (03-31 18:05) 百度Geek说 人工智能 2 分鐘 ★ 88
LLM 推理 昆仑芯 vLLM 弹性扩缩容
谷歌 TurboQuant 论文:KV cache 压缩 6 倍且精度零损失
📌 一句话摘要 谷歌研究院发布 TurboQuant 算法,通过极坐标量化等技术实现 KV cache 至少 6 倍的无损压缩,显著降低大模型推理内存需求并提升速度。 📝 详细摘要 本文报道了谷歌研究院即将在 ICLR 2026 亮相的突破性论文——TurboQuant 压缩算法。该算法针对 A
📅 2026-03-26 11:03 (03-26 11:03) 梦晨 人工智能 11 分鐘 ★ 90
TurboQuant KV cache 模型量化 Google Research
🔬 为什么还没有“材料界的 AlphaFold” —— 专访 Heather Kulik 谈 AI 材料发现
📌 一句话摘要 麻省理工学院教授 Heather Kulik 探讨了 AI 在材料科学领域面临的独特挑战,解释了为何数据稀缺、化学多样性以及 LLM 的推理局限阻碍了“材料界 AlphaFold”式突破的出现。 📝 详细摘要 本文总结了对麻省理工学院教授、AI 材料科学先驱 Heather Ku
📅 2026-03-25 00:53 (03-25 00:53) Brandon Anderson, RJ Honicky 人工智能 2 分鐘 ★ 89
AI for Science 材料科学 LLM 推理 AlphaFold
**介绍 SPEED-Bench:一个用于推测解码的统一且多样化的基准测试**
📌 一句话摘要 SPEED-Bench 是一套全面的基准测试套件,旨在评估跨不同语义领域和真实生产级服务工作负载下的推测解码(Speculative Decoding, SD)。 📝 详细摘要 本文介绍了由 NVIDIA 开发的统一评估框架 SPEED-Bench,旨在解决推测解码(SD)基准测
📅 2026-03-19 22:04 (03-19 22:04) Talor Abramovich, Maor Ashkenazi, Izzy Putterman, Benjamin Chislett, Tiyasa Mitra, Bita Rouhani, Ran Zilberstein, Yonatan Geifman 人工智能 2 分鐘 ★ 89
推测解码 LLM 推理 基准测试 性能优化
自动研究:利用 Apple 的“LLM in a Flash”在本地运行 Qwen 397B
📌 一句话摘要 本文探讨了 Dan Woods 的一项研究实验,该实验利用 Apple 的“LLM in a Flash”技术和 AI 驱动的“自动研究”模式,在 48GB MacBook Pro 上运行 397B 参数的 Qwen 模型。 📝 详细摘要 本文强调了本地 LLM 推理的一个重要技
📅 2026-03-19 07:56 (03-19 07:56) Simon Willison 人工智能 2 分鐘 ★ 84
LLM 推理 混合专家模型 (MoE) Apple Silicon MLX
英伟达称其可在不改变模型权重的情况下将 LLM 记忆缩小 20 倍
📌 一句话摘要 英伟达研究人员推出了 KV 缓存变换编码(KVTC),这是一种非侵入式技术,它利用媒体压缩原理,将 LLM 记忆使用量减少 20 倍,并将初始响应时间加快 8 倍。 📝 详细摘要 英伟达发布了 KV 缓存变换编码(KVTC),这是一种旨在解决大型语言模型(LLM)推理中“记忆墙”
📅 2026-03-18 06:43 (03-18 06:43) Ben Dickson 人工智能 9 分鐘 ★ 90
KV 缓存 LLM 推理 英伟达 模型压缩
为什么要在乎 LLM 中的提示词缓存?
📌 一句话摘要 本文解释了提示词缓存如何通过在多个请求中重用预计算的 token 前缀来优化 LLM 性能和成本。 📝 详细摘要 本文对提示词缓存进行了技术深度探讨,这是一种旨在降低大语言模型(LLM)应用延迟和成本的机制。文章首先区分了 LLM 推理中计算密集型“预填充”阶段和内存密集型“解码
📅 2026-03-14 01:11 (03-14 01:11) Maria Mouschoutzi 人工智能 2 分鐘 ★ 78
提示词缓存 LLM 推理 KV 缓存 成本优化
Fireworks AI 高性能推理现已登陆 Microsoft Azure
📌 一句话摘要 开发者现在可以在 Microsoft Azure Foundry 生态系统中使用 Fireworks AI 针对开源模型的快速推理能力。 📝 详细摘要 这条推文确认了 Fireworks AI 的推理服务已在 Microsoft Azure 上线。它特别提到了对 Kimi K2.
📅 2026-03-12 03:23 (03-12 03:23) elvis 人工智能 4 分鐘 ★ 81
Fireworks AI Microsoft Azure LLM 推理 云计算
V1:统一并行推理器的生成与自我验证
📌 一句话摘要 本论文介绍了 V1 框架,该框架通过整合生成与自我验证功能,显著提升了并行推理模型的性能。 📝 详细摘要 该推文分享了一篇名为 “V1” 的前沿研究论文,重点探讨了并行推理器中内容生成与自我验证之间的协同作用。这种方法允许模型以并行方式对其输出进行自我验证,旨在提高 AI 推理过
📅 2026-03-10 23:48 (03-10 23:48) AK 人工智能 1 分鐘 ★ 81
V1 并行推理器 自我验证 AI 研究