全部 未讀 (21689) ★ 收藏 (0) 🤖 人工智能 (11201) 📊 商业科技 (4470) 💻 软件编程 (1688) 📁 个人成长 (1607) 📁 生活文化 (864) 📁 媒体资讯 (838) 📁 投资财经 (537) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ KV cache 共 25 篇 ✕ 清除篩選
21691
全部文章
21689
未讀
53
今日新增
0
收藏
📡 Poller 最後抓取: 23 分鐘前 (06-09 02:00)
BestBlogs 精選 (21656)

🏷️ 熱門標籤

AI Agent 2173 AI 编程 994 Anthropic 981 Claude Code 917 AI 智能体 780 OpenAI 745 LLM 689 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 492 开发者工具 433 Codex 416 软件工程 399 具身智能 338 Agent 334 个人成长 334 GitHub 321 生产力 315
超越 TurboQuant,面向长上下文推理的真 2-bit KV Quantization 算法问世
📌 一句话摘要 TogetherAI 联合悉尼大学和 UIUC 提出 OSCAR 算法,通过 attention-aware 旋转和离线校准,在约 2.28 有效比特下实现接近 BF16 精度的 2-bit KV Cache 量化,并已集成至 SGLang 推理框架实现开箱即用。 📝 详细摘要
📅 2026-05-29 12:04 (10 天前) 机器之心 人工智能 2 分鐘 ★ 88
KV Cache 量化 长上下文 SGLang
超越 TurboQuant! OSCAR:面向真实 Serving 的 2bit KV Cache 量化
📌 一句话摘要 OSCAR 提出了一种面向真实长上下文推理服务的近 2-bit KV Cache 量化方案,通过 attention-aware 旋转和离线校准,在保持模型精度的同时实现约 8 倍显存压缩和最高 7 倍吞吐提升,并已接入 SGLang 服务框架。 📝 详细摘要 本文详细介绍了 O
📅 2026-05-29 14:00 (10 天前) InfoQ 中文 人工智能 2 分鐘 ★ 88
KV Cache 量化 模型推理优化 低比特量化 长上下文
Tair 联手 SGLang 共建 DeepSeekV4 分层缓存架构
📌 一句话摘要 本文详细介绍了阿里云 Tair KVCache 团队与 SGLang 社区为 DeepSeek V4 构建的分层缓存架构,通过 Shadow Radix、HiCache 和 HiSparse 三个核心组件,分别解决长上下文推理中 KV Cache 的逻辑描述、Prefill 阶段前
📅 2026-05-29 08:30 (10 天前) 阿里云开发者 人工智能 2 分鐘 ★ 92
DeepSeek V4 KV Cache SGLang Tair
超越 TurboQuant! OSCAR:面向真实 Serving 的 2-bit KV Cache 量化
📌 一句话摘要 OSCAR 提出了一种面向真实长上下文推理服务的 2-bit KV Cache 量化方案,通过 attention-aware 旋转和对齐,在约 2.28 有效比特下接近 BF16 精度,并已集成至 SGLang 实现系统加速。 📝 详细摘要 本文详细介绍了 OSCAR 这一面向
📅 2026-05-26 19:15 (13 天前) AINLP 人工智能 2 分鐘 ★ 88
KV Cache 量化 LLM 推理 SGLang
TogetherAI 开源 OSCAR:超越 TurboQuant! 面向真实 Serving 的 2-bit KV Cache 量化
📌 一句话摘要 Together AI 开源了 OSCAR,一种面向真实长上下文服务的 2-bit KV Cache 量化方案,通过注意力感知的旋转技术,在显著降低显存占用和提升推理吞吐的同时,保持了与 BF16 精度相当的模型性能。 📝 详细摘要 本文详细介绍了 Together AI 开源的
📅 2026-05-25 17:14 (14 天前) 魔搭ModelScope社区 人工智能 2 分鐘 ★ 88
KV Cache 量化 OSCAR Together AI
DeepSeek 的 10 万亿美金宏伟战略?
📌 一句话摘要 本文通过分析 DeepSeek 在 MoE、MLA、DSA、Engram 等底层架构上的系列创新,论证其战略目标并非短期盈利,而是通过降低对 HBM 和高端 GPU 的依赖,打造一个 10 万亿美元级的中国 AI 硬件生态,并最终实现自身 1 万亿美元估值。 📝 详细摘要 文章基
📅 2026-05-24 15:20 (15 天前) AI寒武纪 人工智能 2 分鐘 ★ 82
DeepSeek AI 战略 硬件生态 KV Cache
LLM 近期重大架构进化一览:从 Gemma 4 到 DeepSeek V4
📌 一句话摘要 本文翻译并整理了 Sebastian Raschka 的技术博客,系统梳理了 Gemma 4、Laguna XS.2、ZAYA1-8B 和 DeepSeek V4 等最新 LLM 在降低长上下文推理成本方面的架构创新,包括跨层 KV 共享、分层注意力预算、压缩卷积注意力和流形约束超
📅 2026-05-19 12:00 (20 天前) 机器之心 人工智能 2 分鐘 ★ 87
LLM 架构 长上下文 KV Cache Gemma 4
CVPR 2026 四篇论文透视:大厂如何靠「算法瘦身」对抗算力涨价?
📌 一句话摘要 本文聚焦字节跳动 Seed 团队在 CVPR 2026 上的四篇论文,系统阐述了在算力受限背景下,通过算法创新(一步生成、KV Cache 压缩、动态注意力分配、物理感知世界模型)实现模型降本增效的技术路径与行业趋势。 📝 详细摘要 文章以「算力封锁下,算法成为新护城河」为核心论
📅 2026-05-14 18:05 (25 天前) AI科技评论 人工智能 2 分鐘 ★ 86
CVPR 2026 字节跳动 算法优化 模型压缩
DeepSeek 全新多模态技术开源:Thinking with Visual Primitives
📌 一句话摘要 DeepSeek 联合北大、清华开源了基于视觉基元推理的多模态技术,通过将边界框和坐标点作为思考单元,以极低的 KV Cache 开销在空间推理任务上实现断层式领先。 📝 详细摘要 本文详细介绍了 DeepSeek 联合北京大学、清华大学最新开源的多模态技术「Thinking w
📅 2026-05-01 00:06 (05-01 00:06) PaperAgent 人工智能 2 分鐘 ★ 85
DeepSeek 多模态 视觉基元 空间推理
智谱公布“降智”的秘密:Scaling 不可避免的痛
📌 一句话摘要 智谱公开了 GLM-5 系列模型在 Scaling 过程中因高负载推理状态管理缺陷导致的乱码、复读等异常问题,并分享了定位、修复及优化的实战经验。 📝 详细摘要 本文是智谱团队发布的一篇技术博客,坦诚分享了 GLM-5 模型在 Scaling 过程中遭遇的「Scaling Pai
📅 2026-05-01 19:00 (05-01 19:00) 鹭羽 人工智能 2 分鐘 ★ 88
Scaling GLM-5 推理优化 KV Cache
记得住、答得快、用得省:HERMES 让流式视频理解实时响应提速 10 倍
📌 一句话摘要 复旦大学等机构提出 HERMES 框架,通过将 KV Cache 建模为层次化记忆系统,实现流式视频理解中无需额外检索的实时响应,首 token 生成时间加速最高 10 倍。 📝 详细摘要 本文介绍了由复旦大学、上海创智学院与新加坡国立大学联合提出的 HERMES 框架,旨在解决
📅 2026-04-24 17:06 (04-24 17:06) 机器之心 人工智能 2 分鐘 ★ 88
流式视频理解 KV Cache 层次化记忆 HERMES
BestBlogs 早报 | 2026-04-20:AI 领域十大热点深度解读
📌 一句话摘要 本期早报汇总并深度解读了 2026 年 4 月 20 日 AI 领域的十大热点,涵盖开源 Agent、企业级架构、产品经理转型、AI 设计工具、软件工程范式、模型架构、KV Cache 优化和具身智能等前沿话题。 📝 详细摘要 这是一条内容极其丰富的长推文,作为 #BestBlo
📅 2026-04-20 08:10 (04-20 08:10) 人工智能 1 分鐘 ★ 88
AI 早报 技术资讯汇总 Agent 架构 开源治理
Kimi 新论文:把 KVCache 玩成新商业模式了
📌 一句话摘要 月之暗面与清华大学联合提出 Prefill-as-a-Service 架构,通过混合注意力模型压缩 KV Cache,使其能通过普通以太网跨数据中心传输,实现 Prefill 与 Decode 的异地异构调度,显著提升长上下文推理性能。 📝 详细摘要 本文报道了月之暗面与清华大学
📅 2026-04-19 18:19 (04-19 18:19) 衡宇 人工智能 2 分鐘 ★ 91
大模型推理 KV Cache Prefill-as-a-Service 混合注意力
NVIDIA KVPress 端到端编程指南:长上下文 LLM 推理、KV Cache 压缩与内存高效生成
📌 一句话摘要 一份实用的操作指南,演示如何利用 NVIDIA 的 KVPress 库,通过 KV Cache 压缩和内存高效生成技术来优化长上下文 LLM 推理。 📝 详细摘要 本文提供了一份全面且以代码为驱动的指南,介绍了如何实现 NVIDIA 的 KVPress 以管理长上下文 LLM 推
📅 2026-04-10 10:21 (04-10 10:21) Asif Razzaq 人工智能 1 分鐘 ★ 85
NVIDIA KVPress LLM KV Cache
TriAttention:支持 4090 本地运行 32B 模型的新技术
📌 一句话摘要 TriAttention 通过全新 KV Cache 压缩方法,实现单张 RTX 4090 部署 32B 大模型,推理速度提升 2.5 倍。 📝 详细摘要 由 @yukangchen_ 团队推出的 TriAttention 技术正式开源。该技术基于 Pre-RoPE 空间的三角函
📅 2026-04-09 07:11 (04-09 07:11) Berryxia.AI 人工智能 1 分鐘 ★ 88
TriAttention KV Cache RTX 4090 本地部署
从提示词到预测:理解 LLM 中的 Prefill、Decode 和 KV Cache - MachineLearningMastery.com
📌 一句话摘要 本文提供了 LLM 推理流水线的实践技术指南,通过 PyTorch 代码示例解释了 Prefill 和 Decode 阶段,以及 KV Cache 如何优化性能。 📝 详细摘要 本文清晰且务实地解释了 LLM 推理的两个阶段:Prefill 和 Decode。它使用简化的 PyT
📅 2026-03-31 04:47 (03-31 04:47) Yoyo Chan 人工智能 1 分鐘 ★ 87
LLM 推理 KV Cache 注意力机制
趋境 ATaaS 平台发布,打造日均万亿产能的“Token 工厂”
📌 一句话摘要 趋境科技发布 ATaaS 平台,提出从模型服务向 Token 服务(TaaS)转型的理念,通过异构协同和大规模 KV Cache 技术打造日均万亿产能的「Token 工厂」。 📝 详细摘要 文章报道了 2026 中关村论坛上趋境科技发布的 ATaaS 高效能 AI Token 生
📅 2026-03-28 21:58 (03-28 21:58) 十三 人工智能 1 分鐘 ★ 86
TaaS Token as a Service AI Infra 趋境科技
推荐:TurboQuant KV Cache 压缩技术解析
📌 一句话摘要 转发并推荐了一篇关于 Google TurboQuant 论文的深度解析,该技术通过 PolarQuant+QJL 算法实现 KV Cache 的 3-bit 无损压缩。 📝 详细摘要 作者转发了一篇关于 Google TurboQuant 论文的深度解析。该论文提出了一种利用
📅 2026-03-26 19:25 (03-26 19:25) Mr Panda 人工智能 1 分鐘 ★ 86
TurboQuant KV Cache 大模型推理 Google
一篇论文引发存储芯片股暴跌,Google 的「DeepSeek 时刻」来了?
📌 一句话摘要 Google Research 发布 TurboQuant 算法,通过极坐标变换和 QJL 变换实现 KV Cache 的 6 倍无损压缩,显著提升推理效率并引发存储芯片市场震荡。 📝 详细摘要 本文深入解析了 Google Research 最新的 AI 压缩算法 TurboQ
📅 2026-03-26 21:41 (03-26 21:41) 莫崇宇 人工智能 2 分鐘 ★ 87
TurboQuant KV Cache 模型量化 Google Research
谷歌 TurboQuant 论文:KV cache 压缩 6 倍且精度零损失
📌 一句话摘要 谷歌研究院发布 TurboQuant 算法,通过极坐标量化等技术实现 KV cache 至少 6 倍的无损压缩,显著降低大模型推理内存需求并提升速度。 📝 详细摘要 本文报道了谷歌研究院即将在 ICLR 2026 亮相的突破性论文——TurboQuant 压缩算法。该算法针对 A
📅 2026-03-26 11:03 (03-26 11:03) 梦晨 人工智能 11 分鐘 ★ 90
TurboQuant KV cache 模型量化 Google Research