全部 未讀 (12221) ★ 收藏 (0) 🤖 人工智能 (7782) 📊 商业科技 (1917) 💻 软件编程 (1217) 📁 个人成长 (761) 🎨 产品设计 (214) 📁 生活文化 (130) 📁 媒体资讯 (80) 📁 投资财经 (76) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ 延迟优化 共 2 篇 ✕ 清除篩選
12223
全部文章
12221
未讀
93
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (04-18 18:00)
BestBlogs 精選 (12202)

🏷️ 熱門標籤

AI Agent 1369 AI 智能体 737 Claude Code 656 Anthropic 650 LLM 564 AI 编程 536 OpenClaw 501 开源 444 AI 安全 409 Claude 400 AI 398 OpenAI 371 软件工程 359 开发者工具 348 生产力 308 GitHub 254 自动化 241 AI 基础设施 229 AI 开发 226 MCP 225
通过推测解码将 LLM 推理延迟降低 10 倍
📌 一句话摘要 这是一篇强烈推荐的博客文章,详细介绍了如何利用基于 SRAM 的 Corsairs 进行推测解码,从而实现超过 1400 tokens/秒的吞吐量并将延迟降低 10 倍。 📝 详细摘要 该推文强调了 LLM 推理优化方面的一项重大技术突破。通过将推测解码任务卸载到 2GB SRA
📅 2026-04-03 23:06 (14 天前) Deedy 人工智能 1 分鐘 ★ 82
LLM 推理 推测解码 延迟优化 AI 基础设施
Roblox 如何利用 AI 在 100 毫秒内翻译 16 种语言
📌 一句话摘要 Roblox 通过统一的混合专家(MoE)模型和高度优化的推理流水线,实现了 16 种语言的实时翻译,延迟低于 100 毫秒。 📝 详细摘要 本文深入探讨了 Roblox 的实时聊天翻译系统,该系统每秒处理超过 5,000 条跨 16 种语言的聊天信息。为了克服维护 256 个独
📅 2026-03-30 23:33 (18 天前) ByteByteGo 人工智能 2 分鐘 ★ 88
机器翻译 混合专家模型 模型蒸馏 延迟优化