← 回總覽

手机推理快 8 倍、80 页合同 AI 秒懂——小米 AI 团队多项论文入选 ACL 2026

📅 2026-04-10 17:00 小米技术 人工智能 2 分鐘 1284 字 評分: 87
ACL 2026 小米 AI LLM 端侧推理 Agent
📌 一句话摘要 小米 AI 团队 7 篇论文入选 ACL 2026,涵盖端侧推理优化、多页文档理解、Agent 训练及语音生成等全栈技术突破,旨在提升小米 AI 产品的实际落地能力。 📝 详细摘要 本文介绍了小米 AI 团队在 ACL 2026 录用的 7 篇研究成果。这些论文构成了一套完整的技术拼图,从底层的 VecInfer 推理加速(实现 8.3 倍延迟降低),到感知层的 Doc-V* 多页文档理解与 Attention Basin 长文本优化,再到交互层的 ZipVoice-Dialog 语音生成及 MobileBench-OL 手机 Agent 评测。小米通过这些技术突破,旨在解

📌 一句话摘要

小米 AI 团队 7 篇论文入选 ACL 2026,涵盖端侧推理优化、多页文档理解、Agent 训练及语音生成等全栈技术突破,旨在提升小米 AI 产品的实际落地能力。

📝 详细摘要

本文介绍了小米 AI 团队在 ACL 2026 录用的 7 篇研究成果。这些论文构成了一套完整的技术拼图,从底层的 VecInfer 推理加速(实现 8.3 倍延迟降低),到感知层的 Doc-V* 多页文档理解与 Attention Basin 长文本优化,再到交互层的 ZipVoice-Dialog 语音生成及 MobileBench-OL 手机 Agent 评测。小米通过这些技术突破,旨在解决端侧 AI 推理瓶颈、长文档处理效率及 Agent 训练成本等实际工程问题,为小爱同学及手机 Agent 的产品化落地提供核心技术支撑。

💡 主要观点

- VecInfer 通过矢量量化技术实现端侧推理大幅加速。 针对 KV cache 显存瓶颈,VecInfer 采用矢量量化方案,在 2-bit 下保持高性能,使 Llama-3.1-8B 模型在端侧实现 8.3 倍延迟降低,显著提升端侧 AI 响应速度。

Doc-V* 提出 OCR-free 主动感知范式,提升长文档理解能力。 该方案模拟人类专家翻阅文档的方式,无需 OCR 即可处理 80 页以上长文档,在长文档场景下较 RAG 基线提升 9.8 个百分点,降低了企业知识管理的落地成本。
MobileBench-OL 为手机 Agent 提供系统化评测标尺。 通过覆盖 80 款主流应用的 1080 个任务,该评测框架揭示了当前手机 Agent 在复杂操作下的真实成功率,为 Agent 的研发提供了精准的优化方向。
STEP 优化策略降低了 Agent 训练的计算成本。 通过任务成功率感知的自适应重采样和步级细粒度优化,STEP 在同样的计算预算下实现了更快的收敛速度和更强的泛化能力。

💬 文章金句

- 同样的 GPU,推理速度提升 8.3 倍;80 页合同,AI 不用 OCR 就能读懂并回答问题。

  • 这 7 篇论文不是 7 个孤立的学术发表,而是一张完整的技术拼图。
  • 最强 AI 面对 20 步以上的手机操作,成功率不到两成,碰到弹窗干扰更是大幅下降。

📊 文章信息

AI 评分:87

来源:小米技术

作者:小米技术

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4042

标签: ACL 2026, 小米 AI, LLM, 端侧推理, Agent

阅读完整文章

查看原文 → 發佈: 2026-04-10 17:00:00 收錄: 2026-04-10 20:00:50

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。