手机推理快 8 倍、80 页合同 AI 秒懂——小米 AI 团队多项论文入选 ACL 2026

📌 一句话摘要

小米 AI 团队 7 篇论文入选 ACL 2026，涵盖端侧推理优化、多页文档理解、Agent 训练及语音生成等全栈技术突破，旨在提升小米 AI 产品的实际落地能力。

📝 详细摘要

本文介绍了小米 AI 团队在 ACL 2026 录用的 7 篇研究成果。这些论文构成了一套完整的技术拼图，从底层的 VecInfer 推理加速（实现 8.3 倍延迟降低），到感知层的 Doc-V* 多页文档理解与 Attention Basin 长文本优化，再到交互层的 ZipVoice-Dialog 语音生成及 MobileBench-OL 手机 Agent 评测。小米通过这些技术突破，旨在解决端侧 AI 推理瓶颈、长文档处理效率及 Agent 训练成本等实际工程问题，为小爱同学及手机 Agent 的产品化落地提供核心技术支撑。

💡 主要观点

- VecInfer 通过矢量量化技术实现端侧推理大幅加速。 针对 KV cache 显存瓶颈，VecInfer 采用矢量量化方案，在 2-bit 下保持高性能，使 Llama-3.1-8B 模型在端侧实现 8.3 倍延迟降低，显著提升端侧 AI 响应速度。

Doc-V* 提出 OCR-free 主动感知范式，提升长文档理解能力。 该方案模拟人类专家翻阅文档的方式，无需 OCR 即可处理 80 页以上长文档，在长文档场景下较 RAG 基线提升 9.8 个百分点，降低了企业知识管理的落地成本。

MobileBench-OL 为手机 Agent 提供系统化评测标尺。 通过覆盖 80 款主流应用的 1080 个任务，该评测框架揭示了当前手机 Agent 在复杂操作下的真实成功率，为 Agent 的研发提供了精准的优化方向。

STEP 优化策略降低了 Agent 训练的计算成本。 通过任务成功率感知的自适应重采样和步级细粒度优化，STEP 在同样的计算预算下实现了更快的收敛速度和更强的泛化能力。

💬 文章金句

- 同样的 GPU，推理速度提升 8.3 倍；80 页合同，AI 不用 OCR 就能读懂并回答问题。

这 7 篇论文不是 7 个孤立的学术发表，而是一张完整的技术拼图。
最强 AI 面对 20 步以上的手机操作，成功率不到两成，碰到弹窗干扰更是大幅下降。

📊 文章信息

AI 评分：87

来源：小米技术

作者：小米技术

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4042

标签： ACL 2026, 小米 AI, LLM, 端侧推理, Agent

阅读完整文章

手机推理快 8 倍、80 页合同 AI 秒懂——小米 AI 团队多项论文入选 ACL 2026

🤖 問 AI