OPPO 小布记忆：全模态碎片化内容的理解与智能整理实践｜AICon 上海

📌 一句话摘要

OPPO 高级算法工程师分享小布记忆产品的技术实践，介绍端云协同的一键闪记架构、基于自研 AndesVL 多模态大模型的端侧推理、全模态碎片化内容理解与结构化记忆整理方案。

📝 详细摘要

本文是 OPPO 高级算法工程师王闯闯在 AICon 上海大会上的演讲预告，详细介绍了小布记忆产品的技术架构与实践。文章核心围绕如何让 AI 理解用户每天产生的截图、语音、视频、文档等多模态碎片化内容，并自动整理成有价值的记忆。技术方案包括：构建端云协同的一键闪记架构，基于自研 AndesVL 多模态大模型实现端侧推理，通过智能任务分流实现 80% 简单场景端侧处理、20% 复杂场景云侧处理；深入讲解多模态理解能力，涵盖截图、语音、视频、文档、多图等全模态理解与结构化信息提取；介绍关联记忆与合集归纳的内容聚合方案，实现从碎片到结构化记忆的自动整理；最后分享流程化算法开发工作流与自动化评测体系等工程实践。文章还包含大会的议程介绍和报名信息。

💡 主要观点

- 端云协同架构实现智能任务分流，80% 简单场景端侧处理、20% 复杂场景云侧处理。 通过分类标签生成动态 Prompt，对输入图文信息进行分析，将直屏单屏等简单场景交由端侧 AndesVL 模型处理，分屏多浮窗等复杂场景上云，在保证效果的同时最大化端侧推理占比，降低延迟和成本。

基于自研 AndesVL 多模态大模型构建端侧推理能力，支持全模态碎片化内容理解。 端侧 AIUnit 支持截图场景分类与结构化提取、语音转 ASR 与意图识别、视频关键帧提取、文档多图批量理解等多种任务，并针对多语种 POI 提取进行优化，实现异构多模态数据的统一理解。

内容聚合采用双路方案：关联记忆的多规则融合召回 + Rerank + LLM 精排，合集归纳的三链路统一 + Reranker/Verify 两阶段聚合。 关联记忆通过标题、实体、标签等多规则召回，经 Rerank 和 LLM 精排提升准确性；合集归纳融合用户手动创建、A 标签推荐、洞见推荐三条链路，通过两阶段聚合实现从碎片到结构化记忆的自动整理，合集创建准确率从 83% 提升至 97%。

💬 文章金句

- 用户每天产生大量碎片化内容——截图、语音、视频、文档、多图......如何让 AI 理解这些异构多模态数据，并自动整理成有价值的'记忆'？

构建端云协同的一键闪记架构，基于自研 AndesVL 多模态大模型实现端侧推理，通过智能任务分流实现 80% 简单场景端侧处理、20% 复杂场景云侧处理。
合集创建准确率 83% → 97%，新记忆加入准确率 76% → 95%+。

📊 文章信息

AI 初评：84

来源：InfoQ 中文

作者：InfoQ 中文

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2574

标签：端侧大模型, 多模态理解, AI Memory, 端云协同, OPPO

阅读完整文章

OPPO 小布记忆：全模态碎片化内容的理解与智能整理实践｜AICon 上海

🤖 問 AI