美团 CVPR 2026 中稿精选：视觉生成遇上慢思考，解码多模态推理新范式

📌 一句话摘要

本文精选了美团技术团队被 CVPR 2026 收录的 10 篇论文，涵盖多模态交互、数字人、图像定制、海报生成、视频压缩与视觉推理等前沿方向。

📝 详细摘要

文章是美团技术团队在 CVPR 2026 上的中稿论文精选集，共介绍了 10 篇被 Main Conference 收录的论文。这些论文覆盖了多个计算机视觉与多模态领域的前沿课题，包括：面向实时多模态交互与视听生成的统一框架 U-Mind、基于闭环世界建模的主动智能视频化身、面向图像定制化的位置与身份一致性框架 PositionIC、基于任务蒸馏与统一奖励反馈的通用艺术海报生成框架 PosterOmni、面向高质量平面设计生成的精准评估模型 PosterReward、基于信息唯一性的视频压缩新方法 UniComp、图像与视频全能推理模型 OneThinker、基于几何想象力驱动的空间推理模型 3DThinker、在视觉生成过程中交织文本推理的 TwiG 框架，以及面向统一细粒度视频协作理解的 UFVideo 框架。每篇论文均附有简要介绍和论文下载链接，文末还预告了相关的线上直播分享活动。

💡 主要观点

- 美团在 CVPR 2026 上有多篇论文被收录，覆盖视觉与多模态多个前沿方向。 10 篇论文涉及多模态交互、数字人、图像定制、海报生成、视频压缩、视觉推理等，展示了美团在计算机视觉领域的全面研究布局。

多篇论文聚焦于将推理能力融入视觉生成与理解过程。 如 OneThinker 和 3DThinker 将强化学习与空间推理结合，TwiG 在视觉生成中交织文本推理，体现了视觉领域向慢思考范式演进的新趋势。

多项工作注重实际应用场景，如电商展示、海报设计和视频压缩。 PositionIC 和 PosterOmni 等研究直接面向电商和内容创作场景，UniComp 则关注极端压缩下的语义保留，具有较高的工程落地价值。

💬 文章金句

- U-Mind 核心采用统一对齐与推理框架，通过分段对齐策略和排演驱动学习机制，确保多模态输出的严丝合缝并保持逻辑推理能力。

ORCA 通过观察-思考-行动-反思（OTAR）闭环机制，赋予数字人自主规划、记忆维护和主动提问能力。
TwiG 将生成过程拆解为生成-思考-再生成的循环，让模型像人类画师一样在作画时进行动态修正。
OneThinker 横扫了 31 个主流基准测试，展现出极强的零样本泛化能力。
3DThinker 让模型在生成文本时学会脑补几何特征，且具备能够直接从生成的 3D 潜变量中恢复出三维点云的极强可解释性。

📊 文章信息

AI 初评：85

来源：PaperWeekly

作者：PaperWeekly

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3099

标签： CVPR 2026, 美团, 多模态, 视觉生成, 视频理解

阅读完整文章

美团 CVPR 2026 中稿精选：视觉生成遇上慢思考，解码多模态推理新范式

🤖 問 AI