Puffin: 统一多模态空间智能大模型——从任意视角理解和生成世界

📌 一句话摘要

Puffin 是一个入选 ICLR 2026 的统一多模态大模型，通过将相机几何表征为语言并引入「与相机共思」机制，实现了以相机为中心的场景理解与可控生成。

📝 详细摘要

本文介绍了入选 ICLR 2026 的研究成果 Puffin。该模型旨在解决当前视觉与生成模型在相机几何感知上的局限，通过将相机几何转化为语言表征，并提出「与相机共思」（Thinking with Camera）理念，实现了理解与生成的统一。Puffin 架构结合了自回归推理与扩散建模，支持精准的相机位姿预测与可控生成。此外，研究团队开源了包含 400 万组数据的 Puffin-4M 数据集，为空间智能领域的研究提供了重要支撑。

💡 主要观点

- 提出「与相机共思」新范式 将相机几何表征为语言，打破了传统视觉模型中理解与生成任务割裂的现状，实现了对相机位姿的精准感知与控制。

统一架构设计 Puffin 结合了自回归推理与扩散建模，能够同时执行以相机为中心的理解任务和基于指定位姿的生成任务，提升了模型的空间推理能力。

开源大规模数据集 发布了 Puffin-4M 数据集，包含 400 万组「视觉-语言-相机」三元组，为跨视角、交互式空间智能研究提供了高质量数据基础。

💬 文章金句

- 将「相机几何」破译为一种「语言」，并引入「与相机共思」（Thinking with Camera）的理念。

Puffin 将自回归推理与扩散建模相结合，使其能够精准预测相机几何、根据指定位姿可控生成世界，并进行鲁棒的空间推理。
实现了感知、推理与生成等多模态任务在显式相机表征下的高度统一。

📊 文章信息

AI 评分：80

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：7 分钟

字数：1649

标签： Puffin, 多模态模型, 空间智能, 世界模型, ICLR 2026

阅读完整文章

Puffin: 统一多模态空间智能大模型——从任意视角理解和生成世界

🤖 問 AI