Puffin 是一个入选 ICLR 2026 的统一多模态大模型,通过将相机几何表征为语言并引入「与相机共思」机制,实现了以相机为中心的场景理解与可控生成。
📝 详细摘要
本文介绍了入选 ICLR 2026 的研究成果 Puffin。该模型旨在解决当前视觉与生成模型在相机几何感知上的局限,通过将相机几何转化为语言表征,并提出「与相机共思」(Thinking with Camera)理念,实现了理解与生成的统一。Puffin 架构结合了自回归推理与扩散建模,支持精准的相机位姿预测与可控生成。此外,研究团队开源了包含 400 万组数据的 Puffin-4M 数据集,为空间智能领域的研究提供了重要支撑。
💡 主要观点
- 提出「与相机共思」新范式 将相机几何表征为语言,打破了传统视觉模型中理解与生成任务割裂的现状,实现了对相机位姿的精准感知与控制。
💬 文章金句
- 将「相机几何」破译为一种「语言」,并引入「与相机共思」(Thinking with Camera)的理念。
- Puffin 将自回归推理与扩散建模相结合,使其能够精准预测相机几何、根据指定位姿可控生成世界,并进行鲁棒的空间推理。
- 实现了感知、推理与生成等多模态任务在显式相机表征下的高度统一。
📊 文章信息
AI 评分:80
来源:青稞AI
作者:青稞AI
分类:人工智能
语言:中文
阅读时间:7 分钟
字数:1649
标签: Puffin, 多模态模型, 空间智能, 世界模型, ICLR 2026