← 回總覽

Puffin: 统一多模态空间智能大模型——从任意视角理解和生成世界

📅 2026-04-01 14:02 青稞AI 人工智能 1 分鐘 1002 字 評分: 80
Puffin 多模态模型 空间智能 世界模型 ICLR 2026
📌 一句话摘要 Puffin 是一个入选 ICLR 2026 的统一多模态大模型,通过将相机几何表征为语言并引入「与相机共思」机制,实现了以相机为中心的场景理解与可控生成。 📝 详细摘要 本文介绍了入选 ICLR 2026 的研究成果 Puffin。该模型旨在解决当前视觉与生成模型在相机几何感知上的局限,通过将相机几何转化为语言表征,并提出「与相机共思」(Thinking with Camera)理念,实现了理解与生成的统一。Puffin 架构结合了自回归推理与扩散建模,支持精准的相机位姿预测与可控生成。此外,研究团队开源了包含 400 万组数据的 Puffin-4M 数据集,为空间智能领

📌 一句话摘要

Puffin 是一个入选 ICLR 2026 的统一多模态大模型,通过将相机几何表征为语言并引入「与相机共思」机制,实现了以相机为中心的场景理解与可控生成。

📝 详细摘要

本文介绍了入选 ICLR 2026 的研究成果 Puffin。该模型旨在解决当前视觉与生成模型在相机几何感知上的局限,通过将相机几何转化为语言表征,并提出「与相机共思」(Thinking with Camera)理念,实现了理解与生成的统一。Puffin 架构结合了自回归推理与扩散建模,支持精准的相机位姿预测与可控生成。此外,研究团队开源了包含 400 万组数据的 Puffin-4M 数据集,为空间智能领域的研究提供了重要支撑。

💡 主要观点

- 提出「与相机共思」新范式 将相机几何表征为语言,打破了传统视觉模型中理解与生成任务割裂的现状,实现了对相机位姿的精准感知与控制。

统一架构设计 Puffin 结合了自回归推理与扩散建模,能够同时执行以相机为中心的理解任务和基于指定位姿的生成任务,提升了模型的空间推理能力。
开源大规模数据集 发布了 Puffin-4M 数据集,包含 400 万组「视觉-语言-相机」三元组,为跨视角、交互式空间智能研究提供了高质量数据基础。

💬 文章金句

- 将「相机几何」破译为一种「语言」,并引入「与相机共思」(Thinking with Camera)的理念。

  • Puffin 将自回归推理与扩散建模相结合,使其能够精准预测相机几何、根据指定位姿可控生成世界,并进行鲁棒的空间推理。
  • 实现了感知、推理与生成等多模态任务在显式相机表征下的高度统一。

📊 文章信息

AI 评分:80

来源:青稞AI

作者:青稞AI

分类:人工智能

语言:中文

阅读时间:7 分钟

字数:1649

标签: Puffin, 多模态模型, 空间智能, 世界模型, ICLR 2026

阅读完整文章

查看原文 → 發佈: 2026-04-01 14:02:00 收錄: 2026-04-01 16:00:37

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。