← 回總覽

今日开源(2026-5-14):NVIDIA Lyra 2.0 正式发布,单张图像大规模生成持久可探索 3D 世界框架,两阶段设计解决空间遗忘与时间漂移

📅 2026-05-14 18:32 机器之心SOTA模型 人工智能 2 分鐘 1427 字 評分: 82
开源项目 3D 生成 多模态大模型 AI Agent 人形机器人
📌 一句话摘要 本文汇总了 2026 年 5 月 14 日 7 个重要开源项目,涵盖 NVIDIA Lyra 2.0 单图像 3D 世界生成、腾讯 AI Agent 记忆方案、人形机器人运动生成等前沿方向。 📝 详细摘要 文章以信息聚合形式介绍了 7 个最新开源项目,分为基座模型和框架工具两大类。基座模型包括:NVIDIA 的 Lyra 2.0,可从单张图像生成持久可探索的 3D 世界,采用两阶段设计解决空间遗忘和时间漂移问题;Ovis2.6,采用 MoE 架构的多模态大模型,推理仅需约 3B 激活参数;Pixal3D,腾讯 ARC 实验室联合高校推出的单图像 3D 生成项目,已入选 SI

📌 一句话摘要

本文汇总了 2026 年 5 月 14 日 7 个重要开源项目,涵盖 NVIDIA Lyra 2.0 单图像 3D 世界生成、腾讯 AI Agent 记忆方案、人形机器人运动生成等前沿方向。

📝 详细摘要

文章以信息聚合形式介绍了 7 个最新开源项目,分为基座模型和框架工具两大类。基座模型包括:NVIDIA 的 Lyra 2.0,可从单张图像生成持久可探索的 3D 世界,采用两阶段设计解决空间遗忘和时间漂移问题;Ovis2.6,采用 MoE 架构的多模态大模型,推理仅需约 3B 激活参数;Pixal3D,腾讯 ARC 实验室联合高校推出的单图像 3D 生成项目,已入选 SIGGRAPH 2026。框架工具包括:TencentDB-Agent-Memory,腾讯开源的 AI Agent 记忆解决方案,采用四层渐进式流水线架构;uniact-code,面向人形机器人的统一运动生成项目;FASTER,面向 VLA 模型的实时反应优化方案,实现 10 倍加速;I²B-LPO,基于 verl 的 RLVR 后训练探索增强框架,已被 ACL 2026 收录。每个项目均附有简要技术说明和收藏链接。

💡 主要观点

- NVIDIA Lyra 2.0 实现从单张图像生成大规模 3D 世界。 采用两阶段设计解决空间遗忘和时间漂移问题,在单图像 3D 场景生成任务上达到 SOTA,但仅限内部科研使用。

腾讯开源了 AI Agent 记忆解决方案 TencentDB-Agent-Memory。 采用四层渐进式流水线和符号化短期记忆+分层长时记忆架构,支持完全本地化部署,可降低 Token 消耗并提升任务成功率。
FASTER 方案为 VLA 模型实现 10 倍实时反应加速。 通过自适应调度策略将即时反应采样压缩为单步,已在乒乓球等高动态任务中验证,可在消费级 GPU 上运行。

💬 文章金句

- Lyra 2.0 是 NVIDIA 推出的可从单张图像大规模生成持久可探索 3D 世界的框架,采用两阶段设计解决空间遗忘、时间漂移问题。

  • FASTER 是面向视觉语言动作(VLA)模型的实时反应优化方案,将即时反应的采样过程压缩为单步,相比 π₀.₅、X-VLA 实现 10 倍加速。
  • I²B-LPO 是基于 verl 构建的 RLVR 后训练探索增强框架,将探索从简单重复采样转向关键节点生成高区分度轨迹。

📊 文章信息

AI 初评:82

来源:机器之心SOTA模型

作者:机器之心SOTA模型

分类:人工智能

语言:中文

阅读时间:5 分钟

字数:1172

标签: 开源项目, 3D 生成, 多模态大模型, AI Agent, 人形机器人

阅读完整文章

查看原文 → 發佈: 2026-05-14 18:32:00 收錄: 2026-05-15 02:00:04

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。