今日开源（2026-5-14）：NVIDIA Lyra 2.0 正式发布，单张图像大规模生成持久可探索 3D 世界框架，两阶段设计解决空间遗忘与时间漂移

📌 一句话摘要

本文汇总了 2026 年 5 月 14 日 7 个重要开源项目，涵盖 NVIDIA Lyra 2.0 单图像 3D 世界生成、腾讯 AI Agent 记忆方案、人形机器人运动生成等前沿方向。

📝 详细摘要

文章以信息聚合形式介绍了 7 个最新开源项目，分为基座模型和框架工具两大类。基座模型包括：NVIDIA 的 Lyra 2.0，可从单张图像生成持久可探索的 3D 世界，采用两阶段设计解决空间遗忘和时间漂移问题；Ovis2.6，采用 MoE 架构的多模态大模型，推理仅需约 3B 激活参数；Pixal3D，腾讯 ARC 实验室联合高校推出的单图像 3D 生成项目，已入选 SIGGRAPH 2026。框架工具包括：TencentDB-Agent-Memory，腾讯开源的 AI Agent 记忆解决方案，采用四层渐进式流水线架构；uniact-code，面向人形机器人的统一运动生成项目；FASTER，面向 VLA 模型的实时反应优化方案，实现 10 倍加速；I²B-LPO，基于 verl 的 RLVR 后训练探索增强框架，已被 ACL 2026 收录。每个项目均附有简要技术说明和收藏链接。

💡 主要观点

- NVIDIA Lyra 2.0 实现从单张图像生成大规模 3D 世界。 采用两阶段设计解决空间遗忘和时间漂移问题，在单图像 3D 场景生成任务上达到 SOTA，但仅限内部科研使用。

腾讯开源了 AI Agent 记忆解决方案 TencentDB-Agent-Memory。 采用四层渐进式流水线和符号化短期记忆+分层长时记忆架构，支持完全本地化部署，可降低 Token 消耗并提升任务成功率。

FASTER 方案为 VLA 模型实现 10 倍实时反应加速。 通过自适应调度策略将即时反应采样压缩为单步，已在乒乓球等高动态任务中验证，可在消费级 GPU 上运行。

💬 文章金句

- Lyra 2.0 是 NVIDIA 推出的可从单张图像大规模生成持久可探索 3D 世界的框架，采用两阶段设计解决空间遗忘、时间漂移问题。

FASTER 是面向视觉语言动作（VLA）模型的实时反应优化方案，将即时反应的采样过程压缩为单步，相比 π₀.₅、X-VLA 实现 10 倍加速。
I²B-LPO 是基于 verl 构建的 RLVR 后训练探索增强框架，将探索从简单重复采样转向关键节点生成高区分度轨迹。

📊 文章信息

AI 初评：82

来源：机器之心SOTA模型

作者：机器之心SOTA模型

分类：人工智能

语言：中文

阅读时间：5 分钟

字数：1172

标签：开源项目, 3D 生成, 多模态大模型, AI Agent, 人形机器人

阅读完整文章

今日开源（2026-5-14）：NVIDIA Lyra 2.0 正式发布，单张图像大规模生成持久可探索 3D 世界框架，两阶段设计解决空间遗忘与时间漂移

🤖 問 AI