本文汇总了 2026 年 5 月 14 日 7 个重要开源项目,涵盖 NVIDIA Lyra 2.0 单图像 3D 世界生成、腾讯 AI Agent 记忆方案、人形机器人运动生成等前沿方向。
📝 详细摘要
文章以信息聚合形式介绍了 7 个最新开源项目,分为基座模型和框架工具两大类。基座模型包括:NVIDIA 的 Lyra 2.0,可从单张图像生成持久可探索的 3D 世界,采用两阶段设计解决空间遗忘和时间漂移问题;Ovis2.6,采用 MoE 架构的多模态大模型,推理仅需约 3B 激活参数;Pixal3D,腾讯 ARC 实验室联合高校推出的单图像 3D 生成项目,已入选 SIGGRAPH 2026。框架工具包括:TencentDB-Agent-Memory,腾讯开源的 AI Agent 记忆解决方案,采用四层渐进式流水线架构;uniact-code,面向人形机器人的统一运动生成项目;FASTER,面向 VLA 模型的实时反应优化方案,实现 10 倍加速;I²B-LPO,基于 verl 的 RLVR 后训练探索增强框架,已被 ACL 2026 收录。每个项目均附有简要技术说明和收藏链接。
💡 主要观点
- NVIDIA Lyra 2.0 实现从单张图像生成大规模 3D 世界。 采用两阶段设计解决空间遗忘和时间漂移问题,在单图像 3D 场景生成任务上达到 SOTA,但仅限内部科研使用。
💬 文章金句
- Lyra 2.0 是 NVIDIA 推出的可从单张图像大规模生成持久可探索 3D 世界的框架,采用两阶段设计解决空间遗忘、时间漂移问题。
- FASTER 是面向视觉语言动作(VLA)模型的实时反应优化方案,将即时反应的采样过程压缩为单步,相比 π₀.₅、X-VLA 实现 10 倍加速。
- I²B-LPO 是基于 verl 构建的 RLVR 后训练探索增强框架,将探索从简单重复采样转向关键节点生成高区分度轨迹。
📊 文章信息
AI 初评:82
来源:机器之心SOTA模型
作者:机器之心SOTA模型
分类:人工智能
语言:中文
阅读时间:5 分钟
字数:1172
标签: 开源项目, 3D 生成, 多模态大模型, AI Agent, 人形机器人