本文汇总了 2026 年 5 月 15 日 7 个值得关注的开源项目,重点介绍了 20 亿参数文生视频模型 Motif-Video、高表现力 TTS 项目 Dramabox 等。
📝 详细摘要
本文是「机器之心 SOTA 模型」公众号发布的一期开源项目日报,汇总了 2026 年 5 月 15 日的 7 个开源项目。文章以项目简介和链接的形式呈现,内容涵盖多个 AI 领域:基座模型方面包括 20 亿参数文生视频/图生视频扩散 Transformer 模型 Motif-Video(VBench 开源模型最高分)、高表现力文本转语音项目 Dramabox、开源视觉语言动作模型 MolmoAct2、统一分割多模态大模型 X2SAM;框架工具方面包括飞书命令行工具 cli、无需训练的具身开放词汇占用预测框架 FreeOcc、步蒸馏扩散模型训练框架 D-OPSD。文章为每个项目提供了简要的技术亮点和项目链接,属于信息聚合类内容。
💡 主要观点
- Motif-Video 以 20 亿参数和极低训练成本,在 VBench 上取得开源模型最高分。 该模型仅用不到 1000 万训练片段和 10 万 H200 GPU 小时训练完成,参数仅为 Wan2.1-14B 的 1/7,展现了高效的架构设计能力。
💬 文章金句
- Motif-Video 2B 是 Motif Technologies 推出的 20 亿参数级文本转视频、图像转视频扩散 Transformer 模型,仅用不到 1000 万训练片段、不足 10 万 H200 GPU 小时的微预算训练完成。
- Dramabox 是 Resemble AI 推出的高表现力文本转语音项目,基于 LTX-2.3 音频模型微调而来,支持通过提示词控制说话人身份、情绪、表达效果、语气词、停顿等。
- FreeOcc 是被 RSS 2026 收录的无需训练的具身开放词汇占用预测框架,支持单目或 RGB-D 图像序列输入,无需依赖体素级占用标注、语义标签或真值相机位姿。
📊 文章信息
AI 初评:80
来源:机器之心SOTA模型
作者:机器之心SOTA模型
分类:人工智能
语言:中文
阅读时间:5 分钟
字数:1188
标签: 开源项目, 文生视频, Motif-Video, 文本转语音, 视觉语言模型