今日开源（2026-5-15）：Motif-Video 正式开源，20 亿参数文生视频/图生视频扩散 Transformer 模型，VBench 开源模型最高分 83.76%

📌 一句话摘要

本文汇总了 2026 年 5 月 15 日 7 个值得关注的开源项目，重点介绍了 20 亿参数文生视频模型 Motif-Video、高表现力 TTS 项目 Dramabox 等。

📝 详细摘要

本文是「机器之心 SOTA 模型」公众号发布的一期开源项目日报，汇总了 2026 年 5 月 15 日的 7 个开源项目。文章以项目简介和链接的形式呈现，内容涵盖多个 AI 领域：基座模型方面包括 20 亿参数文生视频/图生视频扩散 Transformer 模型 Motif-Video（VBench 开源模型最高分）、高表现力文本转语音项目 Dramabox、开源视觉语言动作模型 MolmoAct2、统一分割多模态大模型 X2SAM；框架工具方面包括飞书命令行工具 cli、无需训练的具身开放词汇占用预测框架 FreeOcc、步蒸馏扩散模型训练框架 D-OPSD。文章为每个项目提供了简要的技术亮点和项目链接，属于信息聚合类内容。

💡 主要观点

- Motif-Video 以 20 亿参数和极低训练成本，在 VBench 上取得开源模型最高分。 该模型仅用不到 1000 万训练片段和 10 万 H200 GPU 小时训练完成，参数仅为 Wan2.1-14B 的 1/7，展现了高效的架构设计能力。

Dramabox 是一个高表现力文本转语音项目，支持精细的语音控制。 基于 LTX-2.3 微调，支持通过提示词控制说话人身份、情绪、语气等，并可克隆目标音色，适用于生成富有感染力的语音内容。

飞书推出官方命令行工具 cli，面向普通用户和 AI Agent。 覆盖飞书 17 个核心办公业务域，提供 200+ 命令和 24 个预置 AI Agent 技能，可快速实现功能调用，提升办公自动化效率。

💬 文章金句

- Motif-Video 2B 是 Motif Technologies 推出的 20 亿参数级文本转视频、图像转视频扩散 Transformer 模型，仅用不到 1000 万训练片段、不足 10 万 H200 GPU 小时的微预算训练完成。

Dramabox 是 Resemble AI 推出的高表现力文本转语音项目，基于 LTX-2.3 音频模型微调而来，支持通过提示词控制说话人身份、情绪、表达效果、语气词、停顿等。
FreeOcc 是被 RSS 2026 收录的无需训练的具身开放词汇占用预测框架，支持单目或 RGB-D 图像序列输入，无需依赖体素级占用标注、语义标签或真值相机位姿。

📊 文章信息

AI 初评：80

来源：机器之心SOTA模型

作者：机器之心SOTA模型

分类：人工智能

语言：中文

阅读时间：5 分钟

字数：1188

标签：开源项目, 文生视频, Motif-Video, 文本转语音, 视觉语言模型

阅读完整文章

今日开源（2026-5-15）：Motif-Video 正式开源，20 亿参数文生视频/图生视频扩散 Transformer 模型，VBench 开源模型最高分 83.76%

🤖 問 AI