← 回總覽

今日开源(2026-5-15):Motif-Video 正式开源,20 亿参数文生视频/图生视频扩散 Transformer 模型,VBench 开源模型最高分 83.76%

📅 2026-05-15 18:30 机器之心SOTA模型 人工智能 2 分鐘 1480 字 評分: 80
开源项目 文生视频 Motif-Video 文本转语音 视觉语言模型
📌 一句话摘要 本文汇总了 2026 年 5 月 15 日 7 个值得关注的开源项目,重点介绍了 20 亿参数文生视频模型 Motif-Video、高表现力 TTS 项目 Dramabox 等。 📝 详细摘要 本文是「机器之心 SOTA 模型」公众号发布的一期开源项目日报,汇总了 2026 年 5 月 15 日的 7 个开源项目。文章以项目简介和链接的形式呈现,内容涵盖多个 AI 领域:基座模型方面包括 20 亿参数文生视频/图生视频扩散 Transformer 模型 Motif-Video(VBench 开源模型最高分)、高表现力文本转语音项目 Dramabox、开源视觉语言动作模型 M

📌 一句话摘要

本文汇总了 2026 年 5 月 15 日 7 个值得关注的开源项目,重点介绍了 20 亿参数文生视频模型 Motif-Video、高表现力 TTS 项目 Dramabox 等。

📝 详细摘要

本文是「机器之心 SOTA 模型」公众号发布的一期开源项目日报,汇总了 2026 年 5 月 15 日的 7 个开源项目。文章以项目简介和链接的形式呈现,内容涵盖多个 AI 领域:基座模型方面包括 20 亿参数文生视频/图生视频扩散 Transformer 模型 Motif-Video(VBench 开源模型最高分)、高表现力文本转语音项目 Dramabox、开源视觉语言动作模型 MolmoAct2、统一分割多模态大模型 X2SAM;框架工具方面包括飞书命令行工具 cli、无需训练的具身开放词汇占用预测框架 FreeOcc、步蒸馏扩散模型训练框架 D-OPSD。文章为每个项目提供了简要的技术亮点和项目链接,属于信息聚合类内容。

💡 主要观点

- Motif-Video 以 20 亿参数和极低训练成本,在 VBench 上取得开源模型最高分。 该模型仅用不到 1000 万训练片段和 10 万 H200 GPU 小时训练完成,参数仅为 Wan2.1-14B 的 1/7,展现了高效的架构设计能力。

Dramabox 是一个高表现力文本转语音项目,支持精细的语音控制。 基于 LTX-2.3 微调,支持通过提示词控制说话人身份、情绪、语气等,并可克隆目标音色,适用于生成富有感染力的语音内容。
飞书推出官方命令行工具 cli,面向普通用户和 AI Agent。 覆盖飞书 17 个核心办公业务域,提供 200+ 命令和 24 个预置 AI Agent 技能,可快速实现功能调用,提升办公自动化效率。

💬 文章金句

- Motif-Video 2B 是 Motif Technologies 推出的 20 亿参数级文本转视频、图像转视频扩散 Transformer 模型,仅用不到 1000 万训练片段、不足 10 万 H200 GPU 小时的微预算训练完成。

  • Dramabox 是 Resemble AI 推出的高表现力文本转语音项目,基于 LTX-2.3 音频模型微调而来,支持通过提示词控制说话人身份、情绪、表达效果、语气词、停顿等。
  • FreeOcc 是被 RSS 2026 收录的无需训练的具身开放词汇占用预测框架,支持单目或 RGB-D 图像序列输入,无需依赖体素级占用标注、语义标签或真值相机位姿。

📊 文章信息

AI 初评:80

来源:机器之心SOTA模型

作者:机器之心SOTA模型

分类:人工智能

语言:中文

阅读时间:5 分钟

字数:1188

标签: 开源项目, 文生视频, Motif-Video, 文本转语音, 视觉语言模型

阅读完整文章

查看原文 → 發佈: 2026-05-15 18:30:00 收錄: 2026-05-15 20:00:26

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。