字节商业化技术团队开源 Bernini 框架,采用「多模态大模型规划 + DiT 渲染」的两阶段架构,实现先理解语义再生成视频的可控编辑与参考生成。
📝 详细摘要
本文报道字节商业化技术团队开源的视频生成与编辑统一框架 Bernini。该框架的核心创新在于将任务拆分为两步:首先由 MLLM-based planner 理解文本指令、源视频与参考素材,在 ViT embedding 空间中预测目标语义表示;然后由 DiT-based renderer 根据语义规划生成高质量、连续稳定的视频画面。Bernini 覆盖参考生成(主体、材质、风格、图像视频植入)与视频编辑(天气/季节/风格改变、视角/焦点/动作编辑)等多种任务,并支持多角度参考与多元素组合生成。文章还介绍了 SA-3D RoPE 位置编码解决多参考输入时的时空坐标混淆问题,并引用团队自建 Arena 评测结果,称该开源框架已进入第一梯队。目前开源的是 Bernini-R(第二阶段模型),完整版含 MLLM Planner 的代码预计近期开放。
💡 主要观点
- Bernini 采用「MLLM 规划 + DiT 渲染」的两阶段架构,将语义理解与视觉生成解耦。 MLLM-based planner 先理解文本指令与视觉输入,在 embedding 空间预测语义目标;DiT-based renderer 再据此生成连续稳定的视频画面,避免单一模型包办所有任务带来的失控问题。
💬 文章金句
- 多模态大模型负责想明白,Diffusion Transformer 负责生成出来。
- 少一点反复碰运气,多一点真正可控的创作空间。
- Bernini 最让创作者有实感的地方,不只是画面更好看,而是它让 AIGC 创作少了一点「玄学」。
📊 文章信息
AI 初评:86
来源:量子位
作者:梦瑶
分类:人工智能
语言:中文
阅读时间:18 分钟
字数:4385
标签: AI 视频生成, 视频编辑, DiT, 多模态大模型, 字节跳动