字节开源统一框架 Bernini：给 DiT 配个“大模型军师”，AI 视频编辑先理解再动手

📌 一句话摘要

字节商业化技术团队开源 Bernini 框架，采用「多模态大模型规划 + DiT 渲染」的两阶段架构，实现先理解语义再生成视频的可控编辑与参考生成。

📝 详细摘要

本文报道字节商业化技术团队开源的视频生成与编辑统一框架 Bernini。该框架的核心创新在于将任务拆分为两步：首先由 MLLM-based planner 理解文本指令、源视频与参考素材，在 ViT embedding 空间中预测目标语义表示；然后由 DiT-based renderer 根据语义规划生成高质量、连续稳定的视频画面。Bernini 覆盖参考生成（主体、材质、风格、图像视频植入）与视频编辑（天气/季节/风格改变、视角/焦点/动作编辑）等多种任务，并支持多角度参考与多元素组合生成。文章还介绍了 SA-3D RoPE 位置编码解决多参考输入时的时空坐标混淆问题，并引用团队自建 Arena 评测结果，称该开源框架已进入第一梯队。目前开源的是 Bernini-R（第二阶段模型），完整版含 MLLM Planner 的代码预计近期开放。

💡 主要观点

- Bernini 采用「MLLM 规划 + DiT 渲染」的两阶段架构，将语义理解与视觉生成解耦。 MLLM-based planner 先理解文本指令与视觉输入，在 embedding 空间预测语义目标；DiT-based renderer 再据此生成连续稳定的视频画面，避免单一模型包办所有任务带来的失控问题。

框架支持丰富的可控编辑能力，包括天气/风格改变、视角/焦点/动作编辑。 编辑结果不仅改变单帧外观，还能保持前后帧一致性、透视关系和场景结构，接近专业后期软件的可控性。

参考生成能力覆盖主体、材质、风格、图像视频植入及多角度/多元素组合。 用户可提供参考图/视频控制生成结果，支持同一物体多角度参考与多元素组合生成，对广告创意、电商展示、影视预演等场景有实用价值。

SA-3D RoPE 位置编码解决多参考输入时的时空坐标混淆问题。 通过为不同视觉片段添加 segment 标记，让模型区分参考图、源视频与目标输出，同时保留时空位置关系，提升多输入场景下的生成稳定性。

💬 文章金句

- 多模态大模型负责想明白，Diffusion Transformer 负责生成出来。

少一点反复碰运气，多一点真正可控的创作空间。
Bernini 最让创作者有实感的地方，不只是画面更好看，而是它让 AIGC 创作少了一点「玄学」。

📊 文章信息

AI 初评：86

来源：量子位

作者：梦瑶

分类：人工智能

语言：中文

阅读时间：18 分钟

字数：4385

标签： AI 视频生成, 视频编辑, DiT, 多模态大模型, 字节跳动

阅读完整文章

字节开源统一框架 Bernini：给 DiT 配个“大模型军师”，AI 视频编辑先理解再动手

🤖 問 AI