← 回總覽

字节开源统一框架 Bernini:给 DiT 配个“大模型军师”,AI 视频编辑先理解再动手

📅 2026-06-02 17:28 梦瑶 人工智能 2 分鐘 1449 字 評分: 86
AI 视频生成 视频编辑 DiT 多模态大模型 字节跳动
📌 一句话摘要 字节商业化技术团队开源 Bernini 框架,采用「多模态大模型规划 + DiT 渲染」的两阶段架构,实现先理解语义再生成视频的可控编辑与参考生成。 📝 详细摘要 本文报道字节商业化技术团队开源的视频生成与编辑统一框架 Bernini。该框架的核心创新在于将任务拆分为两步:首先由 MLLM-based planner 理解文本指令、源视频与参考素材,在 ViT embedding 空间中预测目标语义表示;然后由 DiT-based renderer 根据语义规划生成高质量、连续稳定的视频画面。Bernini 覆盖参考生成(主体、材质、风格、图像视频植入)与视频编辑(天气/季

📌 一句话摘要

字节商业化技术团队开源 Bernini 框架,采用「多模态大模型规划 + DiT 渲染」的两阶段架构,实现先理解语义再生成视频的可控编辑与参考生成。

📝 详细摘要

本文报道字节商业化技术团队开源的视频生成与编辑统一框架 Bernini。该框架的核心创新在于将任务拆分为两步:首先由 MLLM-based planner 理解文本指令、源视频与参考素材,在 ViT embedding 空间中预测目标语义表示;然后由 DiT-based renderer 根据语义规划生成高质量、连续稳定的视频画面。Bernini 覆盖参考生成(主体、材质、风格、图像视频植入)与视频编辑(天气/季节/风格改变、视角/焦点/动作编辑)等多种任务,并支持多角度参考与多元素组合生成。文章还介绍了 SA-3D RoPE 位置编码解决多参考输入时的时空坐标混淆问题,并引用团队自建 Arena 评测结果,称该开源框架已进入第一梯队。目前开源的是 Bernini-R(第二阶段模型),完整版含 MLLM Planner 的代码预计近期开放。

💡 主要观点

- Bernini 采用「MLLM 规划 + DiT 渲染」的两阶段架构,将语义理解与视觉生成解耦。 MLLM-based planner 先理解文本指令与视觉输入,在 embedding 空间预测语义目标;DiT-based renderer 再据此生成连续稳定的视频画面,避免单一模型包办所有任务带来的失控问题。

框架支持丰富的可控编辑能力,包括天气/风格改变、视角/焦点/动作编辑。 编辑结果不仅改变单帧外观,还能保持前后帧一致性、透视关系和场景结构,接近专业后期软件的可控性。
参考生成能力覆盖主体、材质、风格、图像视频植入及多角度/多元素组合。 用户可提供参考图/视频控制生成结果,支持同一物体多角度参考与多元素组合生成,对广告创意、电商展示、影视预演等场景有实用价值。
SA-3D RoPE 位置编码解决多参考输入时的时空坐标混淆问题。 通过为不同视觉片段添加 segment 标记,让模型区分参考图、源视频与目标输出,同时保留时空位置关系,提升多输入场景下的生成稳定性。

💬 文章金句

- 多模态大模型负责想明白,Diffusion Transformer 负责生成出来。

  • 少一点反复碰运气,多一点真正可控的创作空间。
  • Bernini 最让创作者有实感的地方,不只是画面更好看,而是它让 AIGC 创作少了一点「玄学」。

📊 文章信息

AI 初评:86

来源:量子位

作者:梦瑶

分类:人工智能

语言:中文

阅读时间:18 分钟

字数:4385

标签: AI 视频生成, 视频编辑, DiT, 多模态大模型, 字节跳动

阅读完整文章

查看原文 → 發佈: 2026-06-02 17:28:00 收錄: 2026-06-03 00:00:50

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。