Bernini 开源:MLLM 视频语义规划 + DiT 渲染架构解析

在 AI 视频生成领域,你是否也遇到过这些痛点:指令理解不到位、画面抖动、多素材融合混乱、编辑逻辑失真?传统模型“一条道走到黑”的生成方式已经难以满足日益复杂的创作需求。而字节跳动于 2026 年开源的 Bernini,带来了全新的解决方案——MLLM语义规划 + DiT渲染的解耦架构,真正实现了“看得懂指令、稳得住画面、控得住编辑”的统一视频生成与编辑能力。无论你是科研人员、企业开发者,还是内容创作者,Bernini 都能为你提供灵活、高效、可扩展的 AI 视频工具链。

核心技术架构:双模块解耦分层设计

传统文生视频模型采用“文本直接映射像素”单阶段流程,缺少高层逻辑推理,面对多条件、局部编辑、多参考图输入极易出现物体漂移、动作崩坏、指令不遵循问题。Bernini 创新性拆分语义规划器DiT渲染器,各司其职、低耦合协同,两大模块通过 ViT 嵌入空间标准化语义接口通信,可独立预训练、仅轻度联合微调,最大程度保留各自基座模型原生能力。

MLLM 语义规划器(Planner)

基座采用 Qwen2.5-VL-7B 多模态大模型,定位为 AI 视频的“导演”,负责全链路语义推理:

  • 多模态输入解析:统一解析文本 Prompt、源视频帧、多张参考图、编辑约束指令,拆解物体位置、光影、运动逻辑、人物交互、空间透视等约束条件;
  • 隐空间语义草图生成:不输出像素,仅在 ViT 视觉嵌入空间预测目标视频的高层语义 Token,少量语义向量即可完整定义整场画面构图与动态逻辑;
  • 思维链 CoT 推理:针对复杂编辑指令(如“把桌上玻璃杯替换成麦克风,手部动作不变、窗外改为雨夜”)分步拆解约束,规避局部修改破坏原有画面时序一致性;
  • 掩码生成解码:轻量化 ViT 解码器补全被掩码遮挡的目标语义 Token,输出标准化语义特征向量,作为渲染器的核心条件输入。

DiT 视频渲染器(Renderer)

基于 Wan2.2-T2V-A14B 扩散 Transformer 二次微调,定位为“后期渲染师”,接收规划器语义向量 + 源视频 VAE 细节特征,完成像素级视频生成:

  • 双条件融合机制
    • 高层条件:MLLM 输出 ViT 语义特征,控制画面整体内容、物体种类、运动逻辑;
    • 底层约束:编辑场景注入源视频 VAE 潜变量,锁定不需要修改的背景、人物轮廓、原有动作,仅局部重绘;
  • 流匹配去噪采样:在 VAE 潜空间完成时序去噪,保障 24fps 视频帧间人物、物体无漂移、无闪烁;
  • 双专家 UNet 架构:高噪声专家负责画面整体构图,低噪声专家优化细节纹理、光影,分层提升生成画质,1.3B 轻量化版本保留双专家结构适配消费级显卡。

核心创新技术:SA-3D RoPE 段感知 3D 位置编码

框架原生支持多参考图、源视频、目标输出混合输入序列,不同素材 Token 共享时空坐标易产生特征混淆。Bernini 自研 SA-3D RoPE:

  • 为图片、源视频、参考素材分配独立 Segment 分段索引;
  • 将分段标识融入 3D 旋转位置编码相位,区分不同视觉来源 Token;
  • 支持 R2V 任务一次性输入最多 5 张参考图,完美统一风格、物体特征,解决多参考图冲突失真问题。

两大模型版本技术差异与算力适配

官方开源两套模型体系,覆盖科研、企业、个人轻量化三种算力场景,底层任务接口完全统一:

维度Bernini(完整流水线)Bernini-R(纯渲染模型)
模块组成Qwen2.5-VL 7B 规划器 + 14B DiT 渲染器仅 DiT 渲染器,分 1.3B/14B 权重
核心优势复杂长文本指令、多步骤编辑、强逻辑推理效果最优部署简单、显存占用低、推理速度快
适用任务复杂视频局部修改、多参考图生成、内容植入、长剧情短片风格迁移、去水印/字幕、简单换背景、短视频批量生成
硬件门槛推荐 H100/H800 Hopper 架构 GPU,≥80G 显存1.3B 版本 RTX4090/5090(24G 显存)可单机运行;14B 需 40G+ 显存
基准跑分(EditVerse)8.021.3B:7.74 / 14B:7.99
开源权重地址ByteDance/Bernini-DiffusersBernini-R-Diffusers、Bernini-R-1.3B-Diffusers

环境依赖与完整部署技术流程

硬性环境约束

  • Python 版本固定:3.11.2;
  • CUDA 最低 12.3,推荐 12.4,配套 PyTorch==2.5.1+cu124;
  • 强制依赖:VeOmni v0.1.10(多卡序列并行推理核心库,必须无依赖安装避免 Torch 版本冲突);
  • 可选加速:FlashAttention-2(通用 A100/消费卡)、FlashAttention-3(仅 Hopper H100/H200,大幅降低注意力计算延迟);
  • 配套库固定版本:diffusers0.35.2、transformers4.57.3、accelerate==0.34.2。

一键部署完整代码流程

步骤 1:克隆仓库

1
2
git clone https://github.com/bytedance/Bernini.git bernini
cd bernini

步骤 2:安装基础依赖

1
2
3
pip install -r requirements.txt
# 强制安装 VeOmni,--no-deps 防止覆盖固定 Torch 版本
pip install --no-deps git+https://github.com/ByteDance-Seed/[email protected]

步骤 3(可选):安装 FlashAttention 加速

1
2
3
4
5
6
# 通用 GPU(A100/4090)FlashAttention-2
pip install flash-attn==2.8.3
# H100/H800 Hopper 显卡 FlashAttention-3
git clone https://github.com/Dao-AILab/flash-attention.git
cd flash-attention/hopper
MAX_JOBS=$(nproc) python3 setup.py install --user

步骤 4:权重下载

从 Hugging Face 拉取对应模型权重,存放至 pretrained_models/ 目录:

  • 完整版:ByteDance/Bernini-Diffusers
  • 轻量化:ByteDance/Bernini-R-1.3B-Diffusers

推理核心工作流与代码实操

框架统一采用JSON Case 配置文件管理任务参数,将 Prompt、素材路径、分辨率、帧数、引导参数统一封装,避免冗长命令行;支持单卡/多卡分布式推理、Gradio 可视化演示、提示词增强三大能力。

单 GPU 基础推理命令(V2V 视频编辑示例)

1
2
3
4
5
6
python infer_single_gpu.py \
--config pretrained_models/Bernini-Diffusers \
--case assets/testcases/v2v/edit_weather.json \
--num_frames 72 \
--fps 24 \
--max_image_size 1280

参数说明:

  • --config:本地模型权重目录;
  • --case:JSON 任务配置文件,内置源视频路径、编辑正向/反向提示词、编辑区域约束;
  • --num_frames:生成总帧数,72 帧 = 3 秒 24fps 短片,最大支持 121 帧;
  • --max_image_size:视频长边分辨率,支持 480p~720p 主流短视频尺寸。

多 GPU 分布式推理(8 卡集群批量生成)

1
2
3
4
5
torchrun --nproc-per-node 8 infer_multi_gpu.py \
--high_noise_ckpt pretrained_models/high_noise \
--low_noise_ckpt pretrained_models/low_noise \
--ulysses 8 \
--case assets/testcases/r2v/multi_ref_product.json

基于 VeOmni 实现 Ulysses 序列并行,拆分视频时序 Token 到多卡,大幅降低单卡显存压力,适合企业批量商品视频生成。

提示词增强 PE 模块(提升指令遵循度,推荐开启)

对接任意兼容 OpenAI 接口的 LLM 自动优化 Prompt,补充光影、构图、运动细节,环境变量配置:

1
2
3
4
5
6
# 配置兼容 OpenAI 接口的大模型服务
export BERNINI_PE_API_KEY="sk-xxx"
export BERNINI_PE_BASE_URL="http://xxx:8000/v1"
export BERNINI_PE_MODEL="gpt-4o-mini"
# 推理时添加 --use_pe 参数启用
python infer_single_gpu.py --config xxx --case xxx --use_pe

Gradio 可视化 Web Demo

仓库内置开箱即用交互界面,支持拖拽上传视频/参考图、可视化参数调节,快速验证效果:

1
2
3
4
# 完整 Bernini 版本 WebUI
python gradio_demo.py --config pretrained_models/Bernini-Diffusers --use_pe
# Bernini-R 轻量化版本
python gradio_demo.py --config pretrained_models/Bernini-R-1.3B-Diffusers

界面内置任务分类下拉框(T2V/V2V/RV2V/R2V),自动匹配对应推理参数,无需手动修改 JSON 配置。

七大统一任务技术实现原理

一套架构覆盖全场景视频生成与编辑,所有任务共享 DiT 渲染基座,仅输入素材与 MLLM 规划逻辑区分:

  • T2V 文生视频:仅文本输入,MLLM 从零规划完整场景语义,DiT 直接生成连贯动态短片,用于剧情 Demo、风景素材;
  • V2V 文本驱动视频编辑:输入源视频 + 编辑指令,渲染器锁定源视频 VAE 底层特征,仅重绘指令指定区域,支持去水印、换天气、修改物体;
  • RV2V 参考图引导编辑:上传风格/物体参考图,MLLM 提取参考图语义特征注入源视频,实现全片画风迁移、人物替换;
  • R2V 多参考图生成视频:最多 5 张产品/场景参考图,SA-3D RoPE 统一素材特征,生成商品动态展示短片;
  • Content Insertion 内容植入:将图片/虚拟物体无缝合成至源视频屏幕、橱窗、广告牌,自动适配透视、光影;
  • T2I 文生图:单帧生成,用于封面、海报素材;
  • I2I 图生图:照片风格化、渲染效果图迭代。

性能与评测技术指标

  • 人工盲测性能:自建 Arena 双人对比评测平台,Bernini 完整版 Bradley-Terry 得分超越主流闭源商用视频编辑模型,复杂编辑成对胜率领先;
  • 标准化数据集跑分
    • EditVerse(视频编辑):Bernini 8.02 > Bernini-R 14B 7.99 > Bernini-R 1.3B 7.74
    • OpenVE 时序一致性:完整版 4.03,轻量化 14B 3.78
    • VBench 画质综合得分:全系稳定 84+,画面失真、闪烁缺陷远少于传统单阶段扩散模型;
  • 推理性能:H100 单卡生成 72 帧 720p 视频(3s/24fps),Bernini-R 14B 耗时约 90s,1.3B 轻量化版本提速 40%。

工程化落地与二次开发技术方向

私有化视频 SaaS 平台集成

  • 搭配 LiteLLM AI 网关统一管理提示词增强 LLM 接口,做多模型负载均衡、调用成本统计、虚拟密钥权限管控;
  • 封装推理脚本为 FastAPI 后端,对接前端剪辑工具,提供 AI 编辑插件;
  • 基于 Helm/Terraform 编写 K8s 部署模板,实现弹性扩缩容批量生成任务。

轻量化端侧适配优化

  • Bernini-R 1.3B 权重支持 GGUF 量化(Q4_K_M),8G 显存消费级显卡可运行;
  • 支持模型分片加载、VAE 显存分块缓存、梯度检查点,降低显存占用;
  • 适配 ComfyUI 可视化工作流,提供 i2i/t2v/v2v 预制 JSON 工作流模板。

科研二次创新扩展方向

  • 替换 MLLM 规划器基座(Qwen、Llama、GLM 等),对比多模态模型语义规划能力;
  • 基于 SA-3D RoPE 改造,扩展 3D 数字人视频、长时序 1 分钟以上视频生成;
  • 结合 RLHF 微调 MLLM 规划器,提升垂直行业(电商、影视)指令遵循精度。

总结

Bernini 通过MLLM语义规划 + DiT渲染分层解耦的底层架构,从根源解决传统 AI 视频模型“看不懂指令、画面不稳定、多素材冲突”行业痛点,配合 SA-3D RoPE 分段位置编码创新,实现生成与编辑任务大一统。开源双版本模型兼顾科研高精度需求与个人轻量化使用场景,完整提供可复现推理代码、Gradio 演示、多卡分布式方案,搭配宽松 Apache-2.0 商用许可,是短视频内容生产、AI 视频工具开发、多模态视频算法研究的底层通用框架。

项目资源与网址

https://github.com/bytedance/Bernini

原文链接: https://www.17you.com/tool/bernini-video-generation-framework/ 已复制!
脚本编程和自动化工具

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我


相关内容