Bernini 开源：MLLM 视频语义规划 + DiT 渲染架构解析

2026-06-17 2026-06-18 约 3800 字预计阅读 8 分钟 0 条评论 0 次阅读

在 AI 视频生成领域，你是否也遇到过这些痛点：指令理解不到位、画面抖动、多素材融合混乱、编辑逻辑失真？传统模型“一条道走到黑”的生成方式已经难以满足日益复杂的创作需求。而字节跳动于 2026 年开源的 Bernini，带来了全新的解决方案——MLLM语义规划 + DiT渲染的解耦架构，真正实现了“看得懂指令、稳得住画面、控得住编辑”的统一视频生成与编辑能力。无论你是科研人员、企业开发者，还是内容创作者，Bernini 都能为你提供灵活、高效、可扩展的 AI 视频工具链。

核心技术架构：双模块解耦分层设计

传统文生视频模型采用“文本直接映射像素”单阶段流程，缺少高层逻辑推理，面对多条件、局部编辑、多参考图输入极易出现物体漂移、动作崩坏、指令不遵循问题。Bernini 创新性拆分语义规划器与DiT渲染器，各司其职、低耦合协同，两大模块通过 ViT 嵌入空间标准化语义接口通信，可独立预训练、仅轻度联合微调，最大程度保留各自基座模型原生能力。

MLLM 语义规划器（Planner）

基座采用 Qwen2.5-VL-7B 多模态大模型，定位为 AI 视频的“导演”，负责全链路语义推理：

多模态输入解析：统一解析文本 Prompt、源视频帧、多张参考图、编辑约束指令，拆解物体位置、光影、运动逻辑、人物交互、空间透视等约束条件；
隐空间语义草图生成：不输出像素，仅在 ViT 视觉嵌入空间预测目标视频的高层语义 Token，少量语义向量即可完整定义整场画面构图与动态逻辑；
思维链 CoT 推理：针对复杂编辑指令（如“把桌上玻璃杯替换成麦克风，手部动作不变、窗外改为雨夜”）分步拆解约束，规避局部修改破坏原有画面时序一致性；
掩码生成解码：轻量化 ViT 解码器补全被掩码遮挡的目标语义 Token，输出标准化语义特征向量，作为渲染器的核心条件输入。

DiT 视频渲染器（Renderer）

基于 Wan2.2-T2V-A14B 扩散 Transformer 二次微调，定位为“后期渲染师”，接收规划器语义向量 + 源视频 VAE 细节特征，完成像素级视频生成：

双条件融合机制
- 高层条件：MLLM 输出 ViT 语义特征，控制画面整体内容、物体种类、运动逻辑；
- 底层约束：编辑场景注入源视频 VAE 潜变量，锁定不需要修改的背景、人物轮廓、原有动作，仅局部重绘；
流匹配去噪采样：在 VAE 潜空间完成时序去噪，保障 24fps 视频帧间人物、物体无漂移、无闪烁；
双专家 UNet 架构：高噪声专家负责画面整体构图，低噪声专家优化细节纹理、光影，分层提升生成画质，1.3B 轻量化版本保留双专家结构适配消费级显卡。

核心创新技术：SA-3D RoPE 段感知 3D 位置编码

框架原生支持多参考图、源视频、目标输出混合输入序列，不同素材 Token 共享时空坐标易产生特征混淆。Bernini 自研 SA-3D RoPE：

为图片、源视频、参考素材分配独立 Segment 分段索引；
将分段标识融入 3D 旋转位置编码相位，区分不同视觉来源 Token；
支持 R2V 任务一次性输入最多 5 张参考图，完美统一风格、物体特征，解决多参考图冲突失真问题。

两大模型版本技术差异与算力适配

官方开源两套模型体系，覆盖科研、企业、个人轻量化三种算力场景，底层任务接口完全统一：

维度	Bernini（完整流水线）	Bernini-R（纯渲染模型）
模块组成	Qwen2.5-VL 7B 规划器 + 14B DiT 渲染器	仅 DiT 渲染器，分 1.3B/14B 权重
核心优势	复杂长文本指令、多步骤编辑、强逻辑推理效果最优	部署简单、显存占用低、推理速度快
适用任务	复杂视频局部修改、多参考图生成、内容植入、长剧情短片	风格迁移、去水印/字幕、简单换背景、短视频批量生成
硬件门槛	推荐 H100/H800 Hopper 架构 GPU，≥80G 显存	1.3B 版本 RTX4090/5090（24G 显存）可单机运行；14B 需 40G+ 显存
基准跑分（EditVerse）	8.02	1.3B：7.74 / 14B：7.99
开源权重地址	ByteDance/Bernini-Diffusers	Bernini-R-Diffusers、Bernini-R-1.3B-Diffusers

环境依赖与完整部署技术流程

硬性环境约束

Python 版本固定：3.11.2；
CUDA 最低 12.3，推荐 12.4，配套 PyTorch==2.5.1+cu124；
强制依赖：VeOmni v0.1.10（多卡序列并行推理核心库，必须无依赖安装避免 Torch 版本冲突）；
可选加速：FlashAttention-2（通用 A100/消费卡）、FlashAttention-3（仅 Hopper H100/H200，大幅降低注意力计算延迟）；
配套库固定版本：diffusers0.35.2、transformers4.57.3、accelerate==0.34.2。

一键部署完整代码流程

步骤 1：克隆仓库

1
2
git clone https://github.com/bytedance/Bernini.git bernini
cd bernini

步骤 2：安装基础依赖

1
2
3
pip install -r requirements.txt
# 强制安装 VeOmni，--no-deps 防止覆盖固定 Torch 版本
pip install --no-deps git+https://github.com/ByteDance-Seed/[email protected]

步骤 3（可选）：安装 FlashAttention 加速

1
2
3
4
5
6
# 通用 GPU（A100/4090）FlashAttention-2
pip install flash-attn==2.8.3
# H100/H800 Hopper 显卡 FlashAttention-3
git clone https://github.com/Dao-AILab/flash-attention.git
cd flash-attention/hopper
MAX_JOBS=$(nproc) python3 setup.py install --user

步骤 4：权重下载

从 Hugging Face 拉取对应模型权重，存放至 pretrained_models/ 目录：

完整版：ByteDance/Bernini-Diffusers
轻量化：ByteDance/Bernini-R-1.3B-Diffusers

推理核心工作流与代码实操

框架统一采用JSON Case 配置文件管理任务参数，将 Prompt、素材路径、分辨率、帧数、引导参数统一封装，避免冗长命令行；支持单卡/多卡分布式推理、Gradio 可视化演示、提示词增强三大能力。

单 GPU 基础推理命令（V2V 视频编辑示例）

1
2
3
4
5
6
python infer_single_gpu.py \
--config pretrained_models/Bernini-Diffusers \
--case assets/testcases/v2v/edit_weather.json \
--num_frames 72 \
--fps 24 \
--max_image_size 1280

参数说明：

--config：本地模型权重目录；
--case：JSON 任务配置文件，内置源视频路径、编辑正向/反向提示词、编辑区域约束；
--num_frames：生成总帧数，72 帧 = 3 秒 24fps 短片，最大支持 121 帧；
--max_image_size：视频长边分辨率，支持 480p~720p 主流短视频尺寸。

多 GPU 分布式推理（8 卡集群批量生成）

1
2
3
4
5
torchrun --nproc-per-node 8 infer_multi_gpu.py \
--high_noise_ckpt pretrained_models/high_noise \
--low_noise_ckpt pretrained_models/low_noise \
--ulysses 8 \
--case assets/testcases/r2v/multi_ref_product.json

基于 VeOmni 实现 Ulysses 序列并行，拆分视频时序 Token 到多卡，大幅降低单卡显存压力，适合企业批量商品视频生成。

提示词增强 PE 模块（提升指令遵循度，推荐开启）

对接任意兼容 OpenAI 接口的 LLM 自动优化 Prompt，补充光影、构图、运动细节，环境变量配置：

1
2
3
4
5
6
# 配置兼容 OpenAI 接口的大模型服务
export BERNINI_PE_API_KEY="sk-xxx"
export BERNINI_PE_BASE_URL="http://xxx:8000/v1"
export BERNINI_PE_MODEL="gpt-4o-mini"
# 推理时添加 --use_pe 参数启用
python infer_single_gpu.py --config xxx --case xxx --use_pe

Gradio 可视化 Web Demo

仓库内置开箱即用交互界面，支持拖拽上传视频/参考图、可视化参数调节，快速验证效果：

1
2
3
4
# 完整 Bernini 版本 WebUI
python gradio_demo.py --config pretrained_models/Bernini-Diffusers --use_pe
# Bernini-R 轻量化版本
python gradio_demo.py --config pretrained_models/Bernini-R-1.3B-Diffusers

界面内置任务分类下拉框（T2V/V2V/RV2V/R2V），自动匹配对应推理参数，无需手动修改 JSON 配置。

七大统一任务技术实现原理

一套架构覆盖全场景视频生成与编辑，所有任务共享 DiT 渲染基座，仅输入素材与 MLLM 规划逻辑区分：

T2V 文生视频：仅文本输入，MLLM 从零规划完整场景语义，DiT 直接生成连贯动态短片，用于剧情 Demo、风景素材；
V2V 文本驱动视频编辑：输入源视频 + 编辑指令，渲染器锁定源视频 VAE 底层特征，仅重绘指令指定区域，支持去水印、换天气、修改物体；
RV2V 参考图引导编辑：上传风格/物体参考图，MLLM 提取参考图语义特征注入源视频，实现全片画风迁移、人物替换；
R2V 多参考图生成视频：最多 5 张产品/场景参考图，SA-3D RoPE 统一素材特征，生成商品动态展示短片；
Content Insertion 内容植入：将图片/虚拟物体无缝合成至源视频屏幕、橱窗、广告牌，自动适配透视、光影；
T2I 文生图：单帧生成，用于封面、海报素材；
I2I 图生图：照片风格化、渲染效果图迭代。

性能与评测技术指标

人工盲测性能：自建 Arena 双人对比评测平台，Bernini 完整版 Bradley-Terry 得分超越主流闭源商用视频编辑模型，复杂编辑成对胜率领先；
标准化数据集跑分
- EditVerse（视频编辑）：Bernini 8.02 > Bernini-R 14B 7.99 > Bernini-R 1.3B 7.74
- OpenVE 时序一致性：完整版 4.03，轻量化 14B 3.78
- VBench 画质综合得分：全系稳定 84+，画面失真、闪烁缺陷远少于传统单阶段扩散模型；
推理性能：H100 单卡生成 72 帧 720p 视频（3s/24fps），Bernini-R 14B 耗时约 90s，1.3B 轻量化版本提速 40%。

工程化落地与二次开发技术方向

私有化视频 SaaS 平台集成

搭配 LiteLLM AI 网关统一管理提示词增强 LLM 接口，做多模型负载均衡、调用成本统计、虚拟密钥权限管控；
封装推理脚本为 FastAPI 后端，对接前端剪辑工具，提供 AI 编辑插件；
基于 Helm/Terraform 编写 K8s 部署模板，实现弹性扩缩容批量生成任务。

轻量化端侧适配优化

Bernini-R 1.3B 权重支持 GGUF 量化（Q4_K_M），8G 显存消费级显卡可运行；
支持模型分片加载、VAE 显存分块缓存、梯度检查点，降低显存占用；
适配 ComfyUI 可视化工作流，提供 i2i/t2v/v2v 预制 JSON 工作流模板。

科研二次创新扩展方向

替换 MLLM 规划器基座（Qwen、Llama、GLM 等），对比多模态模型语义规划能力；
基于 SA-3D RoPE 改造，扩展 3D 数字人视频、长时序 1 分钟以上视频生成；
结合 RLHF 微调 MLLM 规划器，提升垂直行业（电商、影视）指令遵循精度。

总结

Bernini 通过MLLM语义规划 + DiT渲染分层解耦的底层架构，从根源解决传统 AI 视频模型“看不懂指令、画面不稳定、多素材冲突”行业痛点，配合 SA-3D RoPE 分段位置编码创新，实现生成与编辑任务大一统。开源双版本模型兼顾科研高精度需求与个人轻量化使用场景，完整提供可复现推理代码、Gradio 演示、多卡分布式方案，搭配宽松 Apache-2.0 商用许可，是短视频内容生产、AI 视频工具开发、多模态视频算法研究的底层通用框架。

项目资源与网址

https://github.com/bytedance/Bernini

原文链接： https://www.17you.com/tool/bernini-video-generation-framework/ 已复制！

脚本编程和自动化工具

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我

Bernini 开源：MLLM 视频语义规划 + DiT 渲染架构解析

核心技术架构：双模块解耦分层设计

MLLM 语义规划器（Planner）

DiT 视频渲染器（Renderer）

核心创新技术：SA-3D RoPE 段感知 3D 位置编码

两大模型版本技术差异与算力适配

环境依赖与完整部署技术流程

硬性环境约束

一键部署完整代码流程

步骤 1：克隆仓库

步骤 2：安装基础依赖

步骤 3（可选）：安装 FlashAttention 加速

步骤 4：权重下载

推理核心工作流与代码实操

单 GPU 基础推理命令（V2V 视频编辑示例）

多 GPU 分布式推理（8 卡集群批量生成）

提示词增强 PE 模块（提升指令遵循度，推荐开启）

Gradio 可视化 Web Demo

七大统一任务技术实现原理

性能与评测技术指标

工程化落地与二次开发技术方向

私有化视频 SaaS 平台集成

轻量化端侧适配优化

科研二次创新扩展方向

总结

项目资源与网址

相关内容