跳转到主要内容

字节跳动Bernini为AI视频编辑带来精准控制

AI视频编辑迎来智能升级

令人沮丧且难以预测的AI视频编辑时代可能即将结束。字节跳动技术团队推出的开源框架Bernini从根本上改变了AI生成和编辑视频的方式。不同于直接输出视觉效果,Bernini引入了关键中间步骤:理解。

Image

Bernini工作原理:先规划后创作

传统AI视频工具面对复杂指令时经常出错,导致主体变形、背景漂移或动作不连贯。Bernini通过将流程分为两个智能阶段来解决这些问题:

  1. 语义规划:使用先进的多模态模型分析文本指令、参考视频和图像,生成详细的"语义草图"——即最终视频应呈现内容的蓝图
  2. 视觉渲染:专门的Diffusion Transformer随后将这一规划转化为稳定、高质量的成果

"这种'先理解'的方法解决了我们使用AI视频工具时的诸多痛点",一位熟悉该项目的字节跳动工程师解释道,"就像让AI在拍摄场景前先看故事板。"

AI实现精准编辑

Bernini的突出优势在于其惊人的控制力。用户现在可以进行以往需要专业软件才能实现的精细调整:

  • 更改天气条件或时间而不影响主体
  • 精确调整摄像机角度和焦点
  • 修改角色动作同时保持环境稳定

该系统甚至支持视觉参考,允许将特定产品或元素无缝插入视频,而不会出现常见的边界违例或透视失真。

Bernini的核心技术突破

Bernini在技术上实现了多项创新:

  • SA-3D RoPE编码:通过为每个元素赋予独特标记防止视觉片段混合
  • 多模态理解:可同时处理文本、图像和视频参考
  • 语义保留:在编辑全程保持空间和时间关系

字节跳动已公开推理代码和Bernini-R模型,包含MLLM规划器的完整版本也将很快发布。

关键要点

  • Bernini标志着AI视频编辑从直接生成转向规划式创作
  • 该框架解决了帧闪烁和主体不稳定等常见问题
  • 用户获得对视觉元素和摄像机参数的空前控制力
  • 多类型输入支持带来更一致的创意成果
  • 开源特性可能加速整个AI视频领域的发展