【AIGC】2024-arXiv-Lumiere：视频生成的时空扩散模型

2024-arXiv-Lumiere: A Space-Time Diffusion Model for Video Generation

Lumiere：视频生成的时空扩散模型
- 摘要
- 1. 引言
- 2. 相关工作
- 3. Lumiere
- - 3.1 时空 U-Net (STUnet)
  - 3.2 空间超分辨率的多重扩散
- 4. 应用
- - 4.1 风格化生成
  - 4.2 条件生成
- 5. 评估和比较
- - 5.1 定性评估
  - 5.2 定量评估
- 6. 结论
- 7. 社会影响
- 致谢
- 参考文献

Lumiere：视频生成的时空扩散模型

作者：Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Guanghui Liu, Amit Raj, Yuanzhen Li, Michael Rubinstein, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
单位：Google Research, Weizmann Institute, Tel-Aviv University, Technion
论文地址：https://arxiv.org/abs/2401.12945

图 1

图 1：Lumiere 生成的示例结果，包括文本到视频生成（第一行）、图像到视频（第二行）、风格参考生成和视频修复（第三行；边界框表示修复掩码区域）。

摘要

我们引入了 Lumiere，这是一种文本到视频的扩散模型，旨在合成能够描绘真实、多样且连贯的运动的视频，这是视频合成中的一项关键挑战。为此，我们引入了一种时空 U-Net 架构，该架构通过模型中的一次传递即可一次性生成视频的整个时间持续时间。这与现有的视频模型形成了鲜明对比，现有的视频模型先合成远距离关键帧，然后进行时间超分辨率处理，这种方法本质上很难实现全局时间一致性。通过部署空间和（重要的）时间上下采样并利用预先训练的文本到图像扩散模型，我们的模型学会通过在多个时空尺度上处理视频来直接生成全帧率、低分辨率的视频。我们展示了最先进的文本到视频生成结果，并表明我们的设计可以轻松促进广泛的内容创建任务和视频编辑应用，包括图像到视频、视频修复和风格化生成。

1. 引言

近年来，图像生成模型取得了巨大进步。最先进的文本转图像（T2I）扩散模型现在能够合成符合复杂文本提示的高分辨率照片级逼真图像（Saharia et al., 2022b; Ramesh et al., 2022; Rombach et al., 2022），并允许广泛的图像编辑功能（Po et al., 2023）和其他下游用途。然而，由于运动带来的额外复杂性，训练大规模文本转视频（T2V）基础模型仍然是一个悬而未决的挑战。我们不仅对建模自然运动中的错误很敏感，而且增加的时间数据维度在内存和计算要求以及学习这种更复杂分布所需的训练数据规模方面带来了重大挑战。因此，虽然 T2V 模型正在迅速改进，但现有模型在视频时长、整体视觉质量以及可生成的真实运动程度方面仍然受到限制。

现有 T2V 模型中流行的方法是采用级联设计，其中基础模型生成远距离关键帧，随后的时间超分辨率（TSR）模型在非重叠段中生成关键帧之间的缺失数据。虽然内存效率高，但使用时间级联生成全局相干运动的能力本质上受到以下原因的限制：（i）基础模型生成一组积极子采样的关键帧，其中快速运动在时间上出现混叠，因此变得模糊。（ii）TSR 模块受限于固定的、较小的时间上下文窗口，因此无法在整个视频持续时间内一致地解决混叠模糊性（图 2 中合成周期性运动（例如步行）的情况）。（iii）级联训练方案通常会受到领域差距的影响，其中 TSR 模型在真实的下采样视频帧上进行训练，但在推理时用于插值生成的帧，从而累积误差。

图 2

图 2：**生成的视频中的时间一致性**。使用我们的模型和 ImagenVideo（Ho et al., 2022a）生成的周期性运动视频的代表性示例。我们应用 Lumiere 图像到视频生成，以 ImagenVideo 生成的视频的第一帧为条件，并可视化相应的 X-T 切片。ImagenVideo 难以生成全局一致的重复运动，因为它采用级联设计和时间超分辨率模块，无法在时间窗口内一致地解决混叠模糊问题。

在这里，我们采用了一种不同的方法，引入了一个新的 T2V 扩散框架，该框架可以一次性生成视频的整个时间长度。我们通过使用时空 U-Net（STUNet）架构来实现这一点，该架构学习在空间和时间上对信号进行下采样，并在紧凑的时空表示中执行大部分计算。这种方法使我们能够使用单个基础模型以 16fps 生成 80 帧（或 5 秒，这比大多数媒体的平均镜头持续时间更长（Cutting & Candan, 2015）），与以前的工作相比，可以实现更全局一致的运动。令人惊讶的是，之前的 T2V 模型忽视了这种设计选择，这些模型遵循惯例，在架构中仅包含空间下采样和上采样操作，并在整个网络中保持固定的时间分辨率（Ho et al., 2022b;a; Singer et al., 2022; Ge et al., 2023; Blattmann et al., 2023b; Wang et al., 2023a; Guo et al., 2023; Zhang et al., 2023a; Girdhar et al., 2023; Po et al., 2023）。

为了从 T2I 模型强大的生成先验中受益，我们遵循在预训练（和固定）的 T2I 模型之上构建 Lumiere 的趋势（Hong et al., 2022; Singer et al., 2022; Saharia et al., 2022b）。在我们的案例中，T2I 模型在像素空间中工作，由一个基础模型和一个空间超分辨率（SSR）级联组成。由于 SSR 网络以高空间分辨率运行，因此在内存要求方面，将其应用于整个视频持续时间是不可行的。常见的 SSR 解决方案使用时间窗口方法，将视频分成不重叠的片段并将结果拼接在一起。然而，这可能会导致窗口边界处的外观不一致（Girdhar et al., 2023）。我们建议将 Multidiffusion（Bar-Tal et al., 2023）扩展到时间域，这是一种在全景图像生成中实现全局连续性的方法，我们在时间窗口上计算空间超分辨率，并将结果聚合为整个视频片段的全局连贯解决方案。

我们展示了最先进的视频生成结果，并展示了如何轻松地将 Luimere 应用于大量视频内容创建任务，包括视频修复（图 7）、图像到视频生成（图 5）或生成符合给定风格图像的风格化视频（图 6）。最后，我们证明，一次生成完整视频使我们能够轻松调用现成的编辑方法来执行一致的编辑（图 9）。

2. 相关工作

文本到图像生成。大多数常见的文本到图像（T2I）生成方法都基于扩散模型（Sohl-Dickstein et al., 2015; Ho et al., 2020; Song et al., 2020）。其中，DALL-E2（Ramesh et al., 2022）和 Imagen（Saharia et al., 2022b）使用级联扩散模型实现了逼真的文本到图像生成，而稳定扩散（Rombach et al., 2022）在压缩的低维潜在空间中执行生成。一个有前途的研究方向是设计 T2I 扩散模型，该模型可以端到端生成高分辨率图像，而无需空间超分辨率级联系统或固定的预训练潜在空间（Hoogeboom et al., 2023; Gu et al., 2023; Chen, 2023）。在这里，我们设计了一个 T2V 模型，该模型可以一次生成完整的帧持续时间，从而避免了 T2V 模型中常见的时间级联。

文本到视频生成。最近，人们做出了大量努力，利用自回归 Transformer（例如，（Vil- legas et al., 2023; Wu et al., 2022; Hong et al., 2022; Kon- dratyuk et al., 2023））或扩散模型（例如，（Ho et al., 2022a;b; Gupta et al., 2023））在大规模数据集上训练大规模 T2V 模型。 T2V 生成的一种主要方法是通过在其架构中插入时间层来 “inflate（膨胀）” 预先训练的 T2I 模型，然后仅对这些模型或整个模型进行微调，以适应视频数据（Singer et al., 2022; Blattmann et al., 2023b; Girdhar et al., 2023; Ge et al., 2023; Yuan et al., 2024）。PYoCo（Ge et al., 2023）精心设计了视频噪声先验，并在微调用于视频生成的 T2I 模型方面获得了更好的性能。 VideoLDM（Blattmann et al., 2023b）和 Animate-Diff（Guo et al., 2023）对 StableDiffusion（Rombach et al., 2022）进行了扩充，并仅训练了新添加的时间层，表明它们可以与个性化 T2I 模型的权重相结合。有趣的是，现有扩充方案的普遍惯例是在整个网络中保持固定的时间分辨率，这限制了它们处理全长剪辑的能力。在这项工作中，我们设计了一种新的扩充方案，其中包括学习在空间和时间上对视频进行下采样，并在网络的压缩时空特征空间中执行大部分计算。我们扩展了 Imagen T2I 模型（aharia et al., 2022b），但是我们的架构贡献也可以用于潜在扩散，并且与扩散噪声调度器（Ge et al., 2023）或视频数据管理（Blattmann et al., 2023a）的可能改进正交。

3. Lumiere

我们利用扩散概率模型作为我们的生成方法（Sohl-Dickstein et al., 2015; Croitoru et al., 2023a; Dhariwal & Nichol, 2021; Ho et al., 2020; Nichol & Dhariwal, 2021）。这些模型经过训练，通过一系列去噪步骤近似数据分布（在我们的例子中是视频分布）。从高斯 i.i.d. 噪声样本开始，扩散模型逐渐对其进行去噪，直到达到从近似目标分布中提取的干净样本。扩散模型可以通过合并其他引导信号（例如文本嵌入或空间条件（例如深度图））来学习条件分布（Dhariwal & Nichol, 2021; Saharia et al., 2022a; Croitoru et al., 2023b; Zhang et al., 2023b）。

我们的框架由一个基础模型和一个空间超分辨率（SSR）模型组成。如图 3b 所示，我们的基础模型以粗略的空间分辨率生成完整的片段。我们的基础模型的输出使用时间感知的 SSR 模型进行空间上采样，从而产生高分辨率视频。接下来，我们将描述我们架构中的关键设计选择，并展示我们的框架对各种下游应用的适用性。

图 3

图 3：**Lumiere 管道**。我们说明了我们的管道以及与以前作品中采用的最常见方法的主要区别。（a）常见方法由生成远距离关键帧的基本模型和随后填充帧的时间超分辨率（TSR）模型的级联组成。在非重叠窗口中应用空间超分辨率（SSR）模型以获得高分辨率结果。（b）相比之下，我们框架中的基本模型一次处理所有帧，而无需级联 TSR 模型，从而使我们能够学习全局相干运动。为了获得高分辨率视频，我们在重叠窗口上应用 SSR 模型并利用 MultiDiffusion（Bar-Tal et al., 2023）将预测组合成一个连贯的结果。有关详细信息，请参阅第 3 节。

3.1 时空 U-Net (STUnet)

为了使我们的问题在计算上易于处理，我们建议使用时空 U-Net，它在空间和时间上对输入信号进行下采样，并在这种紧凑的时空表示上执行大部分计算。我们从 Cicek et al. (2016) 中汲取灵感，他们概括了 U-Net 架构（Ronneberger et al., 2015），以包括 3D 池化操作，以有效处理体积生物医学数据。

我们的架构如图 4 所示。我们在 T2I 架构中交错时间块，并在每个预训练的空间调整大小模块后插入时间下采样和上采样模块 (图 4a)。时间块包括时间卷积（图 4b）和时间注意（图 4c）。具体来说，在除最粗略层之外的所有层级中，我们插入了分解的时空卷积（图 4b），与全 3D 卷积相比，这可以增加网络中的非线性，同时降低计算成本，并且与 1D 卷积相比，可以提高表现力（Meng et al., 2022）。由于时间注意力的计算要求与帧数成二次方关系，因此我们仅在最粗略的分辨率下合并时间注意力，其中包含视频的时空压缩表示。在低维特征图上进行操作使我们能够以有限的计算开销堆叠多个时间注意力块。

与（Blattmann et al., 2023b; Guo et al., 2023）类似，我们训练新添加的参数，并保持预训练的 T2I 的权重不变。值得注意的是，常见的膨胀方法确保在初始化时，T2V 模型等同于预训练的 T2I 模型，即将视频生成为独立图像样本的集合。然而，在我们的例子中，由于时间下采样和上采样模块，不可能满足这一特性。我们根据经验发现，初始化这些模块，使它们执行最近邻下采样和上采样操作，可以得到一个良好的起点（参见附录 B）。

图 3

图 4：**STUNet 架构**。我们将预训练的 T2I U-Net 架构（Ho et al., 2022a）“膨胀” 为时空 UNet（STUNet），在空间和时间上对视频进行下采样和上采样。（a）STUNet 激活图的说明；颜色表示由不同时间模块产生的特征：（b）基于卷积的块，由预训练的 T2I 层和后跟分解的时空卷积组成，（c）最粗 U-Net 级别的基于注意力的块，其中预训练的 T2I 层后跟时间注意力。由于视频表示在最粗的级别上被压缩，我们堆叠了几个时间注意力层，计算开销有限。有关详细信息，请参阅第 3.1 节。

3.2 空间超分辨率的多重扩散

由于内存限制，膨胀的 SSR 网络只能在视频的短片段上运行。为了避免时间边界伪影，我们通过沿时间轴采用多重扩散（Bar-Tal et al., 2023）来实现时间段之间的平滑过渡。在每个生成步骤中，我们将嘈杂的输入视频 $\in \mathbb{R}^{H \times W \times T \times 3}$ 分成一组重叠片段 $\left\{J_{i}\right\}_{i=1}^{N}$ ，其中 $J_{i} \in \mathbb{R}^{H \times W \times T^{\prime} \times 3}$ 是第 $i$ 个片段，其时间持续时间为 $T^{\prime}<T$ 。为了协调每个片段的 SSR 预测 $\left\{\Phi\left(J_{i}\right)\right\}_{i=1}^{N}$ ，我们将去噪步骤的结果定义为优化问题的解

公式 1

这个问题的解决方案是通过线性组合重叠窗口上的预测得出的。请参阅附录 C。

4. 应用

由于没有 TSR 级联，因此更容易将 Lu-miere 扩展到下游应用。特别是，我们的模型为需要现成 T2V 模型的下游应用提供了直观的界面（例如，Meng et al. (2022); Poole et al. (2023); Gal et al. (2023)）。我们通过使用 SDEdit（Meng et al., 2022）执行视频到视频编辑来演示此属性（见图 9）。接下来，我们将讨论许多此类应用，包括风格条件生成、图像到视频、修复和去除修复以及电影摄影。我们在图 6-9 中展示了示例帧，并请读者参阅我们网页上的补充材料（SM）以获取完整的视频结果。

图 5

图 5：**视频生成结果**。文本转视频和图像转视频生成的示例结果。每个示例下方均标有文本提示。对于图像转视频，最左边的帧作为条件提供给模型（参见第 4.2 节）。我们请读者参阅 SM 以获取完整视频结果。

4.1 风格化生成

回想一下，我们只训练新添加的时间层，并保持预先训练的 T2I 权重不变。先前的研究表明，用针对特定风格定制的模型替换 T2I 权重可以生成具有所需风格的视频（Guo et al., 2023）。我们观察到这种简单的 “即插即用” 方法通常会导致视频失真或静态（参见 $\rm SM$ ），并假设这是由于时间层的输入分布与微调的空间层存在显着偏差造成的。

受基于 GAN 的插值方法（Pinkney & Adler, 2020）成功的启发，我们选择通过在微调的 T2I 权重 $W_{\rm style}$ 和原始 T2I 权重 $W_{\rm orig}$ 之间进行线性插值来在风格和运动之间取得平衡。具体来说，我们构建插值权重为 $W_{\rm interpolate}=\alpha\cdot W_{\rm style}+\left(1-\alpha\right)\cdot W_{\rm orig}$ 。我们在实验中手动选择插值系数 $\alpha\in[0.5,\ 1]$ ，以生成符合风格并描述合理运动的视频。

图 6 展示了来自（Sohn et al., 2023）的各种风格的样本结果。虽然 “水彩画” 等更逼真的风格会产生逼真的运动，但从矢量艺术风格衍生的其他不太逼真的空间先验会产生相应的独特非逼真的运动。例如，“线描” 风格产生的动画类似于铅笔笔触 “绘制” 所描述的场景，而 “卡通” 风格产生的内容会逐渐 “pops out（弹出）” 并构建场景（有关完整视频，请参阅 SM）。

图 6

图 6：**风格化生成**。给定驾驶风格图像及其对应的一组经过微调的文本到图像权重，我们在模型空间层的微调权重和预训练权重之间执行线性插值。我们展示了（A）矢量艺术风格和（B）现实风格的结果。结果证明了 Lumiere 能够创造性地匹配每种空间风格之前的不同运动（从左到右显示的帧）。有关详细信息，请参阅第 4.1 节。

4.2 条件生成

与 Blattmann et al. (2023b); Wang et al. (2023b) 类似，我们将模型扩展到以其他输入信号 (例如图像或掩码) 为条件的视频生成。我们通过修改模型来实现这一点，除了噪声视频 $J\in \mathbb{R}^{T \times H \times W \times 3}$ 和驾驶文本提示外，还将两个信号作为输入。具体来说，我们添加带掩码的条件视频 $C\in \mathbb{R}^{T \times H \times W \times 3}$ 及其对应的二元掩码 $M\in \mathbb{R}^{T \times H \times W \times 1}$ ，这样模型的整体输入是连接张量 $⟨J,\ C,\ M⟩\in \mathbb{R}^{T \times H \times W \times 7}$ 。我们将第一个卷积层的通道维度从 3 扩展到 7，以适应修改后的输入形状，并微调我们的基础 T2V 模型以根据 $C,\ M$ 对 $J$ 进行去噪。在此微调过程中，我们将 $J$ 视为训练视频的噪声版本，将 $C$ 视为干净视频的掩码版本。这鼓励模型学习将 $C$ 中未掩码的信息复制到输出视频中，同时仅对 masked（掩码）内容进行动画处理，正如所期望的那样。

Image-to-Video。在这种情况下，视频的第一帧作为输入。调节信号 $C$ 包含第一帧，后面是视频其余部分的空白帧。相应的掩码 $M$ 包含第一帧的 1（即未掩蔽的内容）和视频其余部分的 0（即掩蔽的内容）。图 1 和图 5 显示了图像调节生成的样本结果（有关更多结果，请参阅 $\rm SM$ ）。我们的模型生成的视频从所需的第一帧开始，并在整个视频持续时间内表现出复杂的连贯运动。

Inpainting。在这里，调节信号是用户提供的视频 $C$ 和描述视频中要完成的区域的掩码 $M$ 。请注意，修复应用程序可用于对象替换/插入（图 1）以及局部编辑（图 7）。效果是无缝自然地完成掩蔽区域，内容由文本提示引导。我们请读者参阅 $\rm SM$ 以获取更多修复和覆盖修复的示例。

图 7

图 7：**Inpainting**。使用 Lumiere 进行视频修复的示例。对于每个输入视频（每帧的左上角），我们使用我们的模型为视频的掩码区域制作动画。

Cinemagraphs。我们还考虑仅在特定用户提供的区域内对图像内容进行动画处理的应用。调节信号 $C$ 是整个视频中重复的输入图像，而掩码 $M$ 包含整个第一帧的 1（即第一帧未被掩码），对于其他帧，掩码仅包含用户提供区域之外的 1（即其他帧在我们希望制作动画的区域内被掩码）。我们在图 8 和 $\rm SM$ 中提供了示例结果。由于第一帧保持未被掩码，因此鼓励动画内容保持调节图像的外观。

图 8

图 8：**Cinemagraphs**。仅给定一张输入图像和一个蒙版（左），我们的方法就会生成一个视频，其中标记区域是动画，其余部分保持静态（右）。

5. 评估和比较

我们在包含 30M 个视频及其文本标题的数据集上训练我们的 T2V 模型。视频长 80 帧，帧率为 16 fps（5 秒）。基础模型以 128×128 进行训练，SSR 输出 1024×1024 帧。我们在描述不同对象和场景的 109 个文本提示集合上评估我们的模型。提示列表包含先前作品使用的 91 个提示（Singer et al., 2022; Ho et al., 2022a; Blattmann et al., 2023b），其余由我们创建（参见附录 D）。此外，我们在 UCF101 数据集（Soomro et al., 2012）上采用了零样本评估协议，如第 5.2 节所述。

我们在图 1 和图 5 中说明了文本到视频的生成。我们的方法可以生成高质量的视频，既可以描绘复杂的物体运动（例如图 5 中的行走宇航员），也可以描绘连贯的相机运动（例如图 1 中的汽车示例）。我们请读者参阅 $\rm SM$ 以获取完整视频结果。

基线。我们将我们的方法与著名的 T2V 扩散模型进行比较：（i）ImagenVideo（Ho et al., 2022a），它在像素空间中运行，由 7 个模型（一个基础模型、3 个 TSR 模型和 3 个 SSR 模型）的级联组成；（ii）AnimateDiff（Guo et al., 2023），（iii）StableVideoDiffusion（SVD）（Blattmann et al., 2023a），以及（iv）ZeroScope（Wang et al., 2023a），它们膨胀稳定扩散（Rombach et al., 2022）并在视频数据上进行训练；请注意，AnimateDiff 和 ZeroScope 分别仅输出 16 帧和 36 帧。SVD 仅发布了其图像到视频模型，该模型输出 25 帧并且不以文本为条件。此外，我们还与具有可用 API 的（v）Pika（Pika labs, 2023）和（vi）Gen-2（RunwayML, 2023）商业 T2V 模型进行了比较。此外，我们还与第 5.2 节中闭源的其他 T2V 模型进行了定量比较。

图 9

图 9：**通过 SDEdit 实现视频到视频**。我们的基础模型生成全帧速率视频，无需 TSR 级联，因此为下游应用程序提供了直观的界面。我们通过使用我们的模型应用 SDEdit（Meng et al., 2022）来演示此属性，从而实现一致的视频风格化。我们在第一行显示给定输入视频的几帧，并在下方显示相应的编辑帧。

5.1 定性评估

我们在图 11 中对我们的模型和基线进行了定性比较。我们观察到 Gen-2（Run- wayML, 2023）和 Pika（Pika labs, 2023）表现出较高的每帧视觉质量；然而，它们的输出以非常有限的运动量为特征，通常导致近乎静态的视频。ImagenVideo（Ho et al., 2022a）产生了合理的运动量，但整体视觉质量较低。AnimateDiff（Guo et al., 2023）和 ZeroScope（Wang et al., 2023a）表现出明显的运动，但也容易出现视觉伪影。此外，它们生成的视频持续时间较短，具体分别为 2 秒和 3.6 秒。相比之下，我们的方法生成的 5 秒视频具有更高的运动幅度，同时保持了时间一致性和整体质量。

5.2 定量评估

UCF101 上的零样本评估。遵循 Blattmann et al. (2023a) 和 Ge et al. (2023) 的评估协议，我们定量评估了我们在 UCF101 上进行零样本文本到视频生成的方法（Soomro et al., 2012）。表 1 报告了我们的方法和先前工作的 Fre ́chet 视频距离（FVD）（Un- terthiner et al., 2018）和初始分数（IS）（Salimans et al., 2016）。我们获得了具有竞争力的 FVD 和 IS 分数。但是，如先前研究中所讨论的（例如 Girdhar et al. (2023); Ho et al. (2022a); Chong & Forsyth (2020)），这些指标并不能忠实地反映人类的感知，并且可能会受到低级细节（Parmar et al., 2022）以及参考 UCF101 数据和 T2V 训练数据（Girdhar et al., 2023）之间的分布变化的显著影响。此外，该协议仅使用生成的视频中的 16 帧，因此无法捕捉长期运动。

表 1

表 1：UCF101 上的零样本文本到视频生成比较（Soomro et al., 2012）。我们的方法实现了具有竞争力的 FVD（Unterthiner et al., 2018）和 IS（Salimans et al., 2016）分数。请参阅第 5.2 节。

用户研究。我们采用了两种选择强制选择（2AFC）协议，就像以前的研究中使用的一样（Kolkin et al., 2019; Zhang et al., 2018; Blattmann et al., 2023a; Rombach et al., 2022）。在这个协议中，向参与者展示一对随机选择的视频：一个由我们的模型生成，另一个由其中一种基线方法生成。然后要求参与者选择他们认为在视觉质量和运动方面更好的视频。此外，还要求他们选择与目标文本提示更准确匹配的视频。我们利用 Amazon Mechanical Turk（AMT）平台为每个基线和问题收集了 ∼400 个用户判断。如图 10 所示，与所有基线相比，我们的方法更受用户的青睐，并且与文本提示的一致性更好。请注意，ZeroScope 和 AnimateDiff 分别仅生成 3.6 秒和 2 秒的视频，因此我们在与它们进行比较时剪辑我们的视频以匹配它们的持续时间。

图 10

图 10：**用户研究**。我们将我们的方法与每个基线进行比较。对于每个基线，我们报告了赞成我们的用户投票百分比（蓝色）和赞成基线的用户投票百分比（橙色）。我们的方法在文本转视频和图像转视频生成中都受到用户的青睐。参见第 5.2 节。

我们进一步进行了一项用户研究，将我们的图像到视频模型（见第 4.2 节）与 Pika（Pika labs, 2023）、StableVideoDiffusion（SVD）（Blattmann et al., 2023a）和 Gen2（RunwayML, 2023）进行比较。请注意，SVD 图像到视频模型不以文本为条件，因此我们将调查重点放在视频质量上。如图 10 所示，与基线相比，我们的方法更受用户青睐。有关完整评估协议的详细描述，请参阅附录 D。

6. 结论

我们提出了一种新的文本到视频生成框架，利用预先训练的文本到图像扩散模型。我们发现，在学习全局相干运动方面，流行的方法是首先生成远距离关键帧，然后使用时间超分辨率模型的级联对其进行插值，这种方法存在固有的局限性。为了应对这一挑战，我们引入了一种时空 U-Net 架构设计，通过结合空间和时间的下采样和上采样模块，直接生成全帧速率视频剪辑。我们展示了最先进的生成结果，并展示了我们的方法适用于广泛的应用，包括图像到视频、视频修复和风格化生成。

至于局限性，我们的方法并非旨在生成由多个镜头组成或涉及场景间转换的视频。生成此类内容仍然是未来研究的挑战。此外，我们在像素空间中运行的 T2I 模型之上建立了模型，因此涉及空间超分辨率模块来生成高分辨率图像。尽管如此，我们的设计原则适用于潜在视频扩散模型（Rombach et al., 2022），并且可以引发对文本到视频模型设计的进一步研究。

7. 社会影响

我们这项工作的主要目标是让新手用户能够以创造性和灵活的方式生成视觉内容。然而，使用我们的技术存在滥用创建虚假或有害内容的风险，我们认为开发和应用用于检测偏见和恶意用例的工具至关重要，以确保安全和公平使用。

致谢

我们要感谢 Ronny Votel、Orly Liba、Hamid Mohammadi、April Lehman、Bryan Seybold、David Ross、Dan Goldman、Hartwig Adam、Xuhui Jia、Xiuye Gu、Mehek Sharma、Rachel Hornung、Oran Lang、Jess Gallegos、William T. Freeman 和 David Salesin 的合作、有益的讨论、反馈和支持。我们感谢实验中使用的图像和视频的所有者分享他们的宝贵资产（可在我们网页上找到归属信息）。

参考文献

Bar-Tal, O., Yariv, L., Lipman, Y., and Dekel, T. Multi- Diffusion: Fusing diffusion paths for controlled image generation. In ICML, 2023.
Blattmann, A., Dockhorn, T., Kulal, S., Mendelevitch, D., Kilian, M., Lorenz, D., Levi, Y., English, Z., Voleti, V., Letts, A., et al. Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127, 2023a.
Blattmann, A., Rombach, R., Ling, H., Dockhorn, T., Kim, S. W., Fidler, S., and Kreis, K. Align your latents: High- resolution video synthesis with latent diffusion models. In CVPR, 2023b.
Carreira, J. and Zisserman, A. Quo vadis, action recogni- tion? A new model and the kinetics dataset. In CVPR, pp. 6299–6308, 2017.
Chen, T. On the importance of noise scheduling for diffusion models. arXiv preprint arXiv:2301.10972, 2023.
Chong, M. J. and Forsyth, D. Effectively unbiased FID and Inception Score and where to find them. In CVPR, pp. 6070–6079, 2020.
Cicek,O ̈.,Abdulkadir,A.,Lienkamp,S.S.,Brox,T.,and Ronneberger, O. 3d u-net: learning dense volumetric segmentation from sparse annotation. In MICCAI, pp. 424–432. Springer, 2016.
Croitoru, F.-A., Hondru, V., Ionescu, R. T., and Shah, M. Diffusion models in vision: A survey. IEEE T. Pattern Anal. Mach. Intell., 2023a.
Croitoru, F.-A., Hondru, V., Ionescu, R. T., and Shah, M. Diffusion models in vision: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023b.
Cutting, J. E. and Candan, A. Shot durations, shot classes, and the increased pace of popular movies, 2015.
Dhariwal, P. and Nichol, A. Diffusion models beat gans on image synthesis. NeurIPS, 2021.
Gal, R., Vinker, Y., Alaluf, Y., Bermano, A. H., Cohen- Or, D., Shamir, A., and Chechik, G. Breathing life into sketches using text-to-video priors. arXiv preprint arXiv:2311.13608, 2023.
Ge, S., Nah, S., Liu, G., Poon, T., Tao, A., Catanzaro, B., Jacobs, D., Huang, J.-B., Liu, M.-Y., and Balaji, Y. Preserve your own correlation: A noise prior for video diffusion models. In ICCV, pp. 22930–22941, 2023.
Girdhar, R., Singh, M., Brown, A., Duval, Q., Azadi, S., Rambhatla, S. S., Shah, A., Yin, X., Parikh, D., and Misra, I. Emu Video: Factorizing text-to-video gen- eration by explicit image conditioning. arXiv preprint arXiv:2311.10709, 2023.
Gu, J., Zhai, S., Zhang, Y., Susskind, J., and Jaitly, N. Matryoshka diffusion models. arXiv:2310.15111, 2023. arXiv preprint
Guo, Y., Yang, C., Rao, A., Wang, Y., Qiao, Y., Lin, D., and Dai, B. AnimateDiff: Animate your personalized text-to-image diffusion models without specific tuning. arXiv preprint arXiv:2307.04725, 2023.
Gupta, A., Yu, L., Sohn, K., Gu, X., Hahn, M., Fei-Fei, L., Essa, I., Jiang, L., and Lezama, J. Photorealistic video generation with diffusion models. arXiv preprint arXiv:2312.06662, 2023.
He, K., Zhang, X., Ren, S., and Sun, J. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE inter- national conference on computer vision, pp. 1026–1034, 2015.
Ho, J., Jain, A., and Abbeel, P. Denoising diffusion proba- bilistic models. NeurIPS, 33:6840–6851, 2020.
Ho, J., Chan, W., Saharia, C., Whang, J., Gao, R., Gritsenko, A., Kingma, D. P., Poole, B., Norouzi, M., Fleet, D. J., et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303, 2022a.
Ho, J., Salimans, T., Gritsenko, A., Chan, W., Norouzi, M., and Fleet, D. J. Video diffusion models, 2022b.
Hong, W., Ding, M., Zheng, W., Liu, X., and Tang, J. CogVideo: Large-scale pretraining for text-to- video generation via transformers. arXiv preprint arXiv:2205.15868, 2022.
Hoogeboom, E., Heek, J., and Salimans, T. Simple diffusion: End-to-end diffusion for high resolution images. In ICML, 2023.
Kolkin, N., Salavon, J., and Shakhnarovich, G. Style transfer by relaxed optimal transport and self-similarity. In CVPR, pp. 10051–10060, 2019.
Kondratyuk, D., Yu, L., Gu, X., Lezama, J., Huang, J., Hornung, R., Adam, H., Akbari, H., Alon, Y., Birodkar, V., et al. VideoPoet: A large language model for zero- shot video generation. arXiv preprint arXiv:2312.14125, 2023.
Meng, C., He, Y., Song, Y., Song, J., Wu, J., Zhu, J.-Y., and Ermon, S. SDEdit: Guided image synthesis and editing with stochastic differential equations. In ICLR, 2022.
Nichol, A. Q. and Dhariwal, P. Improved denoising diffusion probabilistic models. In ICML, pp. 8162–8171, 2021.
Parmar, G., Zhang, R., and Zhu, J.-Y. On aliased resizing and surprising subtleties in gan evaluation. In CVPR, 2022.
Pika labs. https://www.pika.art/, 2023.
Pinkney, J. N. and Adler, D. Resolution dependent GAN interpolation for controllable image synthesis between domains. In Machine Learning for Creativity and Design NeurIPS 2020 Workshop, 2020.
Po, R., Yifan, W., Golyanik, V., Aberman, K., Barron, J. T., Bermano, A. H., Chan, E. R., Dekel, T., Holynski, A., Kanazawa, A., et al. State of the art on diffusion models for visual computing. arXiv preprint arXiv:2310.07204, 2023.
Poole, B., Jain, A., Barron, J. T., and Mildenhall, B. Dream- Fusion: Text-to-3D using 2D diffusion. In ICLR, 2023.
Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., and Chen, M. Hierarchical text-conditional image generation with CLIP latents. arXiv preprint arXiv:2204.06125, 2022.
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. High-resolution image synthesis with latent diffusion models. In CVPR, pp. 10684–10695, 2022.
Ronneberger, O., Fischer, P., and Brox, T. U-Net: Convolu- tional networks for biomedical image segmentation. In MICCAI, pp. 234–241. Springer, 2015.
RunwayML. Gen-2. https://research.runwayml.com/gen2, 2023.
Saharia, C., Chan, W., Chang, H., Lee, C., Ho, J., Salimans, T., Fleet, D., and Norouzi, M. Palette: Image-to-image diffusion models. In ACM SIGGRAPH 2022 Conference Proceedings, pp. 1–10, 2022a.
Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E. L., Ghasemipour, K., Gontijo Lopes, R., Karagol Ayan, B., Salimans, T., et al. Photorealistic text-to-image diffu- sion models with deep language understanding. NeurIPS, 35:36479–36494, 2022b.
Saito, M., Saito, S., Koyama, M., and Kobayashi, S. Train sparsely, generate densely: Memory-efficient unsuper- vised training of high-resolution temporal GAN. Int. J. Comput. Vision, 128(10-11):2586–2606, 2020.
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., and Chen, X. Improved techniques for training GANs. NIPS, 29, 2016.
Singer, U., Polyak, A., Hayes, T., Yin, X., An, J., Zhang, S., Hu, Q., Yang, H., Ashual, O., Gafni, O., et al. Make-a- Video: Text-to-video generation without text-video data. arXiv preprint arXiv:2209.14792, 2022.
Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., and Ganguli, S. Deep unsupervised learning using nonequilib- rium thermodynamics. In ICML, pp. 2256–2265, 2015.
Sohn, K., Ruiz, N., Lee, K., Chin, D. C., Blok, I., Chang, H., Barber, J., Jiang, L., Entis, G., Li, Y., et al. StyleDrop: Text-to-image generation in any style. arXiv preprint arXiv:2306.00983, 2023.
Song, Y., Sohl-Dickstein, J., Kingma, D. P., Kumar, A., Er- mon, S., and Poole, B. Score-based generative modeling through stochastic differential equations. arXiv preprint arXiv:2011.13456, 2020.
Soomro, K., Zamir, A. R., and Shah, M. UCF101: A dataset of 101 human actions classes from videos in the wild. arXiv preprint arXiv:1212.0402, 2012.
Tran, D., Wang, H., Torresani, L., Ray, J., LeCun, Y., and Paluri, M. A closer look at spatiotemporal convolutions for action recognition. In CVPR, pp. 6450–6459, 2018.
Unterthiner, T., Van Steenkiste, S., Kurach, K., Marinier, R., Michalski, M., and Gelly, S. Towards accurate generative models of video: A new metric & challenges. arXiv preprint arXiv:1812.01717, 2018.
Villegas, R., Babaeizadeh, M., Kindermans, P.-J., Moraldo, H., Zhang, H., Saffar, M. T., Castro, S., Kunze, J., and Erhan, D. Phenaki: Variable length video generation from open domain textual description. In ICLR, 2023.
Wang, J., Yuan, H., Chen, D., Zhang, Y., Wang, X., and Zhang, S. Modelscope text-to-video technical report. arXiv preprint arXiv:2308.06571, 2023a.
Wang, X., Yuan, H., Zhang, S., Chen, D., Wang, J., Zhang, Y., Shen, Y., Zhao, D., and Zhou, J. Videocomposer: Compositional video synthesis with motion controllabil- ity. arXiv preprint arXiv:2306.02018, 2023b.
Wu, C., Liang, J., Ji, L., Yang, F., Fang, Y., Jiang, D., and Duan, N. Nu ̈wa: Visual synthesis pre-training for neural visual world creation. In ECCV, pp. 720–736. Springer, 2022.
Yuan, X., Baek, J., Xu, K., Tov, O., and Fei, H. Inflation with diffusion: Efficient temporal adaptation for text-to- video super-resolution, 2024.
Zhang, D. J., Wu, J. Z., Liu, J.-W., Zhao, R., Ran, L., Gu, Y., Gao, D., and Shou, M. Z. Show-1: Marrying pixel and latent diffusion models for text-to-video generation. arXiv preprint arXiv:2309.15818, 2023a.
Zhang, L., Rao, A., and Agrawala, M. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 3836–3847, 2023b.
Zhang, R., Isola, P., Efros, A. A., Shechtman, E., and Wang, O. The unreasonable effectiveness of deep features as a perceptual metric. In CVPR, pp. 586–595, 2018.
Zhou, D., Wang, W., Yan, H., Lv, W., Zhu, Y., and Feng, J. MagicVideo: Efficient video generation with latent diffu- sion models. arXiv preprint arXiv:2211.11018, 2022.