【LLM多模态】Animatediff文生视频大模型

note

AnimateDiff框架：核心是一个可插拔的运动模块，它可以从真实世界视频中学习通用的运动先验，并与任何基于相同基础T2I的个性化模型集成，以生成动画。
训练策略：AnimateDiff的训练包括三个阶段：
- 领域适配器：微调以适应目标视频数据集的视觉分布。
- 运动模块：在视频上训练以学习运动先验，同时保持基础T2I权重固定。
- MotionLoRA：一种轻量级微调技术，用于适应新的运动模式，如不同的镜头类型。

文章目录

note
一、AnimateDiff模型
- 1. 相关背景
- 2. 模型结构
- - （1）第一阶段：训练domain adapter
  - （2）第二阶段：训练运动模块 motion module
  - （3）第三阶段：训练MotionLoRA
- 3. 相关实验
- 4. 评测效果
- 5. 可以进一步探索的点
- 6. 总结
- 7. 运镜介绍
Reference

十大问题：

论文试图解决什么问题
这是否是一个新的问题
这篇文章要验证一个什么科学假设
有哪些相关研究？如何归类？谁是这一课题在领域内值得关注的研究员？
论文中提到的解决方案之关键是什么？
论文中的实验是如何设计的？
用于定量评估的数据集是什么？代码有没有开源？
论文中的实验及结果有没有很好地支持需要验证的科学假设？
这篇论文到底有什么贡献？
下一步呢？有什么工作可以持续深入？

一、AnimateDiff模型

论文：AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
ICLR 2024 paper

1. 相关背景

Q: 有哪些相关研究？
以往的相关研究：

文本到图像扩散模型（Text-to-image diffusion models）：

GLIDE (Nichol et al., 2021)：引入了文本条件并展示了分类器引导可以产生更令人满意的结果。
DALL-E2 (Ramesh et al., 2022)：通过利用CLIP联合特征空间来改善文本-图像对齐。
Imagen (Saharia et al., 2022)：结合了大型语言模型和级联架构以实现逼真的结果。
Stable Diffusion (Rombach et al., 2022)：将扩散过程移动到自编码器的潜在空间以提高效率。
eDiff-I (Balaji et al., 2022)：为不同生成阶段专门化了一个扩散模型集合。

个性化T2I模型（Personalizing T2I models）：

DreamBooth (Ruiz et al., 2023)：通过保留损失微调整个网络，并仅使用少量图像。
Textual Inversion (Gal et al., 2022)：为每个新概念优化一个标记嵌入。
Low-Rank Adaptation (LoRA) (Hu et al., 2021)：通过在基础T2I中引入额外的LoRA层并仅优化权重残差来加速微调过程。
编码器方法 (Gal et al., 2023; Jia et al., 2023)：解决个性化问题的方法。

动画化个性化T2I（Animating personalized T2Is）：

Text2Cinemagraph (Mahapatra et al., 2023)：提出了通过流预测生成电影摄影的方法。
Tune-a-Video (Wu et al., 2023)：在单个视频上微调少量参数。
Text2Video-Zero (Khachatryan et al., 2023)：介绍了一种无需训练即可通过基于预定义仿射矩阵的潜在包装来动画化预训练T2I的方法。

视频生成（Video generation）：

Esser et al. (2023)、Zhou et al. (2022a)、Singer et al. (2022) 等：这些工作通常更新所有参数并修改原始T2I的特征空间，使其与个性化模型不兼容。
Align-Your-Latents (Blattmann et al., 2023)：展示了在一般视频生成器中冻结的图像层可以个性化。
这些研究为AnimateDiff提供了技术背景和方法论基础，尤其是在文本到图像生成、模型个性化以及视频生成方面。AnimateDiff在这些研究的基础上，提出了一种新的方法来生成动画，同时保持个性化T2I模型的视觉质量和领域知识。

Q: 这篇论文试图解决什么问题？
论文试图解决的问题是如何将现有的个性化文本到图像（T2I）扩散模型（如Stable Diffusion）转换为能够生成动画的模型，而无需对每个模型进行特定的调整或微调。论文提出了AnimateDiff框架，它通过一个预训练的运动模块，使得个性化的T2I模型能够生成具有动态效果的动画，同时保持原有的视觉质量和领域知识。这个框架的核心是一个即插即用的模块，它可以从真实世界的视频中学到可转移的运动先验知识，并将其应用于任何源自相同基础T2I的个性化T2I模型中。此外，论文还提出了MotionLoRA技术，这是一种轻量级的微调技术，允许预训练的运动模块适应新的运动模式，如不同的镜头类型，以较低的训练和数据收集成本。

2. 模型结构

A: 论文通过以下步骤解决了将个性化文本到图像（T2I）模型转换为动画生成器的问题：

设计AnimateDiff框架：

提出了一个即插即用的运动模块，它可以从真实世界的视频数据中学习运动先验知识。
该运动模块可以与任何源自相同基础T2I的个性化T2I模型无缝集成，形成个性化的动画生成器。

训练策略：

通过提出的训练策略，运动模块有效地从真实世界视频中学习到转移的运动先验。
训练过程分为三个阶段

（1）第一阶段：训练domain adapter

在这里插入图片描述
（1）第一阶段，训练domain adapter：微调一个领域适配器以适应目标视频数据集的视觉分布，确保运动模块专注于学习运动先验。并且通过lora微调训练，在基础T2I模型的自/交叉注意力层中引入低秩矩阵进行微调参数： $Q=\mathcal{W}^Q z+\text { AdapterLayer }(z)=\mathcal{W}^Q z+\alpha \cdot A B^T z$
训练数据：目标视频数据集，使用静态帧
训练方式：lora微调
训练目标：和T2I原始目标相同， $\mathcal{L}=\mathbb{E}_{\mathcal{E}\left(x_0\right), y, \epsilon \sim \mathcal{N}(0, I), t}\left[\left\|\epsilon-\epsilon_\theta\left(z_t, t, \tau_\theta(y)\right)\right\|_2^2\right]$

其中:
$\epsilon$ 是添加的噪声 (从标准正态分布中采样的噪声)
$\epsilon_\theta\left(z_t, t, \tau_\theta(y)\right)$ 是是去噪网络在给定潜在表示 zt 、时间步 t 和文本编码向量下预测的噪声, 其中:

$x_0$ 是原始图像， $y$ 是对应的文本提示
$\tau_\theta(\cdot)$ 是文本编码器，将提示映射为emb
3） $z_t$ 是在时间步 $t$ 的潜在表示，包含了原始数据 $z_0$ 和噪声 $\epsilon$ 的信息

$z_t=\sqrt{\overline{\alpha_t}} z_0+\sqrt{1-\overline{\alpha_t}} \epsilon, \epsilon \sim \mathcal{N}(0,1)$

$\bar{\alpha}_t$ 是预定的噪声比例，控制每一步噪声的强度

然后和 $s d$ 一样预测噪声 :

$\mathcal{L}=\mathbb{E}_{\mathcal{E}\left(x_0^{1: f}\right), y, \epsilon^{1 \cdot f} \sim \mathcal{N}(0, I), t}\left[\left\|\epsilon-\epsilon_\theta\left(z_t^{1: f}, t, \tau_\theta(y)\right)\right\|_2^2\right]$

（2）第二阶段：训练运动模块 motion module

（2）第二阶段，训练运动模块motion module：将基础T2I与领域适配器一起扩展（放在T2I模型的潜在表示层后），并引入新初始化的运动模块进行运动建模。
训练数据：视频数据集
目的：让T2I模型能生成连贯动画序列
动作：

对T2I模型进行网络扩展，使得能够处理5d tensor，b×c×f ×h×w，其中f是frametime，帧时间维度
让图像层能独立处理视频帧，所以将 frametime 维度并到 batch_size 维度，使得每帧独立通过图像层处理，之后会将feature map的维度reshape回 bxcxfxhxw
训练方式：
视频被3D VAE编码向量（这里没像cogvideox训练3d vae，直接使用AutoencoderKL变分自编码器），然后根据扩散过程添加噪声、预测噪声
训练目标是最小化预测噪声与实际噪声之间的均方误差（MSE）
更新motion module参数，同时保持领域适配器和基础T2I权重参数固定
其他：
输出投影层会用0初始化；self-attention中后面帧只能看到前面帧信息
Temporal Transformer在自注意力之前添加了正弦位置编码，确保了模块能够理解动画中帧的顺序（位置信息），从而捕捉到运动动态

（3）第三阶段：训练MotionLoRA

在这里插入图片描述
（3）第三阶段（MotionLoRA）：使用少量参考视频和训练迭代，通过LoRA微调整个预训练的运动模块以适应新的运动模式。
训练数据：Reference视频数据
训练方式：

Lora微调，使得学习不同的视频镜头类型（如变焦、平移、滚动等）
在motion模块的自注意力层中引入低秩矩阵进行Lora微调
训练目标：motion模块、motionlora训练目标类似，都是先用预训练的sd auto-encoder将视频编码为隐向量，然后使用sd的前向扩散、预测噪声。
提出了MotionLoRA，允许预训练的运动模块适应新的运动模式，如不同的镜头类型，以较低的训练和数据收集成本。