浅析扩散模型与图像生成【应用篇】(二十)—

浅析扩散模型与图像生成【应用篇】(二十)——TiNO-Edit

20. TiNO-Edit: Timestep and Noise Optimization for Robust Diffusion-Based Image Editing

该文通过对扩散模型中添加噪声的时刻 $t_k$ 和噪声 $N$ 进行优化，提升SD等文生图模型的图像编辑效果。作者指出现有的方法为了提升文生图模型的图像编辑质量，通常是引入更多的条件信息，如编辑指令（InstructPix2Pix）、边缘图、分割图（ControlNet）等。而较少有人关注扩散模型中的两个关键超参数，时刻 $t_k$ 和噪声 $N$ ，对于编辑效果的影响。因此，作者专门探索了这两个参数对于编辑效果的影响，并且提出一种自动寻找最优参数的优化方法。
在这里插入图片描述
如上图所示，当把一个猫的图片和一个“a photo of dog”的文本描述输入到SD模型中进行Img2Img的转换时，扩散过程的最终时刻 $T$ （每一列代表一个T）和随机噪声 $N$ （每一行代表一种N）的选择都会对转换结果产生显著影响。具体而言，随着扩散过程不断的增长，最终生成的结果会越来越接近文本提示的目标结果，而与原本输入的图像越来越无关，这一洞见在SDEdit这篇论文中也有提及。而选择不同的随机噪声，则会生成完全不同的结果。
基于上述的观察结果，不同于直接找到一个适用于所有情况的最优的 $T$ 和 $N$ ，TiNO-Edit的目的是实现 $T$ 和 $N$ 相关参数优化过程的自动化。具体而言，就是现有方法都是预先给定相关的参数，然后对每个样本的扩散和生成过程都采用相同的参数。而TiNO-Edit是在每个样本的扩散和生成过程中都加入了一个优化过程，能够自动地寻找最优的时间和噪声参数，使输出的结果达到最佳，可以理解为一个参数自适应的操作。
在实现过程中，作者并不是直接对扩散过程的最终时刻 $T$ 进行优化，而是对每次加入噪声的时刻 $t_k=k\frac{T}{K},k\in[1,K]$ 进行优化。其中 $T\in[0,1]$ 表示最终时刻， $K$ 相当于把时刻 $[0, T]$ 离散为 $K$ 个时间点，从中随机选取第 $k$ 个时间点 $t_k$ 作为添加噪声的时刻。此外还对初始化的随机噪声 $N\sim \mathcal{N}(0,I)$ 进行优化。优化过程如下图所示
在这里插入图片描述
输入信息包括：原始输入图像 $I$ , 原始输入图像的文字描述 $p$ ，目标提示 $p_O$ 和其他输入 $\mathcal{A}=\{I_*M_a,*\in\{r,s,c\}\}$ ， $M_a$ 表示添加物体的掩码， $I_r$ 表示图像编辑的参考引导图像， $I_s$ 表示涂鸦引导图像， $I_c$ 表示图像组成（Image Composition）。然后，对 $K$ , $T$ , $t_k$ 和 $N$ 等参数进行初始化，由于TiNO-Edit是对SD这类潜在的扩散模型进行优化，因此需要将输入图像 $I$ 先经过一个变分自动编码器 ${VAE}_{enc}$ 映射到潜在空间中，得到潜在特征 $L$ 。 $MS K$ 表示一种掩码操作，是根据编辑任务只对图像中需要编辑的位置进行掩码，而保持其他位置不变。 $W$ 表示参数优化迭代的次数， $F D$ 表示前向扩散过程， $R D$ 表示反向采样过程。在每次迭代过程中，都要完成一次完整的扩散和采样过程，并根据目标函数 $\mathcal{L}_{total}$ 对 $t_k$ 和 $N$ 进行优化，最终将最优的采样结果 $\tilde{L}_0$ 进行解码得到目标图像。
目标函数 $\mathcal{L}_{total}$ 计算方式如下 $\begin{array}{l} \mathcal{L}_{\text {total }}\left(L, \tilde{L}_{0}, p_{O}, p, \mathcal{A}\right) \\ =\lambda_{\text {sem }} \cdot \mathcal{L}_{\text {sem }}\left(L, \tilde{L}_{0}, p_{O}, p\right) \\ +\lambda_{\text {ref }} \cdot \mathcal{L}_{\text {ref }}\left(L, L_{r}\right) \\ +\lambda_{\text {perc }} \cdot \mathcal{L}_{\text {perc }}\left(L, \tilde{L}_{0}\right), \end{array}$ 其中， $\mathcal{L}_{\text {sem }}$ 表示语义损失，计算方法为 $\begin{aligned} & \mathcal{L}_{\text {sem }}\left(L, \tilde{L}_{0}, p_{O}, p\right) \\ = & \cos \left(\operatorname{LatentCLIP}_{\text {vis }}(L), \operatorname{LatentCLIP}_{\text {vis }}\left(\tilde{L}_{0}\right)\right) \\ & -\cos \left(\operatorname{CLIP}_{\text {text }}\left(p_{O}\right), \operatorname{CLIP}_{\text {text }}(p)\right), \end{aligned}$ $\operatorname{LatentCLIP}_{\text {vis }}$ 是一种视觉编码器，根据输入的潜在特征 $L$ ，输出与原始图像 $I$ 的CLIP特征 $\text{CLIP}(I)$ 相似的特征。说白了就是原本的CLIP模型是直接对图像 $I$ 进行编码的，而这里作者输入的是潜在特征 $L$ ，为了适应这一改变，作者专门训练了一个 $\text{LatentCLIP}$ 模型，让其根据 $L$ 输出与 $\text{CLIP}(I)$ 接近的特征图，其训练过程如下
在这里插入图片描述
$\operatorname{CLIP}_{\text {text }}$ 就表示原始的CLIP文本编码器。 $\mathcal{L}_{\text {ref }}$ 表示参考图像特征 $L_r$ 与输入图像特征 $L$ 之间的余弦相似性， $\mathcal{L}_{\text {ref }}\left(L, L_{r}\right) =\cos \left(\operatorname{LatentCLIP}_{\text {vis }}(L), \operatorname{LatentCLIP}_{\text {vis }}\left({L}_{r}\right)\right)$ $\mathcal{L}_{\text {perc }}$ 表示输入的特征 $L$ 和生成结果的特征 $\tilde{L}_{0}$ 之间的视觉相似性， $\mathcal{L}_{\text {perc }}\left(L, \tilde{L}_{0}\right)=\|\operatorname{LatentVGG}(L), \operatorname{LatentVGG}\left(\tilde{L}_{0}\right)\|_1$ $\operatorname{LatentVGG}$ 与 $\operatorname{LatentCLIP}_{\text {vis }}$ 的训练过程类似，只是把CLIP的图像编码器换成了VGG。
经过上述的优化训练过程，TiNO-Edit在多个图像编辑任务中的确取得了优于其他方法的效果，可视化结果对比如下
纯文本引导
在这里插入图片描述
参考图像引导