ECCV 2024 | 扩散模型diffusion如何改进？方向论文大汇总

1、∞-Brush : Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions

从错综复杂的领域特定信息中合成高分辨率图像仍是生成建模中的一个重大挑战，尤其适用于大图像域（如数字组织病理学和遥感）中的应用。现有方法面临着关键限制：像素空间或潜在空间中的条件扩散模型在超出它们训练的分辨率时就会失去保真度，并且对于更大的图像尺寸，计算需求会显著增加。

基于patch方法提供了计算效率，但由于过度依赖局部信息，无法捕捉长距离空间关系。本文引入一种新无限维条件扩散模型，∞-Brush，用于可控大图像合成。提出交叉注意力神经操作器，以实现函数空间中的条件化。模型克服了传统有限维扩散模型和基于patch方法的约束，提供可扩展性和在保持全局图像结构的前提下保持细节的卓越能力。∞-Brush 可控合成高达 4096 × 4096 像素分辨率图像的条件扩散模型。https://github.com/cvlab-stonybrook/infinity-brush

2、AccDiffusion: An Accurate Method for Higher-Resolution Image Generation

本文试图解决基于patch更高分辨率图像生成中的对象重复（object repetition）问题。提出AccDiffusion，无需训练，深入分析揭示了重复的对象生成，而没有提示会损害图像的细节。因此，AccDiffusion首次提出将图像内容感知提示解耦为一组分区内容感知提示，每个提示作为对图像分区的更准确描述。

AccDiffusion还引入了带窗口交互的dilated sampling，以更好提高更高分辨率图像生成中的全局一致性。与现有方法的实验比较表明，AccDiffusion有效解决了重复对象生成的问题，并在更高分辨率图像生成方面表现更好。

3、Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators

本文指出扩散Transformer模型的自注意机制中存在与查询-键交互的显著冗余，特别是在去噪扩散步骤的早期阶段。针对这一观察结果，提出一个新的扩散Transformer框架，包括一个额外的中介token集，用于分开处理查询和键。通过在去噪生成阶段调节中介token的数量，模型通过准确、明确的阶段开始去噪过程，并逐渐过渡到丰富细节的阶段。同时，整合中介token简化了注意模块的复杂度至线性尺度，增强了全局注意过程的效率。

此外，提出一个时间步动态中介token调整机制，进一步减少了生成所需的计算 FLOPs，同时促进了在各种推断预算的约束下生成高质量图像。实验证明，方法改善生成图像的质量，同时降低推断成本。与最近的 SiT 工作集成后，方法实现了 2.01 的最先进 FID 分数。等待开源在：https://github.com/LeapLabTHU/Attention-Mediators

4、Enhancing Diffusion Models with Text-Encoder Reinforcement Learning

文生图扩散模型通常被训练以优化对数似然目标，这在满足下游任务的特定要求，如图像美学和图像-文本对齐方面存在挑战。最近的研究通过强化学习或直接反向传播优化扩散 U-Net，利用人类奖励来解决这一问题。然而，许多研究忽视了文本编码器的重要性，该编码器通常在训练期间是预训练的且固定的。

本文证明通过强化学习微调文本编码器，可增强结果的文本-图像对齐，从而提高视觉质量。主要动机来自于观察到当前文本编码器并不是最佳的，通常需要仔细的提示调整。虽然微调 U-Net 可以部分改善性能，但仍受制于次优的文本编码器。因此，提出用低秩调整的强化学习来微调文本编码器，基于任务特定的奖励进行微调，称为 TexForce。首先展示微调文本编码器可以提高扩散模型的性能。然后，说明 TexForce 可简单地与现有微调模型结合，以获得更好的结果，无需额外训练。最后，展示了方法在各种应用中的适应性，包括生成高质量的人脸和手部图像。https://github.com/chaofengc/TexForce

5、Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models

文生图扩散模型拓展了下游实际应用，但这些模型常在文本和图像之间遇到对齐问题。以生成两个解耦概念的组合为例，比如给定提示“一杯冰可乐”，现有模型通常会生成一个玻璃杯中的冰可乐，因为冰可乐通常在模型训练中与玻璃杯共现，而不是茶杯。这种对齐问题的根源在于文本到图像扩散模型在潜在语义空间中存在混淆，因此将“一杯冰可乐”现象称为潜在概念对齐失误（LC-Mis）。

利用大型语言模型（LLMs）彻底调查 LC-Mis 的范围，并开发一个自动化流程，用于将扩散模型的潜在语义与文本提示对齐。实证评估证实方法有效性，显著减少 LC-Mis 错误，增强了文本到图像扩散模型的韧性和通用性。https://github.com/RossoneriZhao/iced_coke

6、Navigating Text-to-Image Generative Bias across Indic Languages

本研究调查了针对印度广泛使用的印地语言的文生图（TTI）模型中的偏见。它评估并比较了这些语言中领先的 TTI 模型在生成性能和文化相关性方面与其在英语中的表现。利用提出的 IndicTTI 基准测试，全面评估了30种印地语言的两个开源扩散模型和两个商业生成 API 的性能。

该基准测试的主要目标是评估这些模型在这些语言中支持的程度，并确定需要改进的领域。鉴于印度使用的30种语言被14亿人口说着，该基准测试旨在提供对 TTI 模型在印地语言环境中效果的详细而独到的分析。IndicTTI 基准测试的数据和代码：https://iab-rubric.org/resources/other-databases/indictti

7、Post-training Quantization with Progressive Calibration and Activation Relaxing for Text-to-Image Diffusion Models

高计算负担是扩散模型面临的一个棘手问题。最近研究利用后训练量化（PTQ）来压缩扩散模型。然而，大多数研究仅集中在无条件模型上，未探索广泛使用的预训练文本到图像模型，如 Stable Diffusion 的量化。

本文提出一种扩散模型后训练量化方法 PCR（Progressive Calibration and Relaxing），该方法包括一个考虑跨时间步积累的量化误差的渐进校准策略，以及一个通过激活放松策略来提高性能而成本微乎其微的传动。此外，证明先前用于文本到图像扩散模型量化的指标并不准确，因为存在分布差异。为解决这个问题，提出一个新的 QDiffBench 基准测试，该基准测试利用相同领域的数据进行更准确的评估。

8、PreciseControl: Enhancing Text-To-Image Diffusion Models with Fine-Grained Attribute Control

文生图（T2I）扩散模型个性化方法的激增，用少量图像学习概念。现有方法在面部个性化领域受到困扰，很难实现带有身份保留的令人信服的逆映射生成，并依赖于生成的面部的基于语义文本的编辑。然而，对于面部属性编辑，更精细的控制是需要的，仅仅通过文本提示是具有挑战性的。

StyleGAN 模型学习了丰富的面部先验，并通过潜在操纵实现了朝着精细特征编辑的平滑控制。本文使用 StyleGAN 的 W+ 空间来对 T2I 模型进行条件设置。这种方法精确操纵面部属性，例如平滑地引入微笑，同时保留 T2I 模型中固有的基于文本的粗略控制。为使 T2I 模型在 W+ 空间上具有条件设置，训练了一个潜在映射器，将 W+ 空间的潜在代码转换为 T2I 模型的token嵌入空间。

方法在面部图像的inversion和属性保留方面表现出色，并有助于实现对精细特征编辑的持续控制。此外，方法可以方便地扩展到生成涉及多个个体的组合。大量实验证明方法对于面部个性化和精细特征编辑的验证。https://rishubhpar.github.io/PreciseControl.home/

9、Memory-Efficient Fine-Tuning for Quantized Diffusion Model

十亿参数扩散模型，如Stable Diffusion XL，Imagen和DALL-E 3，推动生成式人工智能领域。然而，大规模架构在微调和部署中存在挑战，因为资源需求高，推断速度慢。本文探讨相对未被探索但极具潜力的量化扩散模型微调领域。

分析显示，基线忽略了模型权重中的不同模式以及在微调扩散模型时各个时间步骤的不同角色。为解决这些限制，引入一种专门为量化扩散模型设计的新型内存高效微调方法，称为TuneQDM。方法引入量化比例作为可分离函数，以考虑通道间的权重模式。然后，它以时间步特定的方式优化这些比例，以有效反映每个时间步骤的作用。TuneQDM在与其全精度对应物相媲美的性能同时，还提供显著的内存效率。

实验结果表明，方法在单个/多个主体生成方面始终优于基线，表现出高主体忠实度和与全精度模型相媲prompt忠实度。

10、Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models

文生图模型面临安全问题，包括与版权和NSFW（不安全内容）相关的担忧。尽管已提出几种方法来从扩散模型中消除不合适的概念，但它们往往表现出不完全消除、消耗大量计算资源，并无意中损害了生成能力。

这项工作介绍一种名为可靠高效概念消除（RECE）的新方法，可在3秒内修改模型而无需额外微调。具体而言，RECE高效利用闭合形式解来推导出新的目标嵌入，能够在未学习的模型中重新生成已消除的概念。为了缓解由推导出的嵌入表示可能具有的不当内容，RECE进一步将它们与交叉注意力层中的无害概念对齐。为了保留模型的生成能力，RECE在推导过程中引入了额外的正则化项，从而最小化了消除过程中对不相关概念的影响。

保证仅需3秒极其高效的消除。与之前的方法进行基准测试，方法实现更高效和彻底的消除。https://github.com/CharlesGong12/RECE

11、Unmasking Bias in Diffusion Model Training

去噪扩散模型已成为图像生成的主要方法，然而它们在训练中收敛速度缓慢，采样中存在颜色偏移问题。这项工作发现这些障碍主要归因于扩散模型默认训练范式中固有的偏差和次优性。具体而言，提供理论见解，即扩散模型Ɛ-预测中普遍存在的恒定损失权重策略导致训练阶段估计偏见，阻碍了对原始图像的准确估计。

为解决这个问题，提出一个简单有效的加权策略，从解锁的偏置部分中推导而来。此外，进行了全面系统的探究，揭示了偏差问题在存在、影响和潜在原因方面的内在原因。这些分析有助于推动对扩散模型的理解。实证结果表明，方法显著提高样本质量，并且在训练和采样过程中提高了效率，仅通过调整损失加权策略。https://github.com/yuhuUSTC/Debias

12、SlimFlow: Training Smaller One-Step Diffusion Models with Rectified Flow

扩散模型在生成高质量方面表现出色，但由于迭代采样而导致推断速度缓慢。尽管最近的方法已成功将扩散模型转化为一步生成器，但它们忽略了模型尺寸的缩减，限制了在计算受限场景中的适用性。

本文旨在基于强大的矫正流框架，通过探索推断步骤和模型尺寸的联合压缩，开发小而高效的一步扩散模型。矫正流框架使用回流和蒸馏两种操作来训练一步生成模型。与原始框架相比，缩小模型尺寸带来了两个新挑战：（1）在回流过程中大型教师和小型学生之间的初始化不匹配；（2）小型学生模型上天真蒸馏的表现不佳。为克服这些问题，提出渐变回流和流引导蒸馏，二者共同构成我们的SlimFlow框架。

新框架训练了一个具有FID为5.02和15.7M参数的一步扩散模型，在CIFAR10上胜过了以前的最先进一步扩散模型（FID=6.47，19.4M参数）。在ImageNet 64×64和FFHQ 64×64上，方法得到了小型一步扩散模型，与较大模型相媲美，展示方法在创建紧凑、高效的一步扩散模型方面的有效性。