Diffusion Models专栏文章汇总:入门与实战
前言:扩散模型是各种视觉任务中流行的生成建模方法,引起了人们的广泛关注。它们可以被认为是自监督学习方法的一个独特实例,因为它们独立于标签注释。这篇博客讨论扩散模型与表征学习之间的相互作用、数学基础,流行的去噪网络架构和指导方法,并详细介绍了与扩散模型和表示学习相关的各种方法。
扩散模型的兴起:扩散模型最近作为生成模型的前沿技术出现,它们在图像合成和其他模态(包括自然语言、计算化学和音频合成)中展示了显著的成果。扩散模型的生成能力表明,它们能够学习输入数据的低级和高级特征,这使得它们非常适合用于通用的表示学习。
表示学习的挑战:与其他生成模型(如生成对抗网络GANs和变分自编码器VAEs)不同,扩散模型不包含固定的架构组件来捕获数据表示,这使得基于扩散模型的表示学习具有挑战性。尽管如此,利用扩散模型进行表示学习的方法越来越受到关注,这得益于扩散模型训练和采样的进步。
自监督学习的可扩展性:当前最先进的自监督表示学习方法展示了很好的可扩展性。扩散模型可能具有类似的扩展属性,这使得它们能够在更大、无需标注的数据集上进行训练。
条件生成方法:控制生成方法(如分类器引导和无分类器引导)依赖于标注数据,这限制了扩散模型的扩展。利用表示学习的引导方法可以解决这一瓶颈,可能使扩散模型能够利用更大的无标注数据集进行训练。
扩散模型用于表示学习
利用中间激活
- DDPM-Seg:Baranchuk等人研究了从DDPM的U-Net网络中提取的中间激活,这些激活在特定的扩散时间步和解码器块中包含语义信息,可用于下游的语义分割任务。
- GDC 和 DifFormer:Mukhopadhyay等人提出了利用扩散模型中间激活进行图像分类的方法。他们评估了不同特征图池化尺寸的影响,并使用多种轻量级架构进行分类。
一般表示提取框架
- 提出了一个三步框架,用于从预训练的扩散模型中提取表示,以用于下游任务。这个框架包括选择理想的扩散时间步和中间层,提取特征,以及训练分类头。
知识转移
- RepFusion 和 DreamTeacher:这些方法通过知识蒸馏技术,将预训练扩散模型的表示转移到学生网络中,以提高下游任务的性能。
重建扩散模型
- DiffAE 和 PDAE:这些方法通过修改扩散模型的架构和训练方法,来直接从模型中提取有意义的表示,用于图像重建和分类任务。
表示学习用于扩散模型引导
分配基础引导
- kNN-Diffusion 和 RDM:这些方法通过使用检索增强的扩散模型,允许在没有大规模图像-文本配对数据的情况下进行文本引导的图像生成。
- Self-guided diffusion:Hu等人提出了一种自引导框架,通过特征提取和自标注函数生成引导信号,用于无条件的图像生成。
表示基础引导
- RCG:Li等人提出了一种框架,通过在自监督表示分布上训练表示扩散模型,然后训练像素生成器以映射噪声分布到图像分布。
目标基础引导
- SGCIG 和 DAG:这些方法通过在扩散模型的内部表示上添加引导项,增强了对生成图像的结构和语义元素的控制。
论文
https://arxiv.org/pdf/2407.00783