【微软：多模态基础模型】（3）视觉生成

欢迎关注【youcans的AGI学习笔记】原创作品
【微软：多模态基础模型】（1）从专家到通用助手
【微软：多模态基础模型】（2）视觉理解
【微软：多模态基础模型】（3）视觉生成
【微软：多模态基础模型】（4）统一视觉模型

【微软：多模态基础模型】（3）视觉生成

- Multimodal Foundation Models: From Specialists to General-Purpose Assistants
- 3. 视觉生成
- - 3.1 视觉生成概述
  - - 3.1.1 视觉生成中的人类对齐
    - 3.1.2 文本到图像生成
  - 3.2 空间可控生成（Spatial Controllable Generation）
  - 3.3 基于文本的编辑（Text-based Editing）
  - 3.4 遵循文本提示（Text Prompts Following）
  - 3.5 视觉概念定制（Concept Customization）
  - 3.6 趋势：统一调整以实现与人类对齐

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

2023 年 6 月，微软在 CVPR2023 发表论文「多模态基础模型：从专家到通用助手」（Multimodal Foundation Models: From Specialists to General-Purpose Assistants）。本文全面综述了多模态基础模型的分类和演化，这些模型展示了视觉和视觉语言能力，并重点关注了从专家向通用助手的过渡。

本文是对论文 “Multimodal Foundation Models: From Specialists to General-Purpose Assistants” 的翻译，仅供学习使用。

论文下载地址：
https://arxiv.org/abs/2309.10020
https://ar5iv.labs.arxiv.org/html/2309.10020

3. 视觉生成

Chapter 3：Visual Generation

在这里插入图片描述

视觉生成旨在生成高保真的视觉内容，包括图像、视频、神经辐射场、3D点云等等。
这个主题是最近流行的AI生成内容（AIGC）的核心，这种能力对创意应用非常关键，例如设计、艺术和创建多模态内容。它还在合成训练数据方面发挥了重要作用，帮助理解模型，从而实现多模态内容的理解和生成的闭环。
要利用视觉生成，关键是生成与人类意图严格一致的视觉数据。这些意图被输入到生成模型中作为输入条件，如类别标签、文本、边界框、布局掩码等。鉴于开放式文本描述所提供的灵活性，文本条件（包括文本到图像/视频/3D等）已经成为条件视觉生成中的关键主题。

在本章中，我们描述了如何在视觉生成中与人类意图保持一致，重点关注图像生成。
我们在第3.1节概述了当前文本到图像（T2I）生成的现状，强调了它在与人类意图对齐方面的局限性。本章的核心部分致力于回顾四个目标领域的文献，这些领域旨在增强T2I生成中的对齐性，即：在第3.2节回顾了关于空间可控T2I生成、在第3.3节回顾了关于基于文本的图像编辑、在第3.4节回顾了更好地遵循文本提示，在第3.5节回顾了关于T2I生成中的概念定制。在每个小节的末尾，我们分享了对当前研究趋势和短期未来研究方向的观察。在第3.6节汇总了这些讨论，并展望了未来的趋势。具体来说，我们设想开发一个通用的T2I生成模型，它可以更好地遵循人类意图，以统一并替代四个独立的对齐工作类别。

在本章中，我们将描述如何在视觉生成中与人类意图保持一致，重点是图像生成。我们在第3.1节中首先概述了文本到图像（T2I）生成的当前状态，强调了它在与人类意图对齐方面的局限性。本章的核心内容是回顾关于四个目标领域的文献，这些领域旨在增强T2I生成中的对齐，即第3.2节中的空间可控T2I生成、第3.3节中的基于文本的图像编辑、第3.4节中更好地遵循文本提示以及第3.5节中T2I生成的概念定制。在每个小节的末尾，我们分享了我们对当前研究趋势和短期未来研究方向的观察。这些讨论集中在第3.6节中，我们通过考虑未来趋势来结束本章。具体来说，我们设想开发一个多面手T2I生成模型，该模型可以更好地遵循人类意图，统一和替换四个单独的对齐工作类别。

3.1 视觉生成概述

3.1.1 视觉生成中的人类对齐

在T2I生成背景下，人工智能的对齐研究是致力于图像生成模型的研究领域，这些模型可以轻松遵循人类意图，来合成所需生成的视觉内容。目前的文献通常关注普通 T2I 模型的某个特定弱点，这个弱点阻碍了它们准确地生成与人类意图对齐的图像。本章深入探讨了四个常见的研究问题，如图3.1(a)所示。

在这里插入图片描述

图 3.1：T2I 生成中改善人类意图对齐的概览。

空间可控的文本到图像生成
文本是人与计算机交互的强大媒介，因而成为条件视觉生成中的焦点。然而，仅靠文本无法提供精确的空间参照，例如，为具有精确空间配置的任意图像区域指定开放式描述。空间可控的文本到图像生成 T2I（Yang等，2023b；Li等，2023n；Zhang，2023）旨在将文本输入与其他条件相结合，以实现更好的可控性，从而帮助用户生成所需的图像。
基于文本的图像编辑
编辑是获取人类意图视觉内容的另一种重要手段。用户可能拥有近乎完美的图像，无论是通过模型生成的，还是通过相机自然捕捉的，但这些图像可能需要进行特定的调整以满足他们的意图。编辑具有多种目标，从局部修改对象到全局调整图像样式。基于文本的图像编辑（Brooks等，2023）探索了创建多功能编辑工具的有效方法。
更好的文本提示
尽管T2I模型经过训练，以在配对的文本输入条件下重建图像，但训练目标并不一定确保或直接优化图像生成过程中严格遵循文本提示。研究表明（Yu等，2022b；Rombach等，2022），普通的T2I模型可能会忽略某些文本描述，并生成与输入文本不完全对应的图像。这一方向的研究（Feng等，2022b；Black等，2023）探索了改进措施，使T2I模型更好地遵循文本提示，从而方便T2I模型的使用。
视觉概念的定制
将视觉概念融入文本输入对各种应用都是至关重要的，例如在各种场景中生成宠物狗或家人的图像，或制作以特定人物为主角的视觉故事。这些视觉元素往往包含难以用言语表达的复杂细节。或者，相关研究（Ruiz等，2023；Chen等，2023f）探索是否可以通过定制T2I模型，使用专门的标记嵌入或条件图像来绘制这些视觉概念。

在详细介绍对齐工作之前，我们首先在下一节回顾文本到图像生成的基础知识。

3.1.2 文本到图像生成

T2I 生成旨在生成不仅视觉质量高而且语义上与输入文本对应的图像。T2I模型通常使用图像-文本对进行训练，其中文本作为输入条件，配对的图像作为目标输出。从图3.2中广泛的T2I模型中抽象出来，我们对代表性的图像生成技术进行概述。

在这里插入图片描述
图 3.2：2023年7月之前具有代表性的文本到图像生成模型概述。

生成对抗网络（GAN）
GAN（Goodfellow 等，2020；Creswell 等，2018；Kang 等，2023）由两个关键组件组成：生成器和判别器。生成器的任务是从随机噪声输入中创建合成图像，并对其进行训练，以根据输入文本条件调整这些噪声输入，从而生成语义相关的图像。在对抗过程中，判别器与生成器竞争，试图区分合成生成的图像和真实的图像，从而引导生成器提高其图像创建能力。

变分自编码器（VAE）
变分自编码器（VAE）是一种概率模型，可以通过配对的编码器和解码器网络模块生成图像。编码器网络优化将图像编码为潜在表示的过程，而解码器则改进将抽样的潜在表示转换回新图像的过程。VAE通过最小化原始图像和解码图像之间的重构误差进行训练，同时使用 Kullback-Leibler（KL）散度来规范编码的潜在空间。矢量量化-VAE（VQ-VAE）通过利用矢量量化来改进VAE，通过矢量量化有效地将连续的视觉信号转换为有限的离散标记，从而实现了改进的重构质量和生成能力。

离散图像标记预测
离散图像标记预测方法的核心在于一个组合的配对图像标记器和解标记器（detokenizer），如向量量化生成对抗网络(VQ-GAN)（Esser 等，2021），其有效地将连续的视觉信号转换为有限的离散标记集合。这样，图像生成问题就被转化为一个离散标记预测任务。用于标记预测的一种广泛使用的策略是使用自回归Transformer（Ramesh 等，2021b；Yu 等，2022b）来依次生成视觉标记，通常从左上角开始，并逐行向右下角移动，以文本输入为条件。另外，研究（Chang 等，2022，2023）还探索并行解码以加速标记预测过程。最后，预测的视觉标记被解标记，最终形成图像预测。

扩散模型（Diffusion models）
扩散模型（Sohl-Dickstein 等，2015；Song and Ermon，2020；Ho 等，2020）使用随机微分方程将随机噪声演化为图像。扩散模型通过从一个完全随机的图像开始，然后在一个去噪过程中逐渐对其进行多次迭代细化。每次迭代都会预测并随后移除一个噪声元素，从而导致图像在给定输入文本的条件下不断演变。

下面以稳定扩散（Stable Diffusion，SD）模型为例，详细解释文本到图像（T2I）模型的工作原理。
选择这个模型的原因有很多。首先，SD是使用最广泛的开源T2I模型之一，这使得它成为我们本章讨论的许多对齐技术的坚实基础。此外，作为一种基于扩散的生成模型，它是一个极好的案例研究，用于介绍扩散模型。最后，其基于交叉注意力的图像-文本融合机制是各种文本条件方法的经典示例，例如自回归T2I生成（Yu 等，2022b），帮助我们深入理解T2I生成中的图像-文本交互。

我们使用稳定扩散v1进行介绍。SD2和SDXL等后续版本共享相同的方法，但可能具有不同的详细模型配置，例如更大的文本编码器、U-Net和潜在维度。稳定扩散模型（SD）及其学术版本潜在扩散模型（Rombach 等，2022）主要包含三个模块，即：图像变分自编码器、去噪U-Net和条件编码器，分别如图3.3 的左、中、右部分所示。我们将按照原始潜在扩散论文（Rombach 等，2022）中的符号，依次介绍每个模块和图像生成推理流程。

在这里插入图片描述
图3.3：潜在扩散模型架构概述。

变分自动编码器（VAE）
如上文所述，VAE模块包含配对的编码器E和解码器D，它们被训练成将RGB图像x编码为潜在的随机变量z，然后解码潜在变量以最好地重建图像。给定一个RGB图像x∈R（H×W×3），编码器E将其编码为连续的潜在表示z∈R（h×w×c）。在SD中，H=W=512，h=w=64，c=4，因此潜在变量z比图像x小48倍，从而通过在压缩的紧凑潜在空间中执行去噪过程显著提高了计算效率。
文本编码器
SD是一个条件图像生成模型，其中输入文本条件使用条件编码器τ进行编码。具体来说，SD使用ViT-L/14 CLIP文本编码器（Radford 等，2021）将分词后的输入文本查询y编码为文本特征τ(y)∈R（N×dτ），其中最大长度N为77，文本特征维度dτ为768。
去噪U-Net
去噪U-Net是扩散图像生成过程的核心模块。该模块经过训练，以便在每个去噪时间步t时预测在潜在空间中需要减去的噪声ε(zt,t)，这样它就可以逐步将初始随机噪声演化为有意义的图像潜在。该模块使用预测噪声ε(zt,t)和目标噪声ε之间的L2损失进行训练，目标噪声ε是由VAE编码器E编码的目标图像潜在。在推理时，从随机噪声开始，通过迭代去噪潜在z，将其送入VAE解码器D以生成最终生成的图像。

在每个去噪步骤中，U-Net将文本条件作为输入，生成与文本查询语义相关的图像。接下来，我们介绍视觉流与文本流之间的交互。去噪U-Net，类似于经典的U-Net，由一系列空间下采样和上采样块组成，它们之间有跳跃连接。在SD的U-Net中，每个下采样/上采样块都有一个交叉注意力层和一个二维卷积下采样/上采样层。每个块以视觉潜在特征、文本特征和去噪步骤作为输入，并生成下一个视觉潜在特征。图像与文本的交互发生在图像-文本交叉注意力层中。

在这里，K 和 V 是从文本流投影出来的，而 Q 是从视觉流投影出来的，它们都具有相同的隐藏维度d 。因此，Q 和 K 之间的 softmax 操作会产生一个大小为 hw*N 的注意力映射 M。交叉注意力映射 M 表示了所有空间位置 hw 中每个 N 个文本词之间的细粒度图像-文本交互。然后，注意力映射 M 用于生成输出，以产生一个下/上采样块的输出。

3.2 空间可控生成（Spatial Controllable Generation）

T2I的生成采用开放式文本，供用户进行描述，但仅使用文本不足以进行某些类型的描述，例如涉及空间的问题。空间可控的 T2I 研究旨在探索以额外的空间输入条件来指导图像生成过程。

我们把这类研究分为三个主题：
(1) 首先，我们介绍 vanilla T2I模型中的图像级文本描述扩展到基于区域的文本描述的工作（Yang等，2023b；Li等，2023n；Avrahami等，2023b；Cho等，2023），这样开放式文本描述就可以在特定的空间区域上精确地操作。
(2) 然后，我们从 Boxes 扩展到表示为 2D 阵列的密集空间条件，如分割掩模、边缘图、深度图、关键点。我们回顾了代表作 ControlNet（Zhang，2023）和许多其他作品（Mou等，2023；Zeng等，2022；赵等，2023b；Qin等，2023a）。。
(3) 前两种需要对T2I模型微调以理解额外的空间约束，我们将回顾推理时间制导技术（Bansal等，2023；Chen等，2023e），这些技术在没有模型微调的情况下实现了空间控制。

区域控制 T2I生成

大规模T2I模型已经展示了在生成高分辨率图像方面的显著效能。然而，这些模型缺乏空间可控性，例如，使用自由形式的文本描述来精确指定特定区域的内容。这一限制促使了对区域控制的T2I生成进行研究。正如图3.4左侧所示，这些研究探索了在任意区域上的开放式文本描述的额外输入条件，增强了T2I模型中的全局图像描述。这种新的输入条件要求T2I模型能够理解空间输入，并将其与具体的文本内容关联起来。

ReCo（Yang等，2023b）是这一方向上最具代表性的工作之一。其核心思想是扩展文本编码器E的文本词汇，并对不同的 tokens 进行排列以表示基于图像的文本输入。该研究使用额外的位置 tokens增强使用预训练的T2I模型理解的文本 tokens，这些位置tokens表示量化的空间坐标。如图3.4所示，位置tokens（例如，<687>，<204>，<999>，<833>）与文本tokens无缝混合，作为空间修饰符，指示后续文本仅对指定空间区域起作用，例如“棒球运动员…运动衫”。然后，对预训练的T2I模型进行微调，以支持这种新的输入接口，从而促进区域可控的T2I生成。

ReCo（Yang等，2023b）与其他沿此方向的方法一样，讨论了区域控制T2I生成在提高与人类意图的一致性方面的若干优势：
(2) 基于区域的文本提供了额外的输入条件，允许用户轻松指定所需的图像，即在特定位置具有自由形式的区域描述。框标记（box token）和输入序列设计允许用户使用与查询T2I模型相同的用户界面生成基于区域的文本，使扩展易于使用。
(2) 附加的区域级控制文本有助于更好地生成具有正确对象数量、空间关系和区域属性（如颜色/大小）的图像，否则这些属性可能会使原始T2I模型感到困惑（Rombach等，2022）。
(3) 研究还观察到更好的图像生成质量，并推测基于区域的文本提供了对象级图像-文本关联，从而简化了学习过程。

在这里插入图片描述
图3.4：ReCo 模型架构概述。

GLIGEN（Li等，2023n）是另一项代表性的工作。与通过扩展输入tokens并微调整个T2I模型来生成基于区域的描述不同，GLIGEN使用了一种插接式方案：冻结原始T2I模型的参数，并训练额外的门控自注意力层来学习新的区域化技能。区域化tokens携带两种类型的信息：需要基于的文本单词的语义表示和它们的空间配置。然后，通过新添加的门控自注意力层将这些区域化tokens添加到预训练的T2I模型中，所有剩余的预训练参数保持冻结。该层配备一个门控参数，该参数初始化为零，允许预训练模型逐步纳入基于区域的文本输入。GLIGEN 促进了各种类型的基于区域的控件，包括边界框区域化、关键点区域化、图像提示，以及其他类型的空间对齐密集条件。

密集型控制

除了空间坐标，还存在其他通常表示为2D数组的空间条件，例如分割掩码、边缘图和深度图。ControlNet（Zhang和Agrawala，2023）是将这些密集空间控制结合到T2I模型中的突出示例。ControlNet 建立在Stable Diffusion之上，并引入了一个额外的可训练的ControlNet分支，该分支为文本提示添加了额外的输入条件。这个额外的条件可以是Canny边缘图、霍夫线、HED边界、素描、人体姿态图、分割掩码、深度图像、法线图或线条图，每个条件都有其独特的模型副本。添加的分支初始化为SD的U-Net中预训练的下采样块。该分支采用额外的视觉潜在变量和额外的密集条件作为输入。在将输入密集条件与视觉潜在变量合并并将ControlNet分支的输出合并回SD的上采样块之前，有一个独特的零初始化的1 × 1卷积层。该层作为一个门控连接器，以逐渐将额外条件注入到预训练的Stable Diffusion模型中。通过额外的密集空间控制，ControlNet提供了一个有效的生成可控性渠道。

后续研究如Uni-ControlNet（Zhao等，2023b）和UniControl（Qin等，2023a）通过统一输入条件进一步改进了ControlNet，使得单个模型可以理解多种输入条件类型，甚至可以接受两种条件的组合。图3.5 给出了密集控制和相应生成图像的示例。

此外，Disco（Wang等人，2023f）展示了ControlNet在生成人类舞蹈视频方面的效率，其目标旨在生成具有可控元素的视频，如人类主体、视频背景和运动姿势序列。该研究成功地将背景和人体姿态条件分离出来，并将其输入ControlNet的两个不同分支，分别对图像帧和姿态图进行处理。这种控制解耦，使Disco舞蹈能够在人物前景和背景中实现高保真度。更重要的是，它能够实现人类主体、背景和舞蹈动作的任意组合。

在这里插入图片描述

推理时的空间引导
上述工作需要模型训练，无论是T2I模型还是用于理解额外空间条件的附加模块。另一种方法是，一些研究（Bansal等，2023；Chen等，2023e）探索在不需要额外模型训练的情况下，为T2I模型提供推理时的空间引导。其核心思想类似于分类器引导（Dhariwal，2021），该方法采用鉴别器损失来引导扩散过程，具体如下：
在这里插入图片描述

以空间控制为例，判别器可以是一个 Faster-RCNN 目标检测器（Ren等，2015），用 $f$ 表示，其在中间估计图像 $z_0$ 上运行，并使用所需布局 $c$ 计算目标检测损失 $l$ ，以指导 $\hatε(z_t , t)$ 的生成。 $s (t)$ 是引导强度。这种方法可以在T2I生成中实现空间控制而不进行额外的训练，其定性结果如图3.6所示。然而，其可能不会产生与微调方法（Yang等，2023b；Li等，2023n；Zhang和Agrawala，2023）那样精确的结果。

总结和趋势
早期关于空间可控生成的研究，如布局到图像和蒙版到图像的生成，通常是与T2I 生成并行处理的。然而，随着先进的大型T2I模型的出现，如本节所述的近期研究正在倾向于将空间条件与文本条件相结合。
我们确定了将空间条件整合到T2I模型中的两个主要趋势。首先，区域可控的T2I生成，如ReCo，通过用位置令牌扩大文本词汇来合并空间坐标控制。其次，从ControlNet扩展的研究将额外的“图像类”条件整合到T2I框架中，从而捕获了广泛的各种密集条件。
未来，T2I 模型可能有一个微调阶段，使其能够理解图像和文本输入。在这种情况下，可以通过文本纳入框坐标（box coordinates），而密集控制可以作为图像输入提供。我们将在第3.5节中探讨和阐述这一想法。

3.3 基于文本的编辑（Text-based Editing）

文本到图像编辑是从给定图像和输入文本描述中合成新图像的过程。与完全从头开始生成图像不同，用户可能已经拥有一个令人满意的起点，这可能是先前使用T2I模型生成的图像或自然图像。目标是保留大部分视觉内容，只修改特定组件。这可能涉及到改变局部物体或整体图像样式，以精确匹配用户的意图。这种基于文本的编辑方法为用户提供了一种工具，可以从先前的图像中生成新图像，在创建准确遵循人类意图的视觉内容方面发挥关键作用。

基于文本的编辑具有各种不同的定义和任务设置。我们介绍以下代表性工作。
(1) 一个经典的编辑场景是改变图像的局部区域，例如移除或改变物体或向特定区域添加物体。根据用户生成的掩码在图像生成中空间地操纵潜在的是一种简单但有效的方法(Avrahami等，2022b，a；孟等，2021)。研究表明，操纵图像文本交叉注意力掩码对于空间编辑也是有效的(Balaji等，2022；Hertz等，2022)。
(2) 从描述空间区域中期望外观的语言输入扩展来看，语言也可以用作编辑指令来告诉机器做什么(Kawar等，2023；Brooks等，2023)，比如“将图像中的物体A更改为物体B”。
(3) 编辑系统不是扩展单个T2I模型进行编辑，而是整合不同的专业模块，如分割模型(Kirillov等，2023；Zou等，2023b)和大语言模型(Brown等，2020；OpenAI，2023a)(Wu等，2023a)。

扩散过程操纵（Diffusion process manipulations）

扩散图像生成中的多步骤去噪过程自然地支持一定程度的图像编辑。随机差分编辑（Stochastic Differential Editing, SDEdit）(Meng等，2021)表明，首先向输入图像添加噪声进行编辑，然后对样本进行去噪，可以产生有意义的编辑。混合潜在扩散（Blended Latent Diffusion，Avrahami等，2022a）表明，通过操纵扩散过程，可以使用用户生成的物体掩码 mlatent 实现局部物体编辑。在每个扩散步骤中，潜在变量z是前景和背景潜在变量的空间混合：
$z = z_{fg} ⊙ m_{latent} + z_{bg} ⊙ (1 − m_{latent})$
其中 $z_{fg}$ 是从文本描述生成的编辑后的物体， $z_{bg}$ 是添加了噪声的原始背景图像。

然而，对混合空间潜在变量的使用存在一定的限制。首先，要求人类生成掩码可能并不总是可行的。其次，生成过程有时会在边缘产生伪影。研究人员不满足于简单地在空间上混合潜在变量，转而深入研究图像文本交叉注意力图以寻找物体编辑的线索。具体来说，Prompt2Prompt（Hertz等，2022）发现交叉注意力层控制视觉区域和文本单词之间的相互作用。基于这一观察，该研究为扩散T2I模型生成的图像提供了三种编辑类型，包括单词交换、添加新短语和注意力重新加权，每种编辑类型都通过在图像文本交叉注意力图上进行相应的操作得以实现。具体来说，Prompt2Prompt跟踪由原始提示（即 $M_t$ ）和编辑提示（即 $M_t^*$ ）生成的交叉注意力图，并使用预定义规则将注意力图合并为新的注意力图 $M_t$ ，用于潜在计算。例如，在添加新短语时，对于原始提示中存在的单词，注意力图 $M_t$ 保持不变。只有对于原始提示中不存在的单词，它才会合并修改后的注意力图 $M_t$ 。编辑的定性结果如图3.7所示。

除了编辑合成的图像，Imagic（Kawar等，2023）还探索了对真实自然图像进行编辑。其核心思想是将要编辑的图像表示为文本嵌入，并将此嵌入与描述所需图像的目标文本嵌入混合。这种混合确保了产生的图像保留了来自原始图像的元素，同时与目标文本提示中详细描述的美学一致。在实践中，需要在测试时进行微调以生成高质量的图像。

在这里插入图片描述
图3.7：通过注意力图操作，对合成生成的图像进行三种类型的编辑（单词交换、添加新短语、注意力重新加权）。

文本指令编辑（Text instruction editing）

用户直接使用语言指定编辑指令，例如图3.8中的“用玫瑰花替换向日葵”，可能比在文本提示中重复图像的可视内容更有效。所需的文本指令编辑模型应该适用于由模型生成的图像和自然图像，并适用于不同类型的编辑指令。

InstructPix2Pix（Brooks等，2023）旨在接受图像和文本编辑指令，以产生输入图像的编辑版本。其目标是训练一个能够理解此类编辑文本指令的图像到图像模型。为了实现这一目标，可以将T2I模型调整为接受额外的图像输入，通过将更多的输入通道集成到SD的卷积层中来实现。然而，主要的挑战在于如何生成配对的编辑数据。如图3.9所示，Instruct-Pix2Pix（Brooks等，2023）建议使用一个语言模型（LMM，Brown等，2020）来生成一对编辑指令和编辑后的标题，例如“让她骑龙”，“一张女孩骑龙的照片”和“一张女孩骑马的照片”。然后，该研究使用Prompt2Prompt（Hertz等，2022）将原始的和编辑过的标题对转换为一对图像，对应于GPT生成的编辑指令。该研究生成了超过45万个样本以训练编辑模型。这种数据生成方法随后在如CM3Leon（Ge等，2023）等研究中被用于训练通用图像-文本-图像模型。

在这里插入图片描述

使用外部预训练模型进行编辑

此外，最近的研究表明，将外部语言和视觉模型融入编辑过程比仅依靠单一模型更有效。通用分割模型的进步（如SAM（Kirillov等，2023）和SEEM（Zou等，2023b））为使用分割模型来为基于文本的编辑区域奠定基础铺平了道路。代表性作品包括Instruct X-Decoder（Zou等，2023a）、Grounded SAM inpainting（Liu等，2023h）、Inpaint anything（Yu等，2023c）等。另一个新趋势是通过大语言模型（LLM）分配各种生成和编辑工具。VisualChatGPT（Wu等，2023a）之类的研究可以解决复杂的视觉编辑任务，需要多个生成和编辑模型在多个步骤中进行合作。

总结和趋势

基于文本的编辑模型的能力取得了显著的进展，提高了编辑质量，扩展了领域覆盖范围，并提供了更灵活的用户界面。例如，早期的研究需要用户生成遮罩来进行对象编辑，而最近的模型可以在没有遮罩输入的情况下处理合成生成的图像，甚至可以直接理解一般的文本编辑指令。
展望未来，我们期望一个全面的生成式基础模型，能够同时处理图像和文本输入。在这个框架内，编辑指令将成为文本输入的一种专门形式，与T2I生成中的图像描述无缝集成。

3.4 遵循文本提示（Text Prompts Following）

使用图像文本配对进行训练，可以鼓励T2I模型生成与输入文本条件在语义上对应的图像。然而，图像生成训练目标并不能直接强制使生成的图像严格遵循文本提示。一些研究表明（Feng等，2022b；Chefer等，2023），T2I模型可能无法遵循文本提示，特别是在图像描述复杂时。例如，某些名词短语可能会被省略，属性可能会被应用到错误的对象上，生成的图像可能具有错误的物体数量、关系、样式等。这些局限性使人们致力于改进T2I模型，以更好地遵循文本提示。

相关文献可以大致分为两类。
(1) 推理阶段的操作。在推理阶段，潜在变量和注意力调整（Liu等，2022a；Feng等，2022b；Chefer等，2023；Agarwal等，2023）设计了各种方法来重新分配视觉潜在变量或图像-文本交叉注意力，使文本提示中的所有名词短语都能在生成的图像中得到体现。
(2) 对齐调整。学习额外的模型学习阶段（Black等，2023；Fan等，2023b），通常以图像-文本相似度作为奖励，使得调整后的T2I模型可以更好地遵循文本提示。

推理阶段的操作

使用图像-文本对进行训练，并不能保证T2I模型始终遵循文本提示。尤其是在文本描述冗长复杂的情况下，可能存在很多差异。例如，T2I模型可能会将属性应用于错误的实体或漏掉某些对象，如图3.10所示。直观地说，在推理阶段解析文本查询，并明确地强制T2I模型更加关注每个名词短语，可以生成更好的遵循文本提示的图像。

基于这一直觉，StructureDiffusion（Feng等，2022b）利用解析树来提取名词短语和文本提示的语言结构。然后，该研究强制模型“查看”所有提取的名词短语。这是通过修改（3.1）中引入的SD的交叉注意力机制来实现的，记作 $O = M V$ $ ，其中 M 是softmax交叉注意力图。与使用句子特征 V 生成 M 不同，这可能导致忽略掉一些单词，该研究计算 $O=\frac{1}{k+1} \sum(MV_i)$ ，其中 $V_0$
是句子特征， $V_i$ 是解析树中的短语特征。这种方法确保了视觉流在所有识别的名词短语上保持平衡的注意力，促进了更精确的图像生成。

受相同的目标启发，Attend-and-Excite（Chefer等，2023）操纵注意力图。如图3.11右侧方程所示，计算正则化损失l以增强对最被忽略的主题标记的最大关注：
在这里插入图片描述
其中 G 是用于平滑注意力图的高斯核， $N_{sub}$ 是主题标记的数量。然后，损失用于在推理时更新潜在变量 $z_t$ 。结果表明，这种推理时的引导使T2I模型更多地关注文本提示中描述的对象，从而实现了更好的图像生成。后续研究（Agarwal人，2023）进一步优化引导损失以优化跟随提示的性能。

在这里插入图片描述

调整模型以遵循文本提示

除了在推理时进行操作，我们也可以考虑是否可以优化预训练的T2I模型以更好地遵循文本提示。一个有前途的方法是通过强化学习来实现，使用图像文本相似性作为奖励，而不是主要的T2I训练中使用的图像生成目标。这使得模型能够被优化以更好地对齐图像和文本。

沿着这个方向的一项工作是去噪扩散策略优化（DDPO）（Black等，2023），其调整框架如图3.12所示。具体来说，使用一个视觉语言模型（Li等，2023e）将生成的图像转换为文本描述。然后，将这个生成的标题与输入文本提示进行比较，通过使用 BERTScore（Zhang等，2019）得出相似度奖励。然后将相似度奖励用于微调预训练的T2I模型，使模型可以更好地遵循文本提示。图3.12的底部显示了这种基于相似度的训练过程中生成样本的进展。此外，值得注意的是，其他人类意图也可以被格式化为模型调整的奖励，例如可压缩性、美观度等。

在这里插入图片描述

总结和趋势

在这部分，我们介绍了旨在增强 T2I模型更好地遵循文本提示的能力的研究。尽管推理时的操作取得了良好的性能，但对齐调整提供了更直观的用户体验，消除了对额外修改的需求。与指令调整大型语言模型（LLM）以对齐人类意图进行文本生成类似，T2I模型的调整具有类似的目标，但关注于图像生成。
我们预见在不久的将来，将会出现类似的范式应用于生成式T2I基础模型开发。具体而言，初始训练阶段仍然依赖于现有的大规模数据上的图像生成目标，而随后的对齐调整阶段增强了模型对提示的遵守和其他的人类意图，例如减少有害内容。当前的基于强化学习的方法显示出潜力，但它们通常专注于单一的优化目标。未来的研究可以扩展这些方法，以实现更灵活的对齐调整，以适应多样化的图像和文本场景。

3.5 视觉概念定制（Concept Customization）

尽管语言是表达人类意图的强大媒介，但它在全面描述视觉概念的所有细节方面效率较低。例如，使用文本来详细地描述我的宠物狗或家庭成员的细节，以便它们可以在不同的视觉场景中生成，是具有挑战性的。在这种应用中，直接通过图像输入扩展T2I模型以理解视觉概念是更好的选择。

我们回顾了关于视觉概念定制的相关研究，该研究为用户提供了生成这些个性化概念的能力。
(1) 早期的研究（Gal等，2022；Ruiz等，2023；Wei等，2023）涉及测试时微调的单一概念定制，将视觉概念的多个图像编码成新的标记 token 嵌入，从而可以在T2I生成期间使用学到的嵌入来引用该概念。
(2) 多概念定制（Kumari等人，2023；Avrahami等人，2023a）允许从T2I模型的标记词汇中扩展多个概念标记，使多个概念可以在生成过程中相互交互并与其余的视觉场景互动。
(3) 测试时微调要求用户为每个新概念进行T2I模型的微调以进行定制。为了简化使用，研究（Chen等，2022f；Shi等，2023a；Chen等，2023f；Yang等，2023a）探索了无需测试时微调的定制，使用统一的微调阶段扩展T2I模型，以接受图像条件输入。这些模型将视觉概念的图像作为额外的输入条件，并按照文本描述生成带有视觉概念的图像。

单一概念定制

视觉概念定制的目标是使T2I模型能够理解针对非常特定情况量身定制的附加视觉概念。文本倒置（Textual Inversion，Gal等人，2022）中研究的问题设置中，涉及将视觉概念从少数图像中的视觉概念翻译成唯一的标记嵌入。如图3.13左侧所示，T2I模型处理四幅不同狗品种的图像，随后学习了一个新标记的嵌入，表示为[V]。这个[V]标记可以作为文本标记使用，以表示这种特定的狗。[V]标记可以与其他文本描述无缝集成，以在各种情境中呈现特定的狗，比如在游泳、在桶里和理发时。

Gal 等 (2022) 的 Textual Inversion 方法通过通过前缀调整学习了 [V] token 的嵌入，即冻结所有 T2I 模型的参数，并训练 [V] token 来生成输入图像。后来的研究表明，调整更多的模型参数可以显著提高图像生成的质量。然而，只调整输入图像可能会导致 T2I 模型过度拟合特定概念，并失去生成多样化图像的能力。例如，模型可能无法生成各种类型的狗。为了解决这个问题，Dreambooth (Ruiz 等, 2023) 提出了类别特定的先验保留损失（class-specific prior preservation loss）。该方法的核心是使用预训练的 T2I 模型来生成与目标定制概念同类的图像。然后，模型在输入图像（带有 [V] token）和模型生成的图像（没有 [V] token）上进行联合微调。这样可以确保模型能够区分独特的“[V] dog”和其他它最初训练的一般的狗，从而保持其整体的 T2I 能力。Dreambooth 然后微调路所有 T2I 模型的参数，并实现了更好的图像生成质量。

在这里插入图片描述

多概念定制

基于专注于学习单一视觉概念[V]的研究，最近的研究探讨了将多个视觉概念集成到一个单一的文本到图像（T2I）模型中的可能性，表示为[V1]、[V2]等。Custom Diffusion（Kumari等，2023）采用了模型权重的选择性子集，特别是来自多组概念图像的从文本到潜在特征的交叉注意力层中关键和值映射。该研究有助于将多个定制的视觉概念嵌入到单个文本提示中。Break-A-Scene（Avrahami等，2023a）探索了从单一图像中提取多个视觉概念的可能性。该研究使用分割掩码增强输入图像，以精确定位目标概念，然后将其转换为一系列概念嵌入，表示为[Vi]。

无需测试时微调的定制化

虽然上面描述的概念定制研究已经实现了良好的视觉质量，但测试时微调的必要性阻碍了其在实际场景中的应用。大多数最终用户和应用平台缺乏测试时进行微调所需的计算资源，更不用说微调过程的复杂性了。这自然引发了一个问题：我们能否将概念图像作为输入条件，无需微调就能实现概念定制？

所设想系统的输入/输出格式与检索增强生成（retrieval-augmented generation，Chen等，2022f），其目的是通过以检索到的相似图像为条件来简化图像生成过程。该系统支持包含与生成过程相关的信息的额外图像输入。通过在训练阶段改变条件图像，模型可以潜在地实现广泛的上下文学习功能，生成与给定输入示例对齐的图像。在此框架下，SuTI（Chen等，2023f）训练一个单一模型来模仿微调后的特定主题专家，并生成以文本和主题输入图像为条件的图像，如图3.14所示。因此，训练后的模型可以在上下文中执行概念定制化而无需测试时微调，并且可以推广到未见过的主题和描述的情况。另一项工作InstantBooth（Shi等，2023a）也展示了在生成不仅与语言对齐而且保留身份的图像方面取得了的成果，只需一次前向传播。

在这里插入图片描述
Figure 3.14:Illustration of in-context concept customization without test-time finetuning. Image credit: Chen et al., 2023f.

总结和趋势

视觉概念定制领域已经从测试阶段的微调嵌入发展到直接使用冻结模型进行上下文图像生成。融入额外图像输入的上下文生成流程在实际应用中显示出了显著的潜力。
在本小节中，我们探索了这种方法的两个应用：通过检索相关图像来促进生成（Chen等，2022f），以及通过在主题图像上进行条件设置来个性化视觉概念（Chen等，2023f；Shi等，2023a）。一个有趣的方向是统一描述性文本指令指导的各种图像输入的使用，我们将在下节中详细阐述。

3.6 趋势：统一调整以实现与人类对齐

在前面的主题中，我们介绍了与调整T2I模型以更准确地符合人类意图相关的文献。这包括增强空间可控性、编辑现有图像以改善对齐、更有效地遵循文本提示，以及针对新的视觉概念的个性化T2I模型。从这些主题中观察到的一个趋势是，向综合对齐解决方案发展，使针对特定问题需要的调整最少。
沿着这个方向，我们设想未来的T2I模型具有一个统一的的对齐调整阶段，将预训练的T2I模型转化为更密切符合人类意图的模型。这样的模型可以无缝地处理文本和图像输入，生成所需的视觉内容，而无需多个模型以针对不同的对齐挑战。
与 LLM 开发中已经精力的人类意图对齐调整的实践相似，我们预计在本节中综述的技术将融入到生成基础模型开发的第二阶段调整中。这个对齐调整阶段有两个主要目的：首先，它扩展了T2I的文本输入，包括交错的图像文本输入，如图3.15所示。其次，通过使用旨在与人类期望对齐的数据、损失和奖励来微调基础T2I模型，该模型使用图像生成损失进行训练。

在这里插入图片描述
图3.15：人类对齐的统一图像和文本输入界面概述，以及与前面各节的联系

统一的图像和文本输入

我们从讨论界面统一开始。具体来说，我们的目标是将T2I模型的文本输入演变为一个多模态界面，无缝地集成图像和文本输入。如图3.15所示，我们考虑三种类型的输入：内容文本输入，描述要生成的视觉场景；图像输入，容纳密集的2D输入，如图像和密集条件；指令文本输入，解释如何将输入的内容文本和图像共同组合成生成条件。

如图3.15的第一行所示，普通的 T2I模型接受图像描述的“内容文本输入”，并生成相应的图像。对于第3.2节中的空间可控生成，可以通过扩展文本单词来指定额外的空间条件，或者通过将密集的空间条件通过图像输入进行指定。对于第3.3节中的基于文本的编辑，我们研究了文本指令编辑的有效性，这是一项微调T2I模型以理解编辑指令文本的任务，这些指令文本会操作图像输入，相应地改变其像素值。对于第3.5节中的视觉概念定制，现在无需训练模型就可以理解个性化指令，以从图像输入中提取视觉概念，并将该概念与上下文文本输入结合起来生成图像。

结合输入界面的这三个元素，设想的对齐调整 T2I模型可以处理第3.2-3.5节中描述的所有先前任务。它的行为由特定的文本指令控制，这些指令规定了图像和文本输入应该如何共同处理作为生成条件。给定相同的图像输入，不同的文本指令可以调用不同的任务：“生成具有相同布局的猫图像”用于空间控制，“改变狗的颜色”用于编辑，“生成相同的狗睡觉”用于概念定制，以及现有模式的任意混合。

在生成基础模型中实现这样一个统一的界面可能是可能的，通过对包含来自各种任务的数据的合并数据集进行训练，类似于LLM中观察到的监督指令调整取得的成功。此外，从处理单个图像-文本对过渡到处理交错的图像-文本对，可以实现更有趣的功能，如上下文的视觉演示（Sun等，2023b）。另一个有趣的方向是构建一个生成模型，该模型能够从任何输入模式的组合中生成输出模式的任何组合，如语言、图像、视频或音频，就像可组合扩散（CoDi）（Tang等，2023b）中所展示的那样。

使用对齐损失和奖励进行调整

除了统一的输入界面外，另一个值得考虑的要素是对齐损失和奖励。如第3.4节所述，基于图像-文本对的图像生成损失，使模型能够生成与目标数据分布相匹配的图像。然而，它并不总是与人类意图完全对齐，这让人联想起 LLM 训练中的语言模型损失，需要一个单独的对齐调整阶段（Ouyang等，2022）。
最近在监督指令调整和人类反馈方法的强化学习（Black等，2023）在图像生成方面的成功，提供了类似的对齐调整工具，可以在生成基础模型中进行有效利用。在未来探索中一个有趣的话题是，如何平衡不同的目标损失和奖励，例如联合优化以获得更高的美学分数、更好的图像-文本对齐、更少的有害内容、更强的指令尊从性，以及许多其他期望的属性。

多模态内容理解和生成闭环的集成

展望未来，一个充满希望的研究方向是多模态内容理解和生成之间的闭环集成。初步研究表明，使用合成数据从理解中受益（Li等，2023a；He等，2022b），反之亦然。一个令人兴奋的前景是开发一个图像-文本输入、图像-文本输出的基础模型，用于理解和生成任务。理想的平衡以及实现这种平衡的最有效方法是未来探索的目标。

展望未来，一条充满前景的研究途径是多模态内容理解和生成的闭环集成。初步研究表明，使用合成数据来促进从理解到生成（Li等，2023a；He等，2022b），反之亦然。一个令人兴奋的前景是开发一个具有图像文本输入和图像文本输出的基础模型，用于理解和生成任务。如何在这两个维度上实现理想的平衡，以及实现它的最有效方法，是未来探索的目标。

【本节完，待续】

参考资料：
Chuanyuan Li, Zhe Gan, Zhengyuan Yang, 等, Multimodal Foundation Models: From Specialists to General-Purpose Assistants, Microsoft Corporation, arxiv.org/html/2309.10020 v1

本文是对论文 “Multimodal Foundation Models: From Specialists to General-Purpose Assistants” 的翻译，仅供学习使用。
youcans@xidian 作品，转载必须标注原文链接：
微软报告：多模态基础模型（3）视觉生成【https://blog.csdn.net/youcans/】
Copyright 2024 youcans, XIDIAN
Crated：2024-11