2024多模态大模型发展调研

随着生成式大语言模型应用的日益广泛，其输入输出模态受限的问题日益凸显，成为制约技术进一步发展的瓶颈。为突破这一局限，本文聚焦于研究多模态信息的协同交互策略，旨在探索一种能够统一理解与生成的多模态模型构建方法。在此基础上，深入研究可控的混合多模态信息生成技术，力求揭示多模态语义层次间的隐含关系，从而实现对生成内容的精准编辑。此外，本文还致力于构建具备强时空一致性的多模态混合输出生成式模型，以期实现时序一致的长视频生成，并在复杂的音视频内容理解与生成任务中进行实践应用验证，为推动多模态大模型技术的全面发展贡献力量。

1.生成式模型输入输出模态受限

对于现有的大语言模型，一方面，其大多局限于关注于某种单一模态信息的处理，而缺乏真正「任意模态」的理解；另一方面，其都关注于多模态内容在输入端的理解，而不能以任意多种模态的灵活形式输出内容。

text -> text ：GPT-3.5, LLaMa, 百川

text -> image ：Dalle3，Midjourney

text -> audio ：sunoAI

text + image -> video : 可灵AI

text + image -> text: GPT-4, 文心一言

NExT-GPT：实现输入到输出「模态自由」, NUS华人团队开源

What Makes Multimodal Learning Better than Single (Provably)

从泛化角度解释多模态优越性的第一个理论处理，制定了一个多模态学习框架，该框架在实证文献中得到了广泛的研究，以严格地理解为什么多模态优于单模态，因为前者可以获得更好的隐空间表示。

本文基于一种经典的多模态学习框架，即无缝进行潜空间学习（Latent Space Learning）与任务层学习（Task-specific Learning）。具体地，首先将异构数据编码到一个统一潜空间 $\mathcal{Z}$ ，对应的映射函数族为 $\mathcal{G}$ ，要寻找的最优的映射是 $\mathcal{g}^*$ 。接着，潜空间的表示再经过任务层的映射被用于指定任务中，映射的函数族为 $\mathcal{H}$ ，其中最优映射为 $\mathcal{h}^*$ 。

2.多模态信息协同交互策略

深度学习中多模态的融合策略

在深度学习中，多模态（multimodal）融合策略用于集成来自不同模态的数据，以提升模型的性能和泛化能力。多模态数据可以包括文本、图像、音频、视频、传感器数据等，通过有效融合这些不同类型的数据，能够从中提取更丰富和全面的信息。以下是几种常见的多模态融合策略：

早期融合（Early Fusion）
晚期融合（Late Fusion）
中期融合（Intermediate Fusion）
混合融合（Hybrid Fusion）
基于注意力机制的融合（Attention-based Fusion）
基于图神经网络的融合（Graph Neural Networks-based Fusion）
联合学习（Joint Learning）

3.统一理解与生成的多模态模型构建方法, 探索统一理解与生成的多模态模型构建方法

LaVIT 将文本和视觉两种模态以统一的形式表示，以便复刻 LLM 的学习方法——下一个 token 预测，模型如图所示。

给定一对图像和文本，图像被分词成离散 token，并与文本 token 连接形成多模态序列。然后，LaVIT 在统一的生成目标下进行优化

视觉分词器：将非语言图像转换为 LLM 可以理解的输入。视觉分词器接收预训练的视觉编码器的视觉特征，并输出一系列具有类似词汇高级语义的离散视觉 token。

通过精心设计的分词器，视觉输入可以与文本 token 集成，形成一个多模态序列，然后在统一的自回归训练目标下输入到 LLM 中。

Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization

AnyGPT，一种 any-to-any 的多模态大语言模型。采用离散的表征统一处理语音、文本、图像和音乐等多种不同模态信号。文章构建了一个多模态，以文本为中心的数据集 AnyInstruct-108k。该数据集利用生成模型合成，是一个大规模多模态指令数据集。

使用多模态分词器 (tokenizer)，将原始的多模态数据，比如图像和语音，压缩成离散语义 token 的序列。再使用多模态解分词器 (de-tokenizer)，将离散语义 token 的序列转换回原始模态数据。离散表征的好处是能够过滤掉高频的，特定于模态的感知信息，同时保留基本的低频语义信息。架构层面，继承现有的 LLM 架构，无需任何修改。同时允许直接应用现有的 LLM 工具，从而提高训练和推理的效率。AnyGPT 使用 LLaMA-2-7B作为基座模型，它在 2TB 的文本标记上进行了预训练。除了重塑 embedding matrix 和预测层外，其余语言模型保持不变。
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

4.构建强时空一致性的多模态混合输出生成式模型，多模态语义层次的隐含关系

时空一致性（Spatiotemporal Coherency）指的是空间和时间上的连贯性或一致性。在多个领域，如深度学习、神经科学、计算机视觉等，这一概念都有重要的应用。

在计算机视觉领域中，时空连贯性常用于视频分析、运动检测、显著性检测等任务。例如，在显著性检测中，研究者们利用时空连贯性来识别视频中的显著区域，这些区域在时间和空间上都与周围区域存在显著差异。这有助于实现更准确的视频分析和理解。

通过语义分割视频和生成视频音频语音字幕来优先考虑时空一致性。

INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING

数据处理的创新：时空一致性的重要性
在数据处理方面，InternVideo2强调了时空一致性的重要性。通过语义分割视频并生成视频-音频-语音字幕，改进了视频和文本之间的对齐。

视频剪辑的语义分割

为了保持时空一致性，使用AutoShot模型代替传统的SceneDet滤镜来分割视频剪辑。AutoShot基于时间语义变化而不是像素差异来预测边界，从而生成语义完整的剪辑，避免混入不一致的上下文。
视频、音频和语音字幕的生成与融合

在MVid数据集中，视频来自多个来源，包括YouTube和其他匿名来源，以提高数据集的多样性。对于视频数据集，首先保留超过2秒的剪辑。对于超过30秒的视频剪辑，如果剪辑中的片段来自同一镜头，则随机选择一个30秒的片段。此外，还自动为MVid的视觉、音频和语音生成字幕，然后使用LLM校正并融合它们，以便训练使用。

全面盘点多模态融合算法及应用场景

多模态融合（Multimodal Fusion）是指结合来自不同模态（如视觉、听觉、文本等）的数据，以提升信息处理和理解能力的技术方法。多模态数据通常具有不同的物理性质和信息特征，通过融合这些多模态信息，可以获得更全面和准确的理解。这种融合过程可以发生在数据层、特征层和决策层：