【MM-Align】学习基于输运的最优对齐动力学，快速准确地推断缺失模态序列

代码地址 - > github传送

abstract

现有的多模态任务主要针对完整的输入模态设置，即每个模态在训练集和测试集中要么是完整的，要么是完全缺失的。然而，随机缺失的情况仍然没有得到充分的研究。在本文中，我们提出了一种新的方法MM-Align来解决模态缺失推理问题。具体而言，我们提出了1)基于最优传输（OT）理论的对准动力学学习模块，用于间接缺失数据的输入；2)一种去噪训练算法，可同时增强插值结果和骨干网性能。与以往专注于缺失输入重建的方法相比，MM-Align学习捕捉和模仿模态序列之间的对齐动态。在涵盖两个多模态任务的三个数据集上进行的综合实验结果表明，我们的方法可以在各种缺失条件下进行更准确、更快的推理，并减轻过拟合。

intro

近年来，多模态学习的话题空前流行(Ramachandram and Taylor, 2017；Baltrušaitis等人，2018)，从各种机器学习任务，如计算机视觉(Zhu等人，2017；Nam等人，2017)，自然语言处理(Fei等人，2021；Ilharco等人，2021)、自动驾驶（Caesar等人，2020）和医疗保健（Nascita等人，2021）等。尽管在这些领域取得了有希望的成就，但大多数现有的方法都假设训练数据的完整输入模态设置，其中每个模态在训练集和测试集中要么是完整的，要么是完全缺失的（在推理时）(Pham等人，2019；Tang等，2021；Zhao et al ., 2021)，如图1a和1b所示。

在模态输入模式中，训练集和测试集之间的这种协同作用通常与现实情况相距甚远，因为有一部分数据没有并行的模态序列，这可能是由于采集和预处理过程中的噪声污染。换句话说，每种模态的数据更有可能随机缺失（图1c和1d），而不是完全存在或缺失（图1a和1b） (Pham et al, 2019；Tang等，2021；赵等，2021)。基于完整的输入模态设置，关于缺失模态推理的一系列流行的例程是设计附加在主网络上的复杂生成模块，并在完全监督下使用完整的模态数据训练模型。通过最小化自定义重构损失，增强了生成模块的数据恢复（也称为缺失数据输入（Van Buuren, 2018））能力(Pham等人，2019；Wang et al ., 2020；Tang et al ., 2021)，以便在缺失情况下对模型进行测试（图1b）。

然而，我们注意到：

（i）如果训练集中完整模态数据稀缺，可能会发生严重的过拟合问题，尤其是当生成模型较大时（Robb等，2020；Schick和Schütze，2021；Ojha等，2021）；

（ii）基于全局注意力（即，对整个序列的注意力）的填充可能会带来意想不到的噪声，因为真实的对应关系主要存在于时间上相邻的平行信号之间（Sakoe和Chiba，1978）。Ma等（2021）提出利用单位长度的序列表示从输入的完整模态中表示缺失的模态以进行训练。然而，这类方法不可避免地忽视了模态序列之间的时间相关性，并且在下游任务中仅能获得一般的性能。

Q：什么叫基于全局注意力（即，对整个序列的注意力）的填充

A：

好的，我来用更简单的方式解释一下 “基于全局注意力（即，对整个序列的注意力）的填充” 是什么意思。

1. 什么是填充（插补）？

在处理序列数据时，可能会遇到缺失的数据点。填充就是指通过某种方法来估计并填补这些缺失的数据，使得序列完整。

2. 什么是全局注意力？

全局注意力是一种机制，在处理序列数据时，它会同时考虑序列中的所有数据点。也就是说，模型在预测或填补某个缺失值时，会参考整个序列的所有其他数据点，而不仅仅是与之相邻的点。

3. 基于全局注意力的填充是什么意思？

这意味着，当模型试图填补序列中的缺失数据时，它使用全局注意力机制，利用整个序列的信息来估计缺失值。

举个例子：

想象你有一段句子，其中缺了一个单词。基于全局注意力的填充方法会考虑句子中的所有其他单词，试图找出最适合填入缺失位置的单词。

4. 为什么可能会有问题？

在很多实际情况下，序列数据的相关性主要体现在相邻的数据点之间。例如，在时间序列、语音信号或视频帧中，当前时刻的数据通常与前后时刻的数据最相关。

使用全局注意力可能会引入与缺失值关联不大的远距离数据，导致填充值受到噪声影响，无法准确反映真实的缺失数据。

5. 总结

“基于全局注意力的填充”就是在填补缺失数据时，模型对整个序列施加注意力，利用所有数据点的信息来估计缺失值。然而，因为真实的相关性往往存在于时间上相邻的数据点之间，这种方法可能会引入不相关的信息，导致填充结果不理想。

为了缓解这些问题，本文提出了一种新的框架MM-Align，用于对随机缺失的多模态序列进行快速有效的多模态学习。该框架的核心思想是模仿成对情态序列的一些间接但有信息量的线索，而不是直接学习还原缺失的情态。

该框架由三个基本功能单元组成：

1)处理主要任务的骨干网络；

2)基于最优传输算法的对齐矩阵求解器生成上下文窗口式解，该解的部分值为非零；关联元学习器在模态不变的隐藏空间中模拟动力学并进行插值；

3)一种去噪训练算法，该算法对骨干网络和学习者进行优化和合并，使它们能够在缺失模态场景下鲁棒地完成主要任务。

为了实证地研究我们的模型相对于当前的imputation方法的优势，我们对随机缺失条件的两种设置进行了测试，

如图1c和图1d所示，用于所有可能的模态对组合。据我们所知，这是第一个将最优传输和去噪训练应用于缺失模态序列推理问题的工作。

简而言之，这项工作的贡献有三个方面：

•我们提出了一个新的框架来促进缺失模态序列推理任务，其中我们设计了一个基于最优传输理论的对齐动态学习模块和一个去噪训练算法，将其合并到主网络中。

•我们设计了一个损失函数，使动态求解器的上下文窗口式解决方案成为可能。

•我们对来自两个多模态任务的三个公开可用数据集进行了全面的实验。结果和分析表明，我们的方法可以更快、更准确地推断出缺失模态。

related work

多模态学习

多模式学习提高了普遍的注意力，因为它为研究人员打算建模的任务提供了更全面的世界观(Atrey等人，2010；Lahat et al, 2015；Sharma和Giannakos， 2020)。多模态学习中最基本的技术是多模态融合（Atrey et al, 2010），它试图从输入模态中提取与任务相关的信息并将其整合到一个浓缩的代表性特征向量中。传统的多模态融合方法包含了跨模态注意(Tsai et al ., 2018,2019；Han et al ., 2021a)，基于矩阵代数的方法(Zadeh et al ., 2017；Liu et al ., 2018；Liang等人，2019)和不变空间正则化(Colombo等人，2021；Han et al ., 2021b)。

虽然这些方法大多侧重于完整的情态输入，但许多方法考虑了缺失的情态推理情况(Pham等人，2019；Wang et al ., 2020；Ma et al, 2021)也是如此，它通常包含一个生成网络，通过最小化重建损失来估算缺失的表示。然而，缺失模式下的公式仍未得到充分探索，这也是我们在本文中致力于处理的问题。

元学习

元学习是一个热门的研究课题，它关注的是如何将学习方法从有限数量的可见任务推广到更广泛的任务类型。解决这一问题的早期努力是基于比较的，例如关系网络（Sung等人，2018）和基于原型的方法(Snell等人，2017；Qi等，2018；Lifchitz et al, 2019)。其他成就将这个问题重新表述为迁移学习（Sun等人，2019）和多任务学习(Pentina等人，2015；Tian et al ., 2020)，他们致力于从先前的知识中寻求有效的转换，以适应新的看不见的数据，并在手工制作的困难任务上进一步微调模型。在我们的框架中，我们将对齐矩阵作为元学习器的训练目标。结合自适应去噪训练算法，元学习器可以显著提高缺失模态推理问题的预测精度。

方法

问题定义

给定一个多模态数据集，D =

在训练集中，，其中为输入模态序列，m1；m2表示两种模态类型，某些模态输入缺失的概率为p’。根据Ma et al(2021)，我们假设模态m1是完整的，随机缺失只发生在模态m2上，我们称之为受害者模态。因此，我们可以将训练集分为完整和缺失部分，记为, ，其中。

对于验证和测试集，我们考虑两种设置：a)受害者模态完全缺失（图1c），在实验部分中表示为“设置a”；b)受害者模态以相同的概率p’缺失（图1d），记为“设定b”，与Ma et al（2021）一致。我们考虑了两个多模态任务：情感分析和情感识别，其中标签yi分别代表情感值（极性为积极/消极，价值为强度）和情感类别

overview

我们的框架包括一个骨干网络（绿色），一个对齐动态学习器（ADL，蓝色）和一个去噪训练算法，以同时优化学习器和骨干网络。我们重点介绍了作为框架核心功能单元的ADL。为此，ADL采用了基于最优传输理论的对齐矩阵求解器（Villani, 2009），这是一种捕获时间序列之间对齐动态的非参数方法(peyr等人，2019；Chi等人，2021)，以及辅助神经网络来拟合和生成有意义的表示，如§3.4所示。

框架

骨干网

我们的框架的整体架构如图2所示。我们利用MulT (Tsai等人，2019)，这是一种源自Transformer （Vaswani等人，2017）的融合网络作为主干结构，因为我们发现在之前的工作中，它的许多变体在多模态中获得了有希望的结果(Wang等人，2020；Han等，2021a；Tang et al ., 2021)。MulT有两个基本组成部分：单峰自注意编码器和双峰交叉注意编码器。给定模态序列（对于单峰自注意，我们有m1 = m2）作为模型的输入，在将一个特殊的令牌填充到它们的单个头部后，单个变压器层（Vaswani等人，2017）通过多头注意（MATT）和前馈网络（FFN）编码一个序列，如下所示：

其中LN是层归一化。在我们的实验中，我们利用这种骨干结构进行输入模态编码和多模态融合。

输出层

我们提取头部嵌入从融合网络的输出中作为特征进行回归。回归网络为两层前馈网络：

在[·;·;···]是连接操作。采用均方误差（mean squared error， MSE）作为回归任务的损失函数：

对齐动力学学习器（ADL）

该学习器有两个功能模块，分别是对准动态求解器和滤波器，如图2所示。它有学习和解码两种功能模式。当模型在完整的数据（图2中用实线表示）上训练时，ADL工作在学习模式下。当其中一个模态缺失时触发解码模式，这发生在缺失分割的训练时间和整个测试时间（如图2中虚线所示）。

Q：学习和解码两个功能各自有什么作用？

A：

ADL有两个主要功能模块，一个是Solver，一个是Fitter。

Solver负责计算对齐矩阵，这些矩阵能够捕捉不同时间步骤的模态之间的时间相关性。

Fitter用于调整模型参数，以便更好地预测或填补缺失的模态数据。

ADL在两种模式下运行，一个是学习模式，一个是解码模式。

在学习模式下，通过已有的完整模态数据来训练模型。在此过程中，Solver计算出一个对齐矩阵来描述两个模态序列之间的时间相关性。

在解码模式下，当序列中某个模态数据缺失时，触发解码模式。此模式使用训练好的模型来预测或填补缺失的数据。

学习模式

在学习模式下，求解器计算一个对齐矩阵，该矩阵提供了两个模态序列之间的时间相关性信息。与之前的作品类似(peyr等人，2019；Chi等人，2021)，这个问题可以表述为最优运输（OT）任务：

Q：这个公式A和W分别代表什么？我看上面一个都没有出现

A：

A 是一个对齐矩阵，它的作用是为两个模态序列之间的时间点建立对齐关系。在最优传输任务中，A的每个元素表示从模态一的时间点 i 到模态二的时间点 j 的一种“转移”权重。这个矩阵通过优化过程得到，目标是最小化总的成本，该成本由对齐矩阵和成本矩阵 M 的元素对应相乘后求和得到。

在多模态数据处理的上下文中，成本矩阵 M 用来衡量不同模态之间的差异或不相似性。成本矩阵的计算通常基于模态间在相应时间点的特征向量，通过某种距离或相似度测量来定义：

余弦距离：

余弦距离是一种常用来衡量两个向量间夹角的大小的方法，它可以反映出两个向量方向的相似度。

其中，分别是两个模态在时间点 i 和 j 的表示向量。

成本计算：

在成本矩阵 M 中，每个元素的值是基于两个模态在 i 和 j 时间点的向量之间的余弦距离的补数来计算的，即：

这样，相似度越高（即余弦相似度接近 1），成本越低；相似度越低（即余弦相似度接近 0），成本越高。这意味着模型更倾向于将相似度高的时间点对齐，因为这样的对齐成本较低。

事实上，成本矩阵还收到时间窗口K（通常等同于W）的约束，这意味着只有在时间窗口K范围内的时间点 i 和 j 之间的成本会被计算，超出这个范围的时间点对的成本则被设定为无穷大1。

这样的设计反映了一个假设：在时序数据中，时间上相邻的数据点之间存在更强的相关性。

其中，A为隐含路线信息的运输计划（peyr等人，2019），M为成本矩阵。下标ij表示从源模态中的第i个时间戳到目标模态中的第j个时间戳的分量。不同于peyr等人（2019）和Chi等人（2021），允许两个序列的任意两个位置对齐，我们认为在平行时间序列中，时间相关性主要存在于特定时间“窗口”内的信号之间（即jj−ij≤W，其中W为窗口大小）（Sakoe和Chiba， 1978）。此外，成本函数应该与相似度（距离）负相关，作为原始OT问题中的问题设置之一。为了实现这些基本动机，我们借用了障碍函数的概念（Nesterov等人，2018），并将最优运输问题的成本函数定义为：

其中是模态m在时间戳I和cos(·；·)是两个向量的余弦值。我们将展示这种类型的运输成本函数确保上下文窗口风格的对齐解决方案，并在附录c中提供证明。为了解决Eq.(6)，通常的做法是添加一个熵正则化项：

Q：为什么加熵正则化项？

A：

最优传输问题的原始形式旨在找到成本和转移之间权衡的最佳“转移”方案，通常表述为：，其中A是转移矩阵，M是成本矩阵，这个问题可以通过线性规划解决，但在大规模应用中可能非常复杂和计算密集。

熵正则化通过添加一个额外的熵项到目标函数中，从而使问题变得更容易解决，具体修改后的问题形式如下：

其中，作为正则化项，控制熵项的影响强度。

熵正则化引入了一个软化约束的效果，使得问题可以通过更简便的迭代算法（如Sinkhorn算法）快速求解。

唯一解A *可以通过Sinkhorn的算法来计算

Q：A*是在计算什么？

A：A*表示熵正则化最优传输问题的最优解，即对齐矩阵。这个矩阵是在给定成本矩阵M和正则化参数μ的条件下，通过优化含义熵正则化项的目标函数得到的。

通过以下迭代得到向量u和v，直到收敛：

Q：如何理解u和v迭代更新的过程？

A：一般来说，u和v的初始值设置为全1的向量。

使用下面公式交替更新u和v：

这里K是由成本矩阵M通过K = exp(-M/μ)计算得到，exp函数应用于成本矩阵M的每个元素。

一旦u和v更新完成，矩阵A就可以通过以下公式计算：

这里。diag(u)和diag(v)分别是将向量u和v转换为对角矩阵的操作，然后与K相乘，得到调整后的矩阵A，这样就可以确保A的每行和每列的和接近1。

u 和 v 作为缩放因子，可以看作是对每行和每列的概率分布进行正规化的权重。这个过程通过调整权重来达到理想的边缘分布，使得每一行和每一列的和都满足预定的约束（通常是使得行和列的和为1，即保持概率的一致性）。

这种方法的主要优点是可以快速收敛，并且避免了复杂的线性规划计算。同时，加入熵正则化使得解更加稳定和平滑，避免了过于集中或稀疏的传输计划，从而使模型更鲁棒，特别适用于实际应用中数据的不完美和噪声的情况。

在将时间相关性量化为对齐矩阵后，我们强制学习器对这些矩阵进行拟合，以便在解码模式下自动从非受害者模态近似矩阵。具体来说，由门控循环单元（Chung et al, 2014）和线性投影层组成的预测网络以完整模态的共享表示作为输入，输出条目的预测值：

其中是预测网络中参数的集合。是对A *的预测，是对对齐矩阵段的预测，即在当前时间戳i为中心的W半径内跨度的对齐分量。我们计算求解器生成的“真相”与预测之间的均方误差（MSE）来计算拟合损失：

其中，对上下文窗口内的条目进行求和，如果j≤0或j > l，为了更好的可读性，我们定义A * ij = 0。

解码模式

在这种模式下，学习者的行为就像一个解码器，努力为缺失的模态序列生成有意义的替代。学习者首先通过拟合网络解码一个对齐矩阵，该拟合网络的参数在此阶段被冻结。然后，通过对准矩阵与可见序列的线性组合，得到j位置缺失模态的插值：

我们将所有这些向量连接起来，以构造共享空间中缺失模态的插值：

其中通过初始嵌入[CLS]令牌重新赋值。然后将输入结果与完整模态序列一起输入融合网络(Eq.(1) ~(3))，继续后续程序。

去噪训练

受以往数据输入工作（Kyono et al ., 2021）的启发，我们设计了一种去噪训练算法，以同时提高预测精度和输入质量，如图1所示。

首先，我们在训练集的完全分割上对模型进行预热。我们利用两个变压器编码器将输入模态序列x m1和x m2投影到共享特征空间中，表示为Z 1和Z 2。Han等人（2021b），我们使用对比损失（Chen et al 2020）作为正则化项，以强制生成向量z1和z2的相似分布：

其中，对大小为Nb的整批求和，φ为以退火温度τ为超参数的分数函数：

接下来，去噪训练环继续耦合ADL和骨干网。在单个循环中，我们首先训练对齐动态学习器（第9~11行），然后我们在完整分裂（第12~13行）和缺失分裂（第15~17行）上训练骨干网络。由于学习器训练过程使用模态完全分割，并且我们在实验中发现（§4.4），如果学习器和主网络的调优同时发生在每个批次上，则模型的性能几乎保持不变，我们将它们合并到一个循环中（第8~14行），以减少冗余的批处理迭代。

experiments

datasets

我们使用CMU-MOSI （Zadeh等人，2016）和CMU-MOSEI （Zadeh等人，2018）进行情绪预测，使用MELD （Poria等人，2019）进行情绪识别，以创建我们的评估基准。这些数据集的统计数据和预处理步骤可以在附录a中找到。所有这些数据集由三个并行模态序列组成——文本(t)、视觉(v)和声学(a)。在单次运行中，我们提取一对模态，并选择其中一个作为受害者模态，然后我们随机删除所有序列的p 0 = 1−p。这里p是存活率，为了描述方便。我们将测试集预处理为设置A中的图1c（去除所有受害者模态样本）和设置B中的图1d（随机去除受害者模态样本的p 0）。设置B继承自Ma等人（2021），而新增的设置A被视为更严重缺失情况的补充测试用例，可以比较纯归算方法的有效性，丰富鲁棒推理的内涵。我们做了两个实验，随机选择p2f10%；50%g -与Ma等人不同（2021），我们扩大了两个p值之间的差距，以加强这些设置之间的区别。

基线和评估指标

我们将我们的模型与以下相关的强基线进行比较：

•Supervised-Single - trains，并在单个完整模态上测试骨干网络，该模态可视为所有基线的下限（LB）。

•Supervised-Double在一对完全模态上对骨干网进行训练和测试，这可以看作是上界（UB）。

•MFM （Tsai et al ., 2018）在训练时学习可以从其他模态产生的模态特定生成因素，并在测试时基于这些因素推断缺失的模态。

•SMIL （Ma et al ., 2021）通过线性推导缺失模态的顺序表示从学习到的高斯分布中加入加权的聚类中心向量。

•Modal-Trans (Wang et al, 2020；Tang et al ., 2021)建立了循环序列到序列模型，学习双向重建。

表1列出了所有这些模型的特性进行比较。以前的工作依赖于高斯生成或序列到序列的公式来重建受害者模态或其顺序表示，而我们的模型没有采用这些架构。我们在5个不同的分割下运行我们的模型，并报告平均性能。培训详情见附录B。

我们在以下指标上比较了这些模型：对于情绪预测任务，我们使用平均绝对误差（MAE）来量化预测值偏离基本事实的程度，以及二元分类精度（Acc-2）来计算正确分类为正/负类别的样本比例；对于情绪识别任务，我们比较了七个情绪类别的平均F1分数。

结果

由于三个数据集的特殊性，当这些基线中的大多数产生的结果比表2、3和4中的下界高1%时，我们报告了最小p值的结果。

首先，与下限相比，在只使用非受害者模态测试模型的设置A中，我们的方法在CMUMOSI和CMU-MOSEI数据集上的精度提高了6.6%~9.3%,2.4%~4.9%，在MELD数据集上的精度提高了0.6%~1.7%(除A！V和A!T)。此外，MM-Align在大多数情况下明显优于所有基线。这些事实表明，利用局部对齐信息作为间接线索有助于对缺失模态进行鲁棒推断。

其次，当非受害者形态发生变化时，模型性能变化很大。有人指出，三种模式在多模式任务中发挥的作用并不相同（Tsai et al ., 2019）。其中，文本通常是对准确率贡献最大的主要形式，而视觉和声学对模型性能的影响较弱。从结果可以看出，当源模态占主导地位时，模型的性能更接近甚至超过上界，这表明优势模态比其他模态更能提供更丰富的线索来促进动态学习过程。

第三，当通过在测试集中增加非受害者模态的平行序列从设置A移动到设置B时，结果在大多数设置中趋于恒定。直观地说，如果提供更多的并行数据，性能应该会变得更好。然而，由于这些模型大多是统一的，并且必须学会将恢复/输入模块与骨干网络耦合起来，因此分类器不可避免地陷入了应该更适应真实并行序列还是混合序列的困境，因为两者在一个训练时期都是包含模式的。因此，有时设置B并不会明显优于设置a。特别是，我们发现当Modal-Trans遇到过拟合时，MM-Align可以缓解这种趋势，如T！A在所有三个数据集中。

此外，MM-Align在训练中获得3~4倍的加速。我们在附录D和E中记录了时间消耗并提供了详细的分析。

消融实验

在设置A中，我们对从CMU-MOSI数据集中随机选择的三个模态对在以下条件下运行我们的模型：1)去除作为不变空间正则化器的对比损失；2)去除拟合损失，使ADL在推理模式下运行时只生成随机对齐矩阵；3)将图1中同时优化滤波器和骨干网的完全分割上的单次迭代（SI）分离为两个独立的环路。实验结果如表5所示。我们发现在去除对比损失后，性能下降，如果禁用ADL，性能下降更大，这意味着基于对齐动态的泛化过程在模态不变隐藏空间上的好处。最后，合并两个优化步骤不会导致性能下降。因此，为了避免额外的数据集迭代，将去噪循环设计为Alg. 1更省时。

分析

窗口大小的影响

为了进一步探索窗口大小的影响，我们通过将窗口大小从4增加到256来运行我们的模型，这超过了所有句子的长度，以便所有时间戳都被窗口包围。在此过程中MAE和F1的变化如图4所示。在最优尺寸两侧有下降趋势（MAE增量或F1减量）。我们认为，这是因为当窗口扩展时，新包含的帧更有可能增加噪声，而不是提供有价值的对齐信息。一开始，边际效益是巨大的，所以性能几乎一直在攀升。当边际效益减小到零时达到最优尺寸

为了解释这一说法，我们从CMU-MOSI数据集中随机选择一个原始示例。如图3所示，文本表达并不是匀速前进的。从第二个单词到第三个单词耗时1.80秒，而最后8个单词仅耗时2.53秒。直观地，我们可以假设视频中跨越一个单词发音的所有帧都与该单词有因果关系，因此从单词到这些帧的表示映射是必要的，并且可以有利于下游任务。例如，对于在文本中t = 1时出现的单词“I”，它可以使时间戳受益，直到至少在视觉形态中t = 5。请注意，我们可能会忽略一些潜在的优势，这些优势不容易以这种方式证明，并且具有不同的影响范围，但我们认为，随着窗口大小的不断增大，这些优势可能会明智地消失。

结论

在本文中，我们提出了一个快速有效的缺失模态推理框架MM-Align。应用最优输运理论，学习时间模态序列之间的对齐动态，以便在模态序列缺失的情况下进行推理。在三个数据集上的实验表明，MMAlign可以获得更好的性能，从而揭示了我们的方法具有更高的鲁棒性。

我们希望我们的工作能对这一领域的其他研究工作有所启发。

局限性

尽管我们的模型成功地解决了两个缺失的模式，但在更复杂的情况下，它仍然可能失败。例如，如果缺失在帧（单峰剪辑中的一些时间戳）而不是实例（整个单峰剪辑）方面随机发生，那么我们提出的方法就不能直接用于处理问题，因为我们需要至少几个完整并行数据的实例来学习如何从一个模态序列映射到另一个模态序列。然而，我们相信这些类型的问题仍然可以通过添加一些数学工具，如插值等来妥善解决。我们将把这个想法作为我们今后工作的方向。

此外，我们的框架在其他多模态任务上的泛化能力还不清楚。

但至少我们知道可行性高度依赖于目标任务的类型，特别是输入格式——它们必须是并行序列，以便利用这些序列之间的时间对齐信息。缺失的模式应该类似于我们在第2节中描述的模式，正如我们在第一段中讨论的那样。