【文献阅读】Attention Bottlenecks for Multimodal Fusion

Abstract

在多模态视频分类中，将各模态的最终表示或预测进行后期融合（“后期融合”）仍然是主流范式。为此，本文提出了一种基于 Transformer 的新型架构，该架构使用“融合瓶颈”在多个层次进行模态融合。与传统的成对自注意力机制相比，该模型强制不同模态之间的信息通过少量的瓶颈潜在变量进行传递，要求模型在每个模态中整理和凝聚相关信息，并共享必要的内容。这种策略在提高融合性能的同时，还减少了计算成本。

Introduction

多模态的挑战：
（i）模态之间的学习动态差异；
（ii）不同的噪声拓扑结构，有些模态流在当前任务中包含比其他模态更多的信息；
（iii）专门化的输入表示。

音频和视觉输入表示之间的差异尤为明显——许多最先进的音频分类方法依赖于短时傅里叶分析生成对数梅尔频谱图，并经常将其作为输入用于为图像设计的 CNN 架构（C-Former）。这些时频表示与图像的分布不同——多个声学对象可以在同一频率上具有能量，而 CNN 的平移不变性在这里可能不再是理想的属性（声学对象可以在时间上发生平移，而频率上的平移则可能完全改变其含义）。相反，视频中的视觉流是三维的（两个空间维度和一个时间维度），虽然图像的不同空间区域对应于不同的对象，但多个帧之间存在高冗余性，这也是一个独特的挑战。因此，输入表示以及神经网络架构和基准测试在不同模态间往往差异巨大。为了简化，多模态融合的主流范式通常采用一种临时的方案，即通过输出表示或分数整合单独的音频和视觉网络，也就是所谓的“后期融合（分数融合）”。
“早期融合”模型允许注意力在图像的不同空间和时间区域之间自由流动，以及在音频频谱图的频率和时间维度之间流动。虽然从理论上具有吸引力，但假设在模型的所有层次进行完整的成对注意力并非必要，因为音频和视觉输入包含了密集、细粒度的信息，其中大部分是冗余的。这样的模型也无法很好地扩展到较长的视频，因为成对注意力与标记序列长度呈二次复杂度增长。

为了解决早期融合的问题，本文提出了两种方法来限制模型中的注意力流动：

第一种方法：遵循多模态学习中的常见范式，即将跨模态的流动限制在网络的后期层次，让早期层专注于学习和提取单模态模式。因此，这被称为“中期融合”（图1，左中），引入跨模态交互的层被称为“融合层”。我们将这种方法与“早期融合”（所有层都为跨模态）和“后期融合”（所有层都为单模态）这两个极端版本进行了对比。
第二个想法：（也是主要贡献）是限制层内标记之间的跨模态注意力流动。通过允许模态内部的自由注意力流动，但强制模型在共享信息之前，先从每个模态中整理和“凝聚”信息。核心思想是在层内引入一小组潜在的融合单元，形成一个“注意力瓶颈”，跨模态的交互必须通过这一瓶颈进行。

在这里插入图片描述这种“瓶颈化”的版本命名为Multimodal Bottleneck Transformer（MBT）。贡献包括：

（i）MBT通过紧密的融合“瓶颈”限制了潜在单元之间的跨模态信息流动，迫使模型在每个模态中收集和“凝聚”最相关的输入（因此只分享必要的信息与其他模态）。这避免了完整成对注意力的二次扩展成本，并以更少的计算实现了性能提升；
（ii）将 MBT 应用于图像和频谱图块（图2），并探讨了与融合层、输入采样和数据规模相关的多种消融；
（iii）在多个流行的音视频基准（包括 AudioSet 、Epic-Kitchens100 和 VGGSound ）上设定了视频分类的新标准。在 Audioset 数据集上，性能超过了当前的最新水平，平均精度提升了5.9 mAP（相对提升12.7%）。
在这里插入图片描述