ICAFusion: Iterative cross-attention guided feature fusion for multispectral object detection
摘要:
多光谱图像的有效特征融合在多光谱物体检测中起着至关重要的作用。以往的研究已经证明了使用卷积神经网络进行特征融合的有效性,但由于局部范围特征交互的固有缺陷,这些方法对图像错位很敏感,从而导致性能下降。为解决这一问题,我们提出了一种新颖的双交叉注意变换器特征融合框架,以模拟全局特征交互并同时捕捉跨模态的互补信息。该框架通过查询引导的交叉注意机制增强了物体特征的可辨别性,从而提高了性能。然而,为增强特征而堆叠多个变压器块会产生大量参数和较高的空间复杂性。为解决这一问题,受人类回顾知识过程的启发,提出了一种迭代交互机制,在分块多模态变换器之间共享参数,从而降低模型复杂度和计算成本。
Introduction:
How to effectively borrow complementary information from other modalities ?
多光谱物体检测的性能与特征融合的质量密切相关。传统的融合方法依赖于特征串联或相加,由于有限的局部范围特征相互作用的固有约束,这种方法很容易造成图像错位。受视觉语言任务中跨模态特征表征预训练的启发,我们提出了一种用于多光谱图像特征融合的交叉注意融合变换器来解决这一问题。这种方法旨在捕捉其他模态的互补特征,并专门用于同时增强两个特征分支。此外,我们提出的融合变换器自然得益于其远距离建模特征相互作用,这有助于从其他模式中发现具有区分性的互补信息。单转换器融合方法将每种模态的标记串联起来,并从所有模态信息中计算查询、键、值,与之不同的是,我们提出的方法只从辅助模态的查询中计算跨模态的相关性。
How to efficiently integrate and refine multispectral image features ?
基于变压器的模型因其巨大的计算复杂性而在视觉领域广为人知。此外,大多数现有方法都会堆叠大量区块以提高性能,从而导致计算成本激增。然而,人类在学习新知识后通常会反复复习,这有助于保留所学知识。受此启发,我们提出了一种迭代学习策略。这种方法不仅能根据 RGB 和热敏分支之间的双向特征流交互学习全局互补信息,还能同时迭代完善模式间和模式内的特征表示,从而加强特征信息的判别能力。与堆叠多个区块的标准方法相比,我们提出的迭代学习策略在每个区块中共享参数,提高了模型性能和复杂性之间的平衡。
-提出了一种新颖的双交叉关注特征融合方法
-为高效的多光谱特征融合量身定制了迭代学习策略
Related work:
Attention-based methods:注意机制源于人类视觉研究,在计算机视觉领域得到广泛应用。SENet [23] 提出了一种简单而有效的结构,通过全连接网络学习不同通道之间的权重。受此启发,SKNet [24] 提出了一种动态选择机制,允许每个神经元根据输入信息的多种规模自适应地调整其感受野大小。CBAM [25] 提出了一种轻量级通用模块,可在信道和空间维度上自适应地完善特征。ECANet [26] 提出了一种具有自适应一维卷积的局部跨信道交互策略,该策略只涉及少量参数,却能带来明显的性能提升。最近,CANet [27] 提出了一种有效的特定类别注意力编码模块,它可以学习特定类别的字典来编码类别注意力图。在本文中,我们提出了一种跨模态注意力模块,利用辅助模态的互补信息来增强单模态特征表征。
Transformer for multimodal learning:Transformer 因其在 NLP 和 CV 中的显著性能提升而被应用于多模态任务。多模态交叉注意(Multi-Modality Cross Attention,MMCA)[28] 被提出用于图像和文本匹配,它在一个统一的深度模型中对图像和句子之间的模态内和模态间关系进行联合建模。TransFusion [29] 为激光雷达-相机融合提供了一种稳健的解决方案,它采用软关联机制来处理劣质图像条件。Botach 等人[30] 提出了一种多模态跟踪转换器架构,它将引用视频对象分割任务建模为序列预测问题。通过引入与任务相关的标记和新颖的斑块-任务-注意机制,开发了一种基于标记的多任务解码器 [31],用于 RGB-D 突出物体检测方法。Li 等人[32]提出了一种基于变换器的 RGB-D 以自我为中心的动作识别框架,并利用自我注意对不同模态数据的时间结构进行建模。Xiao 等人[33]设计了五个特定属性的融合分支,在 RGB-T 追踪的各种挑战下整合 RGB 和热特征,并通过增强融合变换器强化了聚合特征和特定模态特征。这些研究证明,变换器在各种多模态任务中都很有效。本文将 Transformer 引入多光谱物体检测,旨在从全局角度更好地收集 RGB 和热模式之间的互补信息。
The proposed method:
Architecture:
如图 2 所示,所提出的方法是一种双分支骨干网络,专门用于从 RGB - 热图像对中提取特征。我们的方法主要包括三个阶段:单模态特征提取、双模态特征融合以及颈部和头部检测。单模态特征提取首先独立用于 RGB 和热图像。
Dual-modal feature fusion (DMFF):
图 3 展示了双模态特征融合(DMFF)模块的结构,它主要包括三个组成部分:空间特征缩减(SFS)模块、迭代跨模态特征增强(ICFE)模块以及与 NIN 融合的双模态特征融合模块。
Cross-modal feature enhancement (CFE):
与以往捕捉不同模态局部特征的研究不同,所提出的 CFE 模块可使单模态从全局角度学习更多辅助模态的互补信息。所提出的 CFE 模块不仅能检索出 RGB 模态和热模态之间的互补关系,还克服了跨模态特征长程依赖建模的不足。
给定输入特征图 F R 和 F T ∈ RH×W ×C 2 ,首先将每个特征图扁平化为一组标记,并添加一个可学习的位置嵌入,这是一个维度为 H W × C 的可训练参数,用于编码不同标记之间的空间信息。然后,我们可以得到一组带有位置嵌入的标记 T R、T T∈ RHW ×C,作为 CFE 模块的输入。由于 RGB 和热图像对通常不是完全对齐的,因此我们采用双 CFE 模块来获取互补信息,分别用于增强 RGB 和热特征。两个 CFE 模块之间不共享参数。在图 3中,我们只说明了热分支的 CFE 模块,以方便理解,其公式为公式如下。
通过点积运算建立相关性矩阵,然后用软最大值函数对相关性得分进行归一化处理,这代表了 RGB 和热模式不同特征之间的相似性。然后,将相关性矩阵与向量 V T 相乘,就得到了向量 ZT。 通过非线性变换将矢量 ZT 重投射回原始空间,并通过残差连接添加到输入序列中,其中 W O ∈ RC×C 表示 FFN 层之前的输出权重矩阵。为了进一步完善全局信息,提高模型的鲁棒性和准确性,我们采用了与标准变压器相同的具有两个全连接层的前馈网络 (FFN),并输出增强特征 ̂ T T。受 [40] 的启发,我们在残差连接的每个分支上应用可学习系数,自适应地学习不同分支的数据,以实现性能增益,其中 α、β、γ、δ 是训练时初始化为 1 的可学习参数。
Spatial feature shrinking (SFS):
虽然融合中使用的初始特征图使用骨干网进行了降采样,但模型的参数和内存成本仍然大大超出了标准处理器的运行要求。为了在减少特征图信息损失的同时降低模块的后续计算成本,我们在压缩特征图的 CFE 模块之前应用了 SFS 模块。在该模块中,我们尝试了两种不同的卷积和池化操作方法,具体如下。
卷积操作。我们首先设计了一种基于卷积运算的降维方法,如式(10)所示。具体来说,我们通过重塑特征图的维度,将特征的空间信息转换为信道维度,然后用 1 × 1 卷积运算压缩信道维度。
池化操作。平均池化和最大池化是两种传统的池化方法,常用于降低特征图的空间维度,无需额外参数。平均池化计算池化区域内所有元素的平均值,保留图像中的背景信息;而最大池化考虑池化区域内的最大元素,主要保留物体的纹理特征。因此,我们受混合池法的启发,采用了一种自适应地将平均池法和最大池法集合在一起的方法,如式所示。
与原始特征图的维度 H × W × C 相比,压缩后的特征图的维度为 (H ×W ) ∕ S ×C,令牌的维度从 HW × C 降为 HW ∕ S × C。因此,CFE 模块中的键、查询和值的维度变为 K、Q、V ∈ R HW ∕ S×C 。最后,总计算复杂度从 O(W 2H2 ×C +8W H ×C2) 降为 O(W 2H2∕ S2 ×C +8W H∕ S × C 2)。
Iterative cross-modal feature enhancement (ICFE):
为了加强对模态间和模态内特征互补信息的记忆以进一步提高模型性能,我们在 CFE 模块的基础上引入了一种迭代学习策略,并将其命名为 ICFE 模块。如图 4(a)所示,传统方法一般通过堆叠多个模块来提高性能,但这种大幅扩展模型深度的策略不仅会显著增加参数,还会导致过度拟合。相反,我们提出的迭代学习策略通过多次迭代加深网络深度,并共享参数,在不增加参数数量的情况下逐步完善不同模态的互补信息,如图 4(b) 所示。以 n 次迭代为例,可简化如下:
每个迭代操作的输出都用作下一个迭代操作的输入,每个迭代操作之间共享参数。此外,ICFE 模块的输出序列 ̂ Tn R 和 ̂ Tn T 首先被转换为特征图,然后通过双线性插值重新校准为原始大小的特征图。