【Attention】ICAFusion:用于多光谱物体检测的迭代交叉注意引导的特征融合

ICAFusion: Iterative cross-attention guided feature fusion for multispectral object detection

摘要:

        多光谱图像的有效特征融合在多光谱物体检测中起着至关重要的作用。以往的研究已经证明了使用卷积神经网络进行特征融合的有效性,但由于局部范围特征交互的固有缺陷,这些方法对图像错位很敏感,从而导致性能下降。为解决这一问题,我们提出了一种新颖的双交叉注意变换器特征融合框架,以模拟全局特征交互并同时捕捉跨模态的互补信息。该框架通过查询引导的交叉注意机制增强了物体特征的可辨别性,从而提高了性能。然而,为增强特征而堆叠多个变压器块会产生大量参数和较高的空间复杂性。为解决这一问题,受人类回顾知识过程的启发,提出了一种迭代交互机制,在分块多模态变换器之间共享参数,从而降低模型复杂度和计算成本。

Introduction:

        How to effectively borrow complementary information from other modalities ?

        多光谱物体检测的性能与特征融合的质量密切相关。传统的融合方法依赖于特征串联或相加,由于有限的局部范围特征相互作用的固有约束,这种方法很容易造成图像错位。受视觉语言任务中跨模态特征表征预训练的启发,我们提出了一种用于多光谱图像特征融合的交叉注意融合变换器来解决这一问题。这种方法旨在捕捉其他模态的互补特征,并专门用于同时增强两个特征分支。此外,我们提出的融合变换器自然得益于其远距离建模特征相互作用,这有助于从其他模式中发现具有区分性的互补信息。单转换器融合方法将每种模态的标记串联起来,并从所有模态信息中计算查询、键、值,与之不同的是,我们提出的方法只从辅助模态的查询中计算跨模态的相关性

         How to efficiently integrate and refine multispectral image features ?

        基于变压器的模型因其巨大的计算复杂性而在视觉领域广为人知。此外,大多数现有方法都会堆叠大量区块以提高性能,从而导致计算成本激增。然而,人类在学习新知识后通常会反复复习,这有助于保留所学知识。受此启发,我们提出了一种迭代学习策略这种方法不仅能根据 RGB 和热敏分支之间的双向特征流交互学习全局互补信息,还能同时迭代完善模式间和模式内的特征表示,从而加强特征信息的判别能力。与堆叠多个区块的标准方法相比,我们提出的迭代学习策略在每个区块中共享参数,提高了模型性能和复杂性之间的平衡。 

        -提出了一种新颖的双交叉关注特征融合方法

        -为高效的多光谱特征融合量身定制了迭代学习策略

 Related work:

        Attention-based methods:注意机制源于人类视觉研究,在计算机视觉领域得到广泛应用。SENet [23] 提出了一种简单而有效的结构,通过全连接网络学习不同通道之间的权重。受此启发,SKNet [24] 提出了一种动态选择机制,允许每个神经元根据输入信息的多种规模自适应地调整其感受野大小。CBAM [25] 提出了一种轻量级通用模块,可在信道和空间维度上自适应地完善特征。ECANet [26] 提出了一种具有自适应一维卷积的局部跨信道交互策略,该策略只涉及少量参数,却能带来明显的性能提升。最近,CANet [27] 提出了一种有效的特定类别注意力编码模块,它可以学习特定类别的字典来编码类别注意力图。在本文中,我们提出了一种跨模态注意力模块,利用辅助模态的互补信息来增强单模态特征表征。 

        Transformer for multimodal learning:Transformer 因其在 NLP 和 CV 中的显著性能提升而被应用于多模态任务。多模态交叉注意(Multi-Modality Cross Attention,MMCA)[28] 被提出用于图像和文本匹配,它在一个统一的深度模型中对图像和句子之间的模态内和模态间关系进行联合建模。TransFusion [29] 为激光雷达-相机融合提供了一种稳健的解决方案,它采用软关联机制来处理劣质图像条件。Botach 等人[30] 提出了一种多模态跟踪转换器架构,它将引用视频对象分割任务建模为序列预测问题。通过引入与任务相关的标记和新颖的斑块-任务-注意机制,开发了一种基于标记的多任务解码器 [31],用于 RGB-D 突出物体检测方法。Li 等人[32]提出了一种基于变换器的 RGB-D 以自我为中心的动作识别框架,并利用自我注意对不同模态数据的时间结构进行建模。Xiao 等人[33]设计了五个特定属性的融合分支,在 RGB-T 追踪的各种挑战下整合 RGB 和热特征,并通过增强融合变换器强化了聚合特征和特定模态特征。这些研究证明,变换器在各种多模态任务中都很有效。本文将 Transformer 引入多光谱物体检测,旨在从全局角度更好地收集 RGB 和热模式之间的互补信息。

The proposed method:

Architecture:

 

        如图 2 所示,所提出的方法是一种双分支骨干网络,专门用于从 RGB - 热图像对中提取特征。我们的方法主要包括三个阶段:单模态特征提取双模态特征融合以及颈部和头部检测。单模态特征提取首先独立用于 RGB 和热图像。

Dual-modal feature fusion (DMFF):

        图 3 展示了双模态特征融合(DMFF)模块的结构,它主要包括三个组成部分:空间特征缩减(SFS)模块迭代跨模态特征增强(ICFE)模块以及与 NIN 融合的双模态特征融合模块。

Cross-modal feature enhancement (CFE): 

        与以往捕捉不同模态局部特征的研究不同,所提出的 CFE 模块可使单模态从全局角度学习更多辅助模态的互补信息。所提出的 CFE 模块不仅能检索出 RGB 模态和热模态之间的互补关系,还克服了跨模态特征长程依赖建模的不足。 

        给定输入特征图 F R 和 F T ∈ RH×W ×C 2 ,首先将每个特征图扁平化为一组标记,并添加一个可学习的位置嵌入,这是一个维度为 H W × C 的可训练参数,用于编码不同标记之间的空间信息。然后,我们可以得到一组带有位置嵌入的标记 T R、T T∈ RHW ×C,作为 CFE 模块的输入。由于 RGB 和热图像对通常不是完全对齐的,因此我们采用双 CFE 模块来获取互补信息,分别用于增强 RGB 和热特征。两个 CFE 模块之间不共享参数。在图 3中,我们只说明了热分支的 CFE 模块,以方便理解,其公式为公式如下。

通过点积运算建立相关性矩阵,然后用软最大值函数对相关性得分进行归一化处理,这代表了 RGB 和热模式不同特征之间的相似性。然后,将相关性矩阵与向量 V T 相乘,就得到了向量 ZT。 通过非线性变换将矢量 ZT 重投射回原始空间,并通过残差连接添加到输入序列中,其中 W O ∈ RC×C 表示 FFN 层之前的输出权重矩阵。为了进一步完善全局信息,提高模型的鲁棒性和准确性,我们采用了与标准变压器相同的具有两个全连接层的前馈网络 (FFN),并输出增强特征 ̂ T T。受 [40] 的启发,我们在残差连接的每个分支上应用可学习系数,自适应地学习不同分支的数据,以实现性能增益,其中 α、β、γ、δ 是训练时初始化为 1 的可学习参数。

 Spatial feature shrinking (SFS):

        虽然融合中使用的初始特征图使用骨干网进行了降采样,但模型的参数和内存成本仍然大大超出了标准处理器的运行要求。为了在减少特征图信息损失的同时降低模块的后续计算成本,我们在压缩特征图的 CFE 模块之前应用了 SFS 模块。在该模块中,我们尝试了两种不同的卷积和池化操作方法,具体如下。

        卷积操作。我们首先设计了一种基于卷积运算的降维方法,如式(10)所示。具体来说,我们通过重塑特征图的维度,将特征的空间信息转换为信道维度,然后用 1 × 1 卷积运算压缩信道维度。 

        池化操作。平均池化和最大池化是两种传统的池化方法,常用于降低特征图的空间维度,无需额外参数。平均池化计算池化区域内所有元素的平均值,保留图像中的背景信息;而最大池化考虑池化区域内的最大元素,主要保留物体的纹理特征。因此,我们受混合池法的启发,采用了一种自适应地将平均池法和最大池法集合在一起的方法,如式所示。

与原始特征图的维度 H × W × C 相比,压缩后的特征图的维度为 (H ×W ) ∕ S ×C,令牌的维度从 HW × C 降为 HW ∕ S × C。因此,CFE 模块中的键、查询和值的维度变为 K、Q、V ∈ R HW ∕ S×C 。最后,总计算复杂度从 O(W 2H2 ×C +8W H ×C2) 降为 O(W 2H2∕ S2 ×C +8W H∕ S × C 2)。 

Iterative cross-modal feature enhancement (ICFE):

        为了加强对模态间和模态内特征互补信息的记忆以进一步提高模型性能,我们在 CFE 模块的基础上引入了一种迭代学习策略,并将其命名为 ICFE 模块。如图 4(a)所示,传统方法一般通过堆叠多个模块来提高性能,但这种大幅扩展模型深度的策略不仅会显著增加参数,还会导致过度拟合。相反,我们提出的迭代学习策略通过多次迭代加深网络深度,并共享参数在不增加参数数量的情况下逐步完善不同模态的互补信息,如图 4(b) 所示。以 n 次迭代为例,可简化如下:

 

 

每个迭代操作的输出都用作下一个迭代操作的输入,每个迭代操作之间共享参数。此外,ICFE 模块的输出序列 ̂ Tn R 和 ̂ Tn T 首先被转换为特征图,然后通过双线性插值重新校准为原始大小的特征图。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/4778.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

CSP/信奥赛C++刷题训练:经典广搜例题(2):洛谷P1135 :奇怪的电梯

CSP/信奥赛C刷题训练:经典广搜例题(2):洛谷P1135 :奇怪的电梯 题目背景 感谢 yummy 提供的一些数据。 题目描述 呵呵,有一天我做了一个梦,梦见了一种很奇怪的电梯。大楼的每一层楼都可以停电…

K8S群集调度二

一、污点(Taint) 和 容忍(Tolerations) 1.1、污点(Taint) 设置在node上是对pod的一种作用 节点的亲和性,是Pod的一种属性(偏好或硬性要求),它使Pod被吸引到一类特定的节点 而Taint 则相反,它使节点能够排斥一类特…

成都郝蓉宜恺文化传媒:引领大数据应用新篇章

在信息化浪潮汹涌的今天,大数据被誉为新时代的“石油”,正在以前所未有的速度改变着我们的生活和工作方式。成都郝蓉宜恺文化传媒,作为大数据领域的领军企业,始终站在创新的前沿,引领着大数据应用的新篇章。 作为大数…

51c自动驾驶~合集5

我自己的原文哦~ https://blog.51cto.com/whaosoft/11563178 #MapDistill 速度精度双起飞,让End2End更丝滑 在线高精(HD)地图构建是自动驾驶领域的一项重要且具有挑战性的任务。最近,人们对不依赖于激光雷达等其他传感器的基于…

如何在 SAP 中直接运行原生 SQL 语句

作为 ABAP 开发应该知道,SAP 支持在程序中运行 ABAP SQL,但是如果想要运行原生 SQL,就要借助 SQL 编辑器了。 Ps:你得向 Basis 申请权限。 SQL 编辑器允许您直接执行 SQL 语句。 1 SQL 编辑器启动方式 它可以在以下 T-code 中执…

华普微隔离芯片,赋能中国新基建之光伏创新

一、华普微隔离芯片助力光伏产业发展:现状、应用与未来展望 当前,光伏行业正深陷在无序扩张、产能过剩及激烈内卷的困境之中。为打破这种恶性竞争局面,光伏行业未来发展的“主旋律”已定调在淘汰落后产能、倡导企业兼并重组与加速技术革新步…

时隔7年,我终于考了CISSP

七年前,我开启了信息安全之旅,将 OSG 第 4 版作为敲门砖。耗费两个月时间硬着头皮读完,却如坠云雾,全然不知其深意,仅仅在脑海中隐约勾勒出一个大致的知识框架。 随后,我幸运地找到了相关工作,…

中科蓝汛GPIO操作说明

概述 本篇文章介绍如何使用中科蓝汛AB5681,GPIO管脚使用说明。 一、第一种写法 1)、GPIO配置输入模式 //内部上拉 GPIOBDE | BIT(4); //数字IO使能: 0为模拟IO, 1 为数字IO GPIOBDIR | BIT(4); //控制IO的方向: 0为输出, 1为输入. GPIOBFEN &…

RHCE 配置文件

配置文件 配置文件排错 1.1 配置基于主机名的 Web 服务器1.2 配置基于端口的 Web 服务器1.3 配置基于IP地址的 Web 服务器1.4 配置账号验证访问1.5 配置 https 加密服务1.6 课后习题 配置文件 配置文件vim里面内容时,用空格分割 #寻找配置文件 [rootlocalhost ~]# r…

笔记整理—linux驱动开发部分(8)framebuffer类设备

framebuffer显示设备。 在应用层直接抽象位向DDR中存放图片。 在操作系统中,将上图分为两个部分:驱动应用。 使用复制的方法效率十分的低,所以有了内存映射方法实现图片的显示。 framebuffer帧(铺满一个屏幕)&#xff…

智慧测绘数字化管理平台建设方案

随着信息技术的飞速发展,测绘地理信息与遥感专业正经历着一场革命性的变革。智慧测绘数字化管理平台的建设,不仅能够提高测绘数据的准确性和实时性,还能为城市规划、环境保护、灾害预防等领域提供强有力的数据支持。本文将探讨智慧测绘数字化…

conda的作用

conda是一个开源的包和环境管理系统,用于安装、管理和切换不同版本的软件包及其依赖项。它不仅支持Python,还适用于R、Ruby等多种编程语言。以下是详细介绍: 多语言支持:conda支持多种编程语言,包括但不限于Python、R、…

测试平台常见前端问题-建议收藏备忘

接下来在使用Element UI开发测试平台前端的过程中,难免会碰到各式各样的问题,因此今天我们主要整理了以下几个常见的问题和解决方案,方便各位能轻松玩转测试平台前端: Element UI更换主题颜色 拉取github资源报错问题解决 nvm管…

NC313 两个数组的交集

NC313 两个数组的交集 添加链接描述 import java.util.*;public class Solution {/*** 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方法规定的值即可** * param nums1 int整型ArrayList * param nums2 int整型ArrayList * return int整型A…

[C++刷题] 基础小知识点(4) abs() exp() 和 输入验证

分析题目, 大多数都是常规操作, 较为特殊的有: 程序需有一定的容错性, 当用户输入非法字符时, 提示用户重新输入。绝对值的实现e^x的实现 首先是 第一点 这里通过cin.fail()流判断是否合法 cin.fail()来判断当前的输入的类型和预期的是否相同,如不同cin.fail()返回…

【大数据学习 | HBASE】hbase的整体架构

hbase的region存储原理图 首先我们看到hbase的组成分为两个大的部分,分别是hmaster和hregionserver,主节点用于协调数据,regionserver用于真正的去管理表,其中regionserver存在多个,他们共同协调管理全有的表&#xff…

民间故事悬疑恐怖故事图片素材哪里找|巨日禄AI|短视频|自媒体

民间故事是中华文化中不可或缺的一部分。近一年制作与分享民间故事短视频深受创作者喜欢,并且这类故事对于普通民众粘性很高,通常点赞评论都很高。对于这类民间故事、中国传统故事、悬疑恐怖故事的文案创作借助短视频平台的高赞文案选题以及大语言模型的…

如何将VMware ESXi中的虚拟机迁移到Workstation

我们前面介绍了如何将VMware workstation中的虚拟机迁移到ESXi中(将OpenWrt 23.05.3部署到VMware ESXi),那怎么将ESXi中的虚拟机迁移到workstation中呢? 首先,我们回顾一下,在将workstation中的虚拟机迁移到…

Linux操作系统开机引导

linux操作系统的开机引导的过程 linux操作系统开机流程图 1、开机自检:根据bios的设置,对cpu、内存、显卡、键盘等设备进行初步检测,如果以上检测设备正常工作,系统会把控制权移交到硬盘 总结:检测包含系统启动操作系…

微信小程序开发,诗词鉴赏app(一)

微信小程序开发,诗词鉴赏app(一): https://blog.csdn.net/jky_yihuangxing/article/details/143501681微信小程序开发,诗词鉴赏app,诗词推荐实现(二):https://blog.csdn.net/jky_yih…