Abstract
从遥感图像中定位目标在实际应用中有很大的用处。 参考图像分割的目的是分割出给定表达所指向的对象,这在自然图像中得到了广泛的研究。我们为这项任务创建了一个名为RefSegRS的新数据集,使我们能够评估不同的方法。我们提出了一种语言引导的跨尺度增强(LGCE)模块,该模块利用语言特征自适应增强多尺度视觉特征,整合深度和浅度特征。
Introduction
创建了一个新的数据集RefSegRS,来自skyscape数据集的图像和像素级注释之上。 RefSegRS数据集是通过设计各种引用表达式并自动生成相应的掩码来构建的。 表达式包括类别、属性或与其他实体的空间关系,因为这些是最终用户经常用来引用对象的特征。这个数据集合由4420 image-language-label 三元组组成。
我们在许多基于自然图像的现有的方法进行评估,发现在RefSegRS数据集上效果并不是那么好,主要是因为在自然图像中物体的size比较大,但是在遥感图像中,object只有几个像素,看起来又小又分散。
本篇文章是基于LAVT提出的,提出了一个基于transformer的特性增强模块----(LGCE)模块。
深层特征和浅层特征有两个关键点。
- 深层特征一般来自较深的网络特征提取,深度特征具有较高的抽象性,每个像素都具有较强的表达能力,便于将其划分为不同的类。
- 浅层特征来自较低的网络层次特征提取,通常表示了图像的局部细节信息,虽然浅层特征具有较高的空间分辨率,使得识别小物体成为可能,但其语义水平相对较低。 考虑到以上两点,我们设计了一个模块,以语言特征为导向,将深特征与浅特征相结合,更好地分割小物体。
设计了一个模块,以语言特征为导向,将深特征与浅特征相结合,更好地分割小物体。
DATASET CONSTRUCTION
A. Image Collection
通过裁剪来自skyscape数据集的图块来收集图像,该数据集由16个红绿蓝(RGB)块组成。 每个贴图的大小为5616 × 3744像素,空间分辨率为13厘米。 所有像素分为20类:低植被、铺装道路、非铺装道路、铺装停车位、非铺装停车位、自行车道、人行道、出入口、危险区域、车道标线、建筑物、汽车、拖车、面包车、卡车、大型卡车、公共汽车、杂物、不透水路面、树木。 对于那些标记为车道标记的标签,创建者还提供了它们的特定类型,如虚线、延长线和小虚线,但在我们的示例中不考虑这些标签。 为了确保每个图像包含足够的对象和对象间关系,我们使用宽度为600像素的滑动窗口将图像块裁剪为1200 × 1200像素的图像。 考虑到深度神经网络的输入大小,我们进一步将其下采样到512 × 512像素。
B. Referring Expression Generation
C. Mask Generation
我们最终获得了一个由285个场景中的4420个图像语言标签三元组组成的数据集
IV. METHODOLOGY
伴随这些图像的表达式通常包含有关目标物体大小的信息。例如,包含汽车和道路标记的文本往往指的是小物体,而包含建筑物的文本通常与大物体有关。小目标的准确识别需要更复杂的多尺度特征融合模块,该模块将输入的文本表达式考虑在内。
LGCE Module
然以将融合后的特征拆分成两个特征分量
Cross-scale fusion
拆分交叉融合后的特征向量
再将他们连接起来送入后续的解码层,然后我们用分割头来预测掩码。