RRSIS: Referring Remote SensingImage Segmentation

Abstract

从遥感图像中定位目标在实际应用中有很大的用处。参考图像分割的目的是分割出给定表达所指向的对象，这在自然图像中得到了广泛的研究。我们为这项任务创建了一个名为RefSegRS的新数据集，使我们能够评估不同的方法。我们提出了一种语言引导的跨尺度增强（LGCE）模块，该模块利用语言特征自适应增强多尺度视觉特征，整合深度和浅度特征。

Introduction

创建了一个新的数据集RefSegRS，来自skyscape数据集的图像和像素级注释之上。 RefSegRS数据集是通过设计各种引用表达式并自动生成相应的掩码来构建的。表达式包括类别、属性或与其他实体的空间关系，因为这些是最终用户经常用来引用对象的特征。这个数据集合由4420 image-language-label 三元组组成。

我们在许多基于自然图像的现有的方法进行评估，发现在RefSegRS数据集上效果并不是那么好，主要是因为在自然图像中物体的size比较大，但是在遥感图像中，object只有几个像素，看起来又小又分散。

本篇文章是基于LAVT提出的，提出了一个基于transformer的特性增强模块----（LGCE）模块。

深层特征和浅层特征有两个关键点。

深层特征一般来自较深的网络特征提取，深度特征具有较高的抽象性，每个像素都具有较强的表达能力，便于将其划分为不同的类。
浅层特征来自较低的网络层次特征提取，通常表示了图像的局部细节信息，虽然浅层特征具有较高的空间分辨率，使得识别小物体成为可能，但其语义水平相对较低。考虑到以上两点，我们设计了一个模块，以语言特征为导向，将深特征与浅特征相结合，更好地分割小物体。

设计了一个模块，以语言特征为导向，将深特征与浅特征相结合，更好地分割小物体。

DATASET CONSTRUCTION

A. Image Collection

通过裁剪来自skyscape数据集的图块来收集图像，该数据集由16个红绿蓝（RGB）块组成。每个贴图的大小为5616 × 3744像素，空间分辨率为13厘米。 所有像素分为20类：低植被、铺装道路、非铺装道路、铺装停车位、非铺装停车位、自行车道、人行道、出入口、危险区域、车道标线、建筑物、汽车、拖车、面包车、卡车、大型卡车、公共汽车、杂物、不透水路面、树木。对于那些标记为车道标记的标签，创建者还提供了它们的特定类型，如虚线、延长线和小虚线，但在我们的示例中不考虑这些标签。为了确保每个图像包含足够的对象和对象间关系，我们使用宽度为600像素的滑动窗口将图像块裁剪为1200 × 1200像素的图像。考虑到深度神经网络的输入大小，我们进一步将其下采样到512 × 512像素。