【论文笔记】SparseRadNet: Sparse Perception Neural Network on Subsampled Radar Data

原文链接：https://arxiv.org/abs/2406.10600

简介：本文引入自适应子采样方法和定制网络，利用稀疏性模式发掘雷达信号中的全局和局部依赖性。本文的子采样模块选择 RD谱中在下游任务贡献最大像素的子集。为提高子采样数据的特征提取，本文引入图神经网络，设计两分支主干分别提取局部和全局信息，并使用注意力融合模块组合两分支特征。实验表明，本文的SparseRadNet能在RADIal数据集上达到SotA分割和检测性能。

1. 引言

现有的基于原始雷达数据（如RAD张量、RD谱或ADC数据等）的方法多使用CNN，但大量像素仅含有噪声，CNN处理不够高效。

本文为每帧数据动态生成采样掩膜，对原始雷达数据进行子采样。同时，对子采样数据使用GNN，将子采样像素视为节点，根据特征空间中的距离建立动态边。此外，使用稀疏CNN作为主干的另一分支，与GNN分别提取局部和全局特征。

3. SparseRadNet结构

在这里插入图片描述
如图所示，SparseRadNet分为4部分：深度雷达子采样模块（从RD谱中选择重要部分）；带有注意力融合模块的两分支主干（捕捉邻域信息）；距离-角度解码器（将RD转化为RA视图）；两个输出头（用于目标检测和空空间分割）。

3.1 深度雷达子采样模块

本文提出深度雷达子采样（DRS）模块，以同时保留原始雷达数据的稀疏性和丰富的信息。

RD谱为 $\mathbb C^{H\times W\times N_{Rx}}$ 的复值向量，其中 $N_{Rx}$ 为接收天线的数量，复值被分为实部和虚部，作为本文方法的输入 $x\in\mathbb R^{H\times W\times 2N_{Rx}}$ 。令 $A\in\{0,1\}^{H\times W}$ 为\二值采样掩膜，可通过 $y_{h,w,c}=A_{h,w}\cdot x_{h,w,c}$ 得 $y\in\mathbb R^{H\times W\times 2N_{Rx}}$ 。预定义的选择元素数 $M\ll N=H\times W$ 。本文使用CNN（参数为 $\theta$ ）处理输入，并将输出视为未归一化的logit $Z_{\theta}(x)\in\mathbb R^{H\times W}$ 。

本文将问题视为从分类分布的采样。使用Gumbel-Softmax方法直接从未归一化的logit中采样 $M$ 个像素，而非先将 $Z_{\theta}(x)$ 通过softmax达到概率分布 $A_\theta(x)$ 。Gumbel-Max技巧能实现高效的分类采样，而Gumbel-Softmax将该方法视为重参数化技巧使得采样是可微的。 $Z_{\theta}(x)$ 中的每个元素 $z_{h,w}$ 会先被Gumbel噪声 $e_{h,w}\sim \text{Gumbel}(0,1)$ 扰动，使得计算图中不可微的随机节点被移动到边上，从而梯度回传变得可行。然后，为扰动的logit使用argmax生成一个样本（等价于从类别分布 $A_\theta(x)$ 中抽取一个类别）。使用argtopM操作同时采样 $M$ 个样本：
$r=\underset{1\leq w\leq W}{\underset{1\leq h\leq H}{\text{argtopM}}}\{z_{h,w}+e_{h,w}\}$

其中 $r=\{r_1,\cdots,r_m\}\subset\mathbb N^2$ 为 $M$ 个采样的像素索引。根据 $r$ 可生成硬掩模 $A^{hard}$ 。

由于argtopM不可微，Gumbel-Softmax方法使用softmax函数作为连续可微的近似，生成软掩膜 $A^{soft}$ ：
$A^{soft}=\sum_{m=1}^{M}\text{softmax}_\tau\{w^m+Z_\theta(x)+e\}$

其中 $w_{h,w}^m\in\{-\infin,0\}$ 通过设置为 $-\infin$ 抑制过去抽取的样本， $\tau$ 表示softmax的温度参数，控制Gumbel-Softmax的平滑程度。 $\tau\rightarrow0$ 时，软采样掩膜逼近硬掩膜。训练时，采样掩膜为
$A=A^{hard}+A^{soft}-\text{detach}(A^{soft})$

其中detach将张量从计算图中移除。前向传播过程 $A$ 作为二值采样掩膜生成下游感知模块的稀疏输入 $y$ ，而反向传播过程通过上式第二项将梯度回传到CNN。

DRS模块可被感知损失端到端训练，可选择对感知任务影响最大的像素，同时抑制噪声。

3.2 两分支主干

GNN分支。GNN分支包括GNN块和稀疏特征分散模块（FPN）。本文基于ViG的各向同性模式建立GNN，其中GNN层间的特征有相同的形状大小。

将子采样的像素通过线性层得到 $C$ 维向量 $\bar y\in\mathbb R^{M\times C}$ ，作为初始节点特征。将节点记为 $\mathcal V$ ，对每个节点 $v_i$ ，寻找其特征空间中的 $K$ 近邻节点并连接两者形成边，得到边集 $\mathcal E$ ，进而形成图 $\mathcal G=(\mathcal V,\mathcal E)$ 。 $K$ 随着通过GNN块的增加而增大。由于节点特征会不断更新，其邻域会发生变化，因此称为动态图。

每个GNN块包括Grapher模块和前馈网络FFN。前者包含一个图卷积网络（GCN）层和前后的两个线性层。GCN包含两个步骤：聚合和更新。聚合前，根据当前节点特征生成图，然后节点的邻居被聚合操作 $g(\cdot)$ 聚合，随后更新操作 $h(\cdot)$ 通过线性层更新节点：
$\bar y'_i=GCN(\bar y_i)=h(\bar y_i,g(\bar y_i,\mathcal E(v_i)),W_{update})$

其中 $i=1,\cdots,M$ ， $W_{update}$ 为更新操作的参数，且
$g(\bar y_i)=\text{concat}(\bar y_i,\max\{\bar y_j-\bar y_i|j\in\mathcal E(v_i)\})\\ h(\bar y_i)=g(\bar y_i)W_{update}$

根据公式，这里的GCN类似于（特征空间下的）PointNet。

其中 $h(\cdot)$ 为分组卷积。RD视图的特征包含角度信息，分组可视为划分象限。Grapher模块记为
$\text{Grapher}(\bar y)=\sigma(GCN(\bar yW_{in}))W_{out}+\bar y$

其中 $\sigma$ 为GeLU激活函数， $W_{in}$ 和 $W_{out}$ 为线性层参数（省略偏置项）。

稀疏FPN包括两个稀疏ResNet块，以将节点特征分散到RD图上并减小空间尺寸。

SCNN分支。稀疏CNN（SCNN）可以有效提取局部特征。该分支包括稀疏MIMO预编码器和稀疏FPN编码器。

MIMO预编码器在FFT-RadNet中引入，使用了针对雷达传感器定制的atrous卷积层。核大小为 $1\times N_{Tx}$ ，膨胀 $\delta=\frac{\Delta\cdot W}{D_{\max}}$ 取决于发射器的多普勒偏移 $\Delta$ 、多普勒bin数 $W$ 和最大多普勒值 $D_{\max}$ 。这样，MIMO预编码器可解开目标相应的交错。本文应用稀疏atrous卷积。

稀疏FPN的结构和GNN中的一致，但包含更多的残差块以加强局部特征提取。

注意力融合。注意力融合包含空间注意力融合和轴向注意力融合。

首先，两个分支的特征分别通过卷积层得到 $\mathbb R^{H\times W\times 1}$ 的两个分数图，拼接后通过softmax，产生两组权重因子，用于特征图的加权求和。

然后，通过轴向注意力对齐局部和全局特征。GNN关注子采样像素的亲和度，保留了其位置；SCNN分支则在MIMO预编码器中交换了行的位置，使得两分支的输出特征在空间上不对齐。此外，本文期望在融合时考虑列的依赖性。因此，本文使用轴向注意力，将注意力分解为行向注意力和列向注意力，将注意力窗口限制在一行或一列中。

最后，使用密集FPN编码器进一步提取特征。