【论文笔记】SparseRadNet: Sparse Perception Neural Network on Subsampled Radar Data

原文链接:https://arxiv.org/abs/2406.10600

简介:本文引入自适应子采样方法和定制网络,利用稀疏性模式发掘雷达信号中的全局和局部依赖性。本文的子采样模块选择 RD谱中在下游任务贡献最大 像素 的子集。为提高子采样数据的特征提取,本文引入图神经网络,设计两分支主干分别提取局部和全局信息,并使用注意力融合模块组合两分支特征。实验表明,本文的SparseRadNet能在RADIal数据集上达到SotA分割和检测性能。

1. 引言

现有的基于原始雷达数据(如RAD张量、RD谱或ADC数据等)的方法多使用CNN,但大量像素仅含有噪声,CNN处理不够高效。

本文为每帧数据动态生成采样掩膜,对原始雷达数据进行子采样。同时,对子采样数据使用GNN,将子采样像素视为节点,根据特征空间中的距离建立动态边。此外,使用稀疏CNN作为主干的另一分支,与GNN分别提取局部和全局特征。

3. SparseRadNet结构

在这里插入图片描述
如图所示,SparseRadNet分为4部分:深度雷达子采样模块(从RD谱中选择重要部分);带有注意力融合模块的两分支主干(捕捉邻域信息);距离-角度解码器(将RD转化为RA视图);两个输出头(用于目标检测和空空间分割)。

3.1 深度雷达子采样模块

本文提出深度雷达子采样(DRS)模块,以同时保留原始雷达数据的稀疏性和丰富的信息。

RD谱为 C H × W × N R x \mathbb C^{H\times W\times N_{Rx}} CH×W×NRx的复值向量,其中 N R x N_{Rx} NRx为接收天线的数量,复值被分为实部和虚部,作为本文方法的输入 x ∈ R H × W × 2 N R x x\in\mathbb R^{H\times W\times 2N_{Rx}} xRH×W×2NRx。令 A ∈ { 0 , 1 } H × W A\in\{0,1\}^{H\times W} A{0,1}H×W为\二值采样掩膜,可通过 y h , w , c = A h , w ⋅ x h , w , c y_{h,w,c}=A_{h,w}\cdot x_{h,w,c} yh,w,c=Ah,wxh,w,c y ∈ R H × W × 2 N R x y\in\mathbb R^{H\times W\times 2N_{Rx}} yRH×W×2NRx。预定义的选择元素数 M ≪ N = H × W M\ll N=H\times W MN=H×W。本文使用CNN(参数为 θ \theta θ)处理输入,并将输出视为未归一化的logit Z θ ( x ) ∈ R H × W Z_{\theta}(x)\in\mathbb R^{H\times W} Zθ(x)RH×W

本文将问题视为从分类分布的采样。使用Gumbel-Softmax方法直接从未归一化的logit中采样 M M M个像素,而非先将 Z θ ( x ) Z_{\theta}(x) Zθ(x)通过softmax达到概率分布 A θ ( x ) A_\theta(x) Aθ(x)。Gumbel-Max技巧能实现高效的分类采样,而Gumbel-Softmax将该方法视为重参数化技巧使得采样是可微的。 Z θ ( x ) Z_{\theta}(x) Zθ(x)中的每个元素 z h , w z_{h,w} zh,w会先被Gumbel噪声 e h , w ∼ Gumbel ( 0 , 1 ) e_{h,w}\sim \text{Gumbel}(0,1) eh,wGumbel(0,1)扰动,使得计算图中不可微的随机节点被移动到边上,从而梯度回传变得可行。然后,为扰动的logit使用argmax生成一个样本(等价于从类别分布 A θ ( x ) A_\theta(x) Aθ(x)中抽取一个类别)。使用argtopM操作同时采样 M M M个样本:
r = argtopM 1 ≤ h ≤ H 1 ≤ w ≤ W { z h , w + e h , w } r=\underset{1\leq w\leq W}{\underset{1\leq h\leq H}{\text{argtopM}}}\{z_{h,w}+e_{h,w}\} r=1wW1hHargtopM{zh,w+eh,w}

其中 r = { r 1 , ⋯ , r m } ⊂ N 2 r=\{r_1,\cdots,r_m\}\subset\mathbb N^2 r={r1,,rm}N2 M M M个采样的像素索引。根据 r r r可生成硬掩模 A h a r d A^{hard} Ahard

由于argtopM不可微,Gumbel-Softmax方法使用softmax函数作为连续可微的近似,生成软掩膜 A s o f t A^{soft} Asoft
A s o f t = ∑ m = 1 M softmax τ { w m + Z θ ( x ) + e } A^{soft}=\sum_{m=1}^{M}\text{softmax}_\tau\{w^m+Z_\theta(x)+e\} Asoft=m=1Msoftmaxτ{wm+Zθ(x)+e}

其中 w h , w m ∈ { − ∞ , 0 } w_{h,w}^m\in\{-\infin,0\} wh,wm{,0}通过设置为 − ∞ -\infin 抑制过去抽取的样本, τ \tau τ表示softmax的温度参数,控制Gumbel-Softmax的平滑程度。 τ → 0 \tau\rightarrow0 τ0时,软采样掩膜逼近硬掩膜。训练时,采样掩膜为
A = A h a r d + A s o f t − detach ( A s o f t ) A=A^{hard}+A^{soft}-\text{detach}(A^{soft}) A=Ahard+Asoftdetach(Asoft)

其中detach将张量从计算图中移除。前向传播过程 A A A作为二值采样掩膜生成下游感知模块的稀疏输入 y y y,而反向传播过程通过上式第二项将梯度回传到CNN。

DRS模块可被感知损失端到端训练,可选择对感知任务影响最大的像素,同时抑制噪声。

3.2 两分支主干

GNN分支。GNN分支包括GNN块和稀疏特征分散模块(FPN)。本文基于ViG的各向同性模式建立GNN,其中GNN层间的特征有相同的形状大小。

将子采样的像素通过线性层得到 C C C维向量 y ˉ ∈ R M × C \bar y\in\mathbb R^{M\times C} yˉRM×C,作为初始节点特征。将节点记为 V \mathcal V V,对每个节点 v i v_i vi,寻找其特征空间中的 K K K近邻节点并连接两者形成边,得到边集 E \mathcal E E,进而形成图 G = ( V , E ) \mathcal G=(\mathcal V,\mathcal E) G=(V,E) K K K随着通过GNN块的增加而增大。由于节点特征会不断更新,其邻域会发生变化,因此称为动态图。

每个GNN块包括Grapher模块和前馈网络FFN。前者包含一个图卷积网络(GCN)层和前后的两个线性层。GCN包含两个步骤:聚合和更新。聚合前,根据当前节点特征生成图,然后节点的邻居被聚合操作 g ( ⋅ ) g(\cdot) g()聚合,随后更新操作 h ( ⋅ ) h(\cdot) h()通过线性层更新节点:
y ˉ i ′ = G C N ( y ˉ i ) = h ( y ˉ i , g ( y ˉ i , E ( v i ) ) , W u p d a t e ) \bar y'_i=GCN(\bar y_i)=h(\bar y_i,g(\bar y_i,\mathcal E(v_i)),W_{update}) yˉi=GCN(yˉi)=h(yˉi,g(yˉi,E(vi)),Wupdate)

其中 i = 1 , ⋯ , M i=1,\cdots,M i=1,,M W u p d a t e W_{update} Wupdate为更新操作的参数,且
g ( y ˉ i ) = concat ( y ˉ i , max ⁡ { y ˉ j − y ˉ i ∣ j ∈ E ( v i ) } ) h ( y ˉ i ) = g ( y ˉ i ) W u p d a t e g(\bar y_i)=\text{concat}(\bar y_i,\max\{\bar y_j-\bar y_i|j\in\mathcal E(v_i)\})\\ h(\bar y_i)=g(\bar y_i)W_{update} g(yˉi)=concat(yˉi,max{yˉjyˉijE(vi)})h(yˉi)=g(yˉi)Wupdate

根据公式,这里的GCN类似于(特征空间下的)PointNet。

其中 h ( ⋅ ) h(\cdot) h()为分组卷积。RD视图的特征包含角度信息,分组可视为划分象限。Grapher模块记为
Grapher ( y ˉ ) = σ ( G C N ( y ˉ W i n ) ) W o u t + y ˉ \text{Grapher}(\bar y)=\sigma(GCN(\bar yW_{in}))W_{out}+\bar y Grapher(yˉ)=σ(GCN(yˉWin))Wout+yˉ

其中 σ \sigma σ为GeLU激活函数, W i n W_{in} Win W o u t W_{out} Wout为线性层参数(省略偏置项)。

稀疏FPN包括两个稀疏ResNet块,以将节点特征分散到RD图上并减小空间尺寸。

SCNN分支。稀疏CNN(SCNN)可以有效提取局部特征。该分支包括稀疏MIMO预编码器和稀疏FPN编码器。

MIMO预编码器在FFT-RadNet中引入,使用了针对雷达传感器定制的atrous卷积层。核大小为 1 × N T x 1\times N_{Tx} 1×NTx,膨胀 δ = Δ ⋅ W D max ⁡ \delta=\frac{\Delta\cdot W}{D_{\max}} δ=DmaxΔW取决于发射器的多普勒偏移 Δ \Delta Δ、多普勒bin数 W W W和最大多普勒值 D max ⁡ D_{\max} Dmax。这样,MIMO预编码器可解开目标相应的交错。本文应用稀疏atrous卷积。

稀疏FPN的结构和GNN中的一致,但包含更多的残差块以加强局部特征提取。

注意力融合。注意力融合包含空间注意力融合和轴向注意力融合。

首先,两个分支的特征分别通过卷积层得到 R H × W × 1 \mathbb R^{H\times W\times 1} RH×W×1的两个分数图,拼接后通过softmax,产生两组权重因子,用于特征图的加权求和。

然后,通过轴向注意力对齐局部和全局特征。GNN关注子采样像素的亲和度,保留了其位置;SCNN分支则在MIMO预编码器中交换了行的位置,使得两分支的输出特征在空间上不对齐。此外,本文期望在融合时考虑列的依赖性。因此,本文使用轴向注意力,将注意力分解为行向注意力和列向注意力,将注意力窗口限制在一行或一列中。

最后,使用密集FPN编码器进一步提取特征。

3.3 距离-角度解码器

距离-角度解码器用于将RD图转化到RA空间。组合不同尺度的特征可丰富信息。CNN用于匹配通道维度和角度bin的数量,并进行通道维度和多普勒维度的交换,得到RA视图。对于低分辨率的特征图,使用反卷积恢复空间分辨率。

3.4 多任务头

使用FFT-RadNet的多任务头,包含空空间分割头(预测每个像素的占用情况)和检测头(预测车辆的存在性以及距离、角度偏移量)。

4. 实验

4.1 实施细节

推断时,不添加Gumbel噪声,仅计算硬掩膜 A h a r d A^{hard} Ahard。此外,稀疏主干无法为softmax提供完整梯度信息,因此本文先将DRS插入密集基准方案FFT-RadNet训练,再加载到本文SparseRadNet中并冻结权重。

GNN分支关注全局信息提取,因此未加入位置编码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/9535.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【IEEE出版|连续5年稳定EI检索|易中稿!近距离交流院士、Fellow!】第六届国际科技创新学术交流大会暨机械工程与自动化国际学术会议(MEA 2024)

第六届国际科技创新学术交流大会暨机械工程与自动化国际学术会议(MEA 2024) 2024 6th International Conference on Mechanical Engineering and Automation 重要信息 会议官网:mea2024.iaecst.org(会议关键词:MEA 2…

计算机图形学论文 | 木工设计与制造计划的共同优化

🦌🦌🦌读论文 我们的系统共同探索离散设计变量和制造计划的空间,以生成(设计,制造计划)对的帕累托前沿,使制造成本最小化。在该图中,(a)是椅子的输入设计和仅探索该设计的…

Kubernetes-ArgoCD篇-02-安装

1、安装 1.1 Argo CD CLI mac安装: brew install argocd通用安装: # 查看os go env GOOS # 查看架构 go env GOARCHargoCdName"argocd-darwin-arm64" # 此步骤也可以手动下载 wget https://github.com/argoproj/argo-cd/releases/latest/d…

【Ant Design Pro】框架入门的起手式及架构的分析

框架千千万万,换个公司换个样!umijs官网地址在这里,都要喊它father!! 作为笔记,了解框架结构。官网地址:Ant Design Pro。 项目环境 node 版本18依赖安装淘宝镜像,npm i大概要2~3分钟,感觉这种框架很重 安…

【数据分享】2024年我国省市县三级的生活服务设施数量(46类设施/Excel/Shp格式)

人才市场、售票处、旅行社等生活服务设施的配置情况是一个城市公共基础设施完善程度的重要体现,一个城市生活服务设施种类越丰富,数量越多,通常能表示这个城市的公共服务水平越高! 本次我们为大家带来的是我国各省份、各地级市、…

采用 EtherCAT 的磁场定向控制 (FOC) 伺服运动控制器 IC-TMC8670-BI

这款芯片是小型去中心化机器人的理想解决方案,还十分适合机器人和工业自动化、实验室自动化、工业物联网应用以及嵌入式运动控制系统中的典型编码器,使其更加全能。 TMC8670是用于工业自动化、嵌入式伺服控制和其他自动化设备应用的单轴伺服电机控制器。…

【Melty是一款开源的AI编程助手,基于codellama,媲美cusor】

https://github.com/meltylabs/melty.git 对话进行代码重构

今日力扣:3235. 判断矩形的两个角落是否可达

给你两个正整数 xCorner 和 yCorner 和一个二维整数数组 circles ,其中 circles[i] [xi, yi, ri] 表示一个圆心在 (xi, yi) 半径为 ri 的圆。 坐标平面内有一个左下角在原点,右上角在 (xCorner, yCorner) 的矩形。你需要判断是否存在一条从左下角到右上…

HCIP-HarmonyOS Application Developer 习题(二十)

1、(判断题)在使用 EventHandler 实现线程问通信时如果 EventRurner取出的是InnerEvent事件,则 EventRunner 会直接在新线程上处理该事件。 答案:错误 分析:如果EventRunner取出的事件为InnerEvent事件,则触…

恭喜!2024年度大连市科技人才创新、科技人才创业项目拟立项公示!

精选SCI/SSCI/EI SCI&EI ●IEEE 1区TOP 计算机类(含CCF); ●EI快刊:最快1周录用! 知网(CNKI)、谷歌学术期刊 ●7天录用-检索(100%录用),1周上线; 免费稿件评估 …

CSS3中动画的使用animation

1.基本使用 2.其他属性 3.复合属性

C语言多维数组抽象理解:切格子思维

其实早在两年前我就写过一篇关于多维数组的文章:详解多维数组与指针之间的关系,随着时间的推移,我的工作与学习逐渐深入,对C语言有了更深入的理解,觉得之前写的文章里关于多维数组部分有些复杂,不能以最简单…

超越Axure:探索新一代原型设计工具

Axure RP是一款被广泛认可的快速原型设计工具,专为专业设计师打造,用于创建高效的产品原型图,包括APP和网页的原型图、框架图和结构图等。Axure RP制作的原型图能够实现与实际APP相似的交互效果,便于向用户或客户展示,…

PVE纵览-从零开始:了解Proxmox Virtual Environment

PVE纵览-从零开始:了解Proxmox Virtual Environment 文章目录 PVE纵览-从零开始:了解Proxmox Virtual Environment摘要引言什么是Proxmox Virtual EnvironmentPVE的核心功能PVE 优势如何开始使用PVEPVE应用案例总结 关键字: PVE、 虚拟机、…

装杯 之 Linux指令【补充篇】

“生活就像海洋,只有意志坚强的人,才能到达彼岸” ---马克思 目录 1.grep指令 ​编辑 2.zip/unzip指令 3.tar指令(重要):打包/解包,不打开它,直接看内容 4.bc指令 5.uname 指令 1.grep…

AI自动直播软件之直播任务模块开发!

AI自动直播软件,作为现代科技与传统直播行业的完美结合,正在逐步改变我们的生活方式,它不仅能够帮助主播们实现24小时不间断的直播,还能通过智能算法分析观众喜好,推送定制化的内容,极大地提升了用户体验。…

windows工具 -- 开源图片查看器ImageClass

目的 windows自带的图像查看有些不好用 ImageClass效果 下载安装 点击下载 ImageClass https://imageglass.org/releases 双击安装即可 如果想要和一样的布局可以参考 下图布局设置: 其他功能自行探索一下, 功能很丰富

99_api_intro_websitetools_dnslookup

域名 DNS 信息查询 API 数据接口 网络工具,多种记录类型数据返回,丰富的信息结构,毫秒级响应。 1. 产品功能 提供域名 DNS 解析完整记录;丰富的解析记录类型,包括:A, AAAA, MX, TXT, NS, CNAME, SRV, PTR, …

Intern大模型训练营(五):书生大模型全链路开源体系笔记

观看视频,可以比较详细地了解到书生大模型全链路开源体系。 其中有几个印象比较深的点: 这张图讲述了书生浦语大模型开源的发展史,同时与主流的llama和Chatgpt模型进行比较,可以看出在参数上,InterLM在努力追赶甚至超…

ONLYOFFICE 8.2 版:助力自动化办公的佼佼者

0. 引言 在当今数字化办公的浪潮中,办公软件的选择对于提高工作效率和质量至关重要。就像在算法的世界里,合适的算法能高效地解决问题一样,一款优秀的办公软件能为我们的办公流程带来前所未有的便捷。ONLYOFFICE 8.2 版的出现,为…