[论文笔记]MRRNET

这是一篇河大的论文  感觉跟SANET很像

摘要

摘要:随着物联网(IoT)的大规模部署,道路场景中实时感知和环境理解的需求变得越来越迫切。 同时,语义分割作为像素级场景解析得到了广泛的研究。 然而,资源有限的物联网设备在语义分割时应考虑实时性和准确性性能。 在本文中,我们介绍了一种快速高效的语义分割网络,用于交通场景中的道路感知,部署在云服务器上。

为此,我们提出了一种有效且高效的语义分割网络,称为多分辨率细化网络(MRRNet)。 它采用编码器-解码器架构,可以有效地通信分支特征。

在编码器阶段,集成了语义重建模块(SRM)来捕获尺度特征信息并细化语义特征的性能。 为了解决信息丢失问题并增强特征的表示,提出了多尺度特征抛光模块(MSFPM)。 此外,还设计了对称聚合交互模块(SAIM)来利用低级和高级功能之间固有的互补性。 

引言

在本文中,我们介绍了一种称为 MRRNet 的多分辨率细化网络。

首先,该网络采用了轻量级编码器结构,旨在有效地提取复杂的特征。 其次,为了利用网络内丰富的空间细节,我们重新优化了分支结构,如图2所示。具体来说,MRRNet在编码器末端添加了语义重建模块(SRM)以重用高级特征。

在编码器的前端,引入了由多尺度特征抛光模块(MSFPM)细化的低级特征分支作为特征补充。 对称聚合交互模块(SAIM)由对称结构组成,旨在结合MRRNet每个分支中的空间和上下文增强块。 根据 Cityscapes [18]、CamVid [19] 和 NightCity [20] 三个流行基准的大量实验结果,MRRNet 在分割精度和推理速度之间实现了令人满意的平衡。 在各种基准数据集上进行实验,MRRNet在Cityscapes数据集上的mIoU为78.7%,FPS为112.6,在CamVid数据集上的mIoU为78.9%,FPS为175.7,NightCity 数据集上的mIoU为54.2%,FPS为178.9。  我们还提供了消融研究和特征可视化,以便更好地理解 MRRNet 中每个模块的功能。

本文创新点:

1>   我们精心设计了SRM来改善语义特征并提取不同分辨率的图像特征。

2>  提出了一种新的 MSFPM 来建立与低级特征的连接,从而能够全面捕获跨不同尺度的特征信息。

3>   我们提出了 SAIM,它有助于融合复杂的语义信息,提高语义分割的准确性和鲁棒性。

相关工作

分为三个方面写的   基本都是对前人工作的总结 感兴趣可以自己看看

A. Semantic Segmentation

B. Real-Time Semantic Segmentation

C. Context Information Reconstruction

模型方法

实时高精度网络的设计需要仔细考虑轻量级的结构设计和高效的特征表达。 当信息从浅分辨率提取到深分辨率时,会出现逐渐的过渡,其中空间细节减少,而语义信息增强。 因此,为了实现最佳性能,语义分割网络总是巧妙地利用高分辨率中固有的详细信息,同时利用较低分辨率下可用的上下文信息。

A. Overall Architecture

所提出的MRRNet的整体架构如图3所示,它采用编码器-解码器架构,集成了轻量级而高效的编码器,并采用具有鲁棒特征增强能力的分支结构。 受 ResNet [39] 主干网络的启发,我们的方法确保稳定的信息传输,并通过合并级联残差块来解决梯度消失问题。 我们使用预训练的 ImageNet 模型初始化主干权重,强调训练模型的效率。 在训练过程中,Ground Truth图像被用作目标图像并参与训练过程。 然后,这些图像将被 Canny 边缘检测并用作辅助图像来构建辅助损失,其目的是增强网络的目标边缘分割能力。 基本主干由具有六种不同分辨率的级联残差块组成,与 SRM 一起形成高效编码器,以实现最佳特征提取。 

此外,为了建立多分支特征层次结构,我们采用跨级链接方法,创建具有多尺度形状的层次结构。 在编码方面,我们专注于增强特征捕获能力,实现丰富细节信息的大感受野表达。 精心设计的MSFPM利用低维特征的精确感知,通过主干第三层块的连接改善特征表示并最大限度地减少中继信息丢失。 我们对跨尺度信息融合的重视是通过所提出的 SAIM 的对称结构来实现的,促进高层和低层特征之间的通信。 这种方法增强了低级特征的语义信息,同时为高级特征提供了更详细的信息。

B. Semantic Reconstruction Module

一个轻量级且高效的主干网络,以级联残差块为中心,旨在捕获基本特征以及全局语义特征。 然而,通过网络特征流传输输入信息过程中的下采样操作会导致纹理信息的丢失。 缺失的内容导致高级语义特征包含较少的场景级上下文信息,进而导致分割结果与理想情况之间存在较大差距。 为了解决这个问题,本文引入了 SRM,如图 4 所示,它重建了对于保持语义特征图完整性至关重要的上下文信息。 SRM强调了PPM的优点,采用多级池化层进行语义特征提取。 此外,它采用了在通道维度上构建复合特征图的方法。 值得注意的是,我们不仅结合了多尺度池化操作,还考虑了池后特征交互。 其中,提出了一种自适应引导机制,通过特征折叠形成特征权重,动态影响每个特征的权重。 SRM 包含三个关键组成部分:1)多尺度局部感知; 2)自适应权重引导; 3)跨尺度特征调制模块。

 多尺度局部感知:该块采用具有不同感受野的池化组,并向池化层添加 3 × 3 滤波器以进行特征平滑操作。 具体来说,我们对输入特征F6执行五组非对称分布的平均池化操作,得到感受野分布S ∈{3×3, 5× 5, 7×7, 9× 9, 13× 13},并进行特征处理 通过逐渐增加感受野。 处理的特性可表示为:

 其中Fin表示通过主干网络传输到SRM的输入特征。 Avgn×n表示Fin使用n×n的池化内核的平均池化操作,Conv指的是Convolution、batch Normalization(BN)和ReLU函数的组合操作。 在所提出的表达式中,我们采用平均池化操作来优先考虑模块对平滑噪声背景信息的关注,从而形成有效的特征组合表示。

自适应权重指导:该模块利用输入特征的全局能力来理解全局信息,指导尺度特征的权重生成过程。 这种方法充分利用了输入特征中嵌入的高级上下文信息。 最初,采用全局平均池算子来导出通道级别的一组权重向量。 随后,应用多层感知(MLP)来进一步微调和引导输出长度。 最后通过sigmoid函数生成自适应权重向量,记为w=[w1,w2,...w5] 

 其中 G_avg(·) 表示全局平均池和全局最大池运算符。 MLP(·) 由两个全连接层和一个 ReLU 层组成。

跨尺度特征调制:在该模块中,我们采用全局自适应感知权重(在(2)中表示为w)来调制由局部多尺度感知生成的多尺度上下文特征.F1 in.∼F5 in,如(1)中所述 。 具体来说,我们利用权重 w 来调整组合的多尺度特征的权重。 随后,我们在通道维度中连接重组的多尺度特征以产生场景上下文感知特征,从而细化语义特征 Fout

 C. Multiscale Feature Polishing Module

我们坚持探索低级功能,使我们的方法与其他网络保持一致。 认识到低级特征中丰富的细节和空间信息对准确分割的重大贡献,我们引入了 MSFPM 来增强低级尺度特征的表示并减少信息丢失。 如图5所示,MSFPM采用并联和级联结构的混合连接方法。 最初,输入 FA ∈ RH×W×C 中的低级特征被用作初始特征串联的基本特征,提供必要的原始信息。 此外,通过标准卷积进行主要特征细化以获得特征的重新表示。 后续步骤涉及循环过程,其中扩张卷积后的特征用于进一步级联和后续卷积操作,促进跨尺度特征学习。 这个迭代过程提取了一系列扩张的卷积缩放上下文特征,如下所示

 

 其中 F(p,d) 3×3conv 表示填充为 p 且扩张率为 d 的 3×3 空洞卷积。 在我们的实验中,我们设置 (p, d) = (1, 0), (3, 3), (5, 5), (7, 7), (13, 13)。 然后,这些输出特征将在通道维度上串联并通过1×1卷积输出

 

 D. Symmetric Aggregation Interaction Module

我们意识到高层和低层结构学习到的特征表示是完全不同的。 受跨尺度特征融合[29]、[32]、[40]的启发,我们设计了SAIM模块,如图6所示,

探索跨尺度的语义特征和细节特征之间的交互,强调通道交互ing且揭示了通道之间的关键线索。 其中,高层和低层特征之间的交互是通过DW卷积、标准卷积、元素级乘法实现的,从而融合彼此的特征信息。 具体来说,输入的低级特征Fl in 和高级特征Fh in 将通过DW卷积路径进行清洗,生成Fl1 in 和Fh1 in 。 另一方面,分别进行stride=4的上采样和下采样,最终输出Fl2 in和Fh2 in。 Fl2 in 与 Fh1 in 进行元素特征点乘运算,实现高层特征信息的低层表征,得到 Fhl in。同理,Fh2 in 与 Fl1 in 进行元素特征点乘运算,实现高层特征信息的高层表征 最后,将这两个融合特征与经过1×1卷积的低维特征和高维特征相加,得到F。 Fout是通过3×3卷积得到的,可以表示为

其中Fl in和Fh in是经过1×1卷积的低维特征和高维特征。

实验

消融实验

1>MRRNet 的有效性:为了验证架构中不同组件的有效性,我们选择比较在 ImageNet 上训练的主干网和 seghead 作为基线。 各个模块在 Cityscapes 验证数据集上的消融研究如表 1 所示。基线网络采用标准卷积代替相关运算,并在特征融合点利用加性连接,在 136.7 FPS 下实现了 73.7% 的准确率。 实验过程中,MRRNet在Layer3分支中加入MSFPM,实现边缘监督,在主干输出处连接SRM,并利用SAIM将SRM输出的重构语义信息与MSFPM产生的精细细节特征融合。

 2) Effectiveness of SRM

PPM 扩展了模型的感受野,实现了全局和局部信息的感知。 我们引入SRM来捕获尺度特征信息并增强语义特征。 该模块通过多级池化操作完成语义特征重建,并随后利用丰富的语义信息指导逐步上采样过程。

我们将 SRM 与其他具有类似功能的模块进行了比较,例如 PPM、DAPPM、PAPPM [33] 和 APPPM。 结果如表 II 所示,表明 SRM 的 mIoU 比 PPM 提高了 2.2%。 与广泛使用的 PPM 相比,SRM 表现出最高的 mIoU,为 78.7%。 此外,我们彻底验证了 SRM 结构,实现了池化模块组 {(1, 1), (3, 3), (5, 5), (7, 7), (9, 9), (13, 13) 在设计模块时,我们选择了高阶池化和低阶池化相结合的池化组合方法,通过mIoU的性能比较,我们最终选择了{(3, 3), (5, 5), (7, 7), (9, 9), (13, 13)}池化组合方法。 SRM结构中不同大小的组合卷积核的消融研究如表III所示。

 3) Effectiveness of MSFPM

        如表 I 所示,关于在基线中添加 MSFPM 的消融研究证实了我们提出的结构的有效性。 为了评估 MSFPM 模块的效率,我们使用不同的通道压缩率(表示为 r)进行了消融实验,如表 IV 所示。

        实验结果表明,随着通道组成参数 r 的减小(即随着卷积通道数量的增加),MSFPM 的 mIoU 逐渐增加,尽管代价是网络速度显着降低。 为了在 mIoU 和速度之间取得平衡,我们确定当 r=2 时,实现 MSFPM 的最佳结构。

        此外,我们还可视化了添加了 MSFPM 结构的基线的输出特征热图。 图 7 直观地比较了基线和 MSFPM 增强基线的输出结果。 在本研究中,我们采用梯度加权类激活映射(Grad-CAM)[52]作为可视化方法。 热图可视化的计算过程涉及计算输出卷积层到c类别的logits的梯度。 随后,通过对每个通道维度中的像素值进行平均来导出神经元重要性权重αck。 这由以下公式表示:

其中,z表示特征图中的像素数量,Ak ij 表示第k个特征图的i、j位置处的像素值,yc表示c类的logits。

为了获得类别 c 的 Grad-CAM,利用神经元重要性权重 αck 对所选卷积层的特征 Ak 进行 ReLU 操作。 这个过程用下面的公式表示:

 D. Compare With State-of-the-Art Methods

评价指标

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/143573.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

异常中的常见方法

成员方法 getMessage package trycatch;public class TrycatchDemo {public static void main(String[] args) {int[] arr {1,2,3,4,5,6,7};try {System.out.println(arr[10]);} catch (ArrayIndexOutOfBoundsException e) {String message e.getMessage();System.out.print…

9.19工作笔记

怎么做多空对冲 脚本2怎么实现多空对冲的 首先读取factors和periods中的文件,然后read_coin得到结果strategy里面的cal_factor的作用是将所有的因子排名加权得到一个新的因子,这个就是多因子的做法。其中因子权重为factor_list里面的因子的最后一个元素…

数据处理与统计分析篇-day05-Pandas详解

创建DaraFrame对象 概述 DataFrame是一个表格型的结构化数据结构,它含有一组或多组有序的列(Series),每列可以是不同的值类型(数值、字符串、布尔值等)。 DataFrame是Pandas中的最基本的数据结构对象&…

CRM客户管理系统如何帮你做好客户分类

CRM客户管理系统通过一系列功能和策略帮助企业有效地进行客户分类,从而优化资源配置,提升客户满意度和忠诚度,进而推动业务增长。 以下是CRM系统如何帮助企业做好客户分类的详细阐述: 一、全面数据收集与整合 CRM系统能够全面收…

通过知识图谱自动生成和丰富加速医学知识发现 - 哈佛大学等

KGGPT Accelerating Medical Knowledge Discovery through Automated Knowledge Graph Generation and Enrichment 摘要 知识图谱(KGs)作为组织和表示结构化知识的强大工具,广受认可。尽管它们的实用性广泛被认可,但在自动化和完…

“码”上中秋 · 与 豆包 MarsCode 共赏家乡月

《水调歌头》(宋苏轼) (丙辰中秋,欢饮达旦。大醉,作此篇,兼怀子由) 明月几时有? 把酒问青天。 不知天上宫阙,今夕是何年。 我欲乘风归去,又恐琼楼玉宇,高处不胜寒。 起舞弄清影,何似在人间? 转…

VR全景摄影制作中的常见问题及解决方案

随着VR全景摄影技术的普及,越来越多的摄影师和企业开始尝试使用这种方式来展示产品、场景或服务。虽然VR全景摄影有着强大的视觉表现力和沉浸式体验,但在制作过程中也会遇到各种挑战。为了帮助大家更好地掌握VR全景摄影的制作技巧,今天给分享…

Hi3559A/C V100 集成了双核 A73 和双核 A53,支持 8K30/4K120 视频录制

1.1 概述 Hi3559AV100 是专业的 8K Ultra HD Mobile Camera SOC ,它提供了 8K30/4K120 广播级图像质量的数字视频录制,支持多路 Sensor 输入,支持 H.265 编码输出或影视 级的 RAW 数据输出,并集成高性能 ISP 处理&…

上架谷歌安卓APP完整图文流程

本节包含以下内容: 第一步:登录Google play开发者后台第二步:创建应用第三步:设置应用第四步:开启通知第五步:发布应用第六步:查看审核结果第七步:配置app支付参数第八步&#xff1…

windows环境安装Elasticsearch和图形化界面head插件

废话少说ES相关的用法可以参考文档:https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.html 注意:elasticsearch是使用java开发的,且本版本的ES需要的jdk版本要是1.8以上,所以安装elasticsearch之前保证jdk1.8以…

换个手机IP地址是不是不一样?

在当今这个信息爆炸的时代,手机已经成为我们生活中不可或缺的一部分。而IP地址,作为手机连接网络的桥梁,也时常引起我们的关注。你是否曾经好奇,换个手机,IP地址会不会也跟着变呢?本文将深入探讨这个问题&a…

关于实时数仓的几点技术分享

一、实时数仓建设背景 业务需求的变化:随着互联网和移动互联网的快速发展,企业的业务需求变得越来越复杂和多样化,对数据处理的速度和质量要求也越来越高。传统的T1数据处理模式已经无法满足企业的需求,实时数据处理成为了一种必…

【Python爬虫】学习Python必学爬虫,这篇文章带您了解Python爬虫,Python爬虫详解!!!

Python爬虫详解 Python爬虫是一种用于从网站获取数据的自动化脚本。它使用Python编程语言编写,并利用各种库和模块来实现其功能。以下是Python爬虫的详细讲解,包括基本概念、常用库、基本流程和示例代码。 基本概念 HTTP请求:爬虫通过向目…

9-----MTK专用工具 MTKpro解锁 读取分区 备份nv 檫除nv 工具预览与步骤解析

以上工具包含原版与汉化版工具。根据上面图示 可以看到此工具可以刷写mtk机型,包含有刷机的各个加载选项以及刷写方式。其中动画界面演示了无需加载任何引导。联机就可以读取到当前机型分区的演示。 工具功能选项 ★★★★★不需要任何引导直接读取mtk分区 备份 檫除 写入分…

【深度学习】(3)--损失函数

文章目录 损失函数一、L1Loss损失函数1. 定义2. 优缺点3. 应用 二、NLLLoss损失函数1. 定义与原理2. 优点与注意3. 应用 三、MSELoss损失函数1. 定义与原理2. 优点与注意3. 应用 四、BCELoss损失函数1. 定义与原理2. 优点与注意3. 应用 五、CrossEntropyLoss损失函数1. 定义与原…

在Python中快速获取HTML中<span>标签的内容

在Python中&#xff0c;要获取HTML中<span>标签的内容&#xff0c;通常我们会使用像BeautifulSoup这样的库&#xff0c;它提供了方便的方法来解析HTML和XML文件&#xff0c;并从中提取数据。下面是一个使用BeautifulSoup来获取<span>标签内容的简单示例。 首先&am…

地图API配置错误漏洞导致的key或者ak泄露

0x1 前言 哈喽&#xff0c;师傅们&#xff01; 这篇文章主要是带师傅们掌握下地图API配置错误漏洞导致的key或者ak泄露&#xff0c;然后进行使用我们总结的payload进行打一个漏洞利用。下面也会给师傅们举例我挖到的部分地图API漏洞&#xff0c;其中企业src部分企业会收这个漏…

营销必不可少的神器:邮件群发系统

对于企业推广而言&#xff0c;电子邮件群发工具是网络营销的利器&#xff0c;无论是产品宣传、客户维护&#xff0c;还是发送通知、节日问候等都离不开它。这些工具操作简便&#xff0c;只需轻轻一点&#xff0c;就能将信息迅速送达客户的邮箱。特别是对外贸企业来说&#xff0…

转行AI产品经理入门指南(非常详细)零基础入门到精通,收藏这一篇就够了

AI产品经理和传统产品经理有哪些不同&#xff1f;薪资前景怎么样?应当以怎样的姿势入行&#xff1f; 这篇干货回答将告诉你AI产品经理具体做什么、有哪些分类、需要哪些技能、以及具体的学习路线&#xff0c;帮助你开启你的转行旅程。 作为从业人员&#xff0c;非常负责任的…

计算机考研408-计算机网络

【题33】下列选项中&#xff0c;不属于网络体系结构所描述的内容是&#xff08;&#xff09; A.网络的层次 B.每一层使用的协议 C.协议的内部实现细节 D.每一层必须完成的功能 解析&#xff1a; 本题考查的是网络体系结构相关的概念。 图1描述了网络的7层架构以及每一层所要完成…