图像语义分割 FCN图像分割网络网络详解

图像语义分割 FCN图像分割网络网络详解

  • 0、介绍
  • 1、VGG16网络结构
  • 2、转置卷积
  • 3、FCN-32S、FCN-16S,FCN-8S网络结构
  • 4、损失函数
  • 5、膨胀卷积
  • 6、FCN(Backbone-ResNet-50)
    • 6.1 项目框架
    • 6.2 ResNet50网络结构
    • 6.3 FCN(Backbone-ResNet-50)网络结构
    • 6.4 FCN(Backbone-ResNet-50)模型搭建流程演示图
  • 7、评价指标
  • 8、数据集
    • 8.1 数据集预处理
  • 9、Loss损失函数
  • 10、学习策略
  • 11、测试效果

0、介绍

在这里插入图片描述

1、VGG16网络结构

在这里插入图片描述

2、转置卷积

采用转置卷积的目的就是实现上采样,不过在FCN代码中采用的是双线性插值法
查看另一篇博文:
转置卷积部分

3、FCN-32S、FCN-16S,FCN-8S网络结构

在这里插入图片描述
在这里插入图片描述
FCN-16S网络使用到了Maxpool4 feature map作为融合特征 ↑↑↑↑
在这里插入图片描述
FCN-16S网络使用到了Maxpool4 feature mapMaxpool3 feature map作为融合特征 ↑↑↑↑
网络中的使用转置卷积的模块,在代码中实际采用的上采样模块实现

4、损失函数

损失函数采用Cross Entropy Loss
在这里插入图片描述

5、膨胀卷积

在进行语义分割过程中,通常需要分类网络作为网络的backbone进行一系列的下采样,再通过一系列的上采样还原回图像的原始尺寸;存在问题是在下采样过程中,如果采样倍率过大则对还原回原图是有很大影响的

膨胀卷积的优点:

  • 增大感受野
  • 保持原输入特征图的W、H
    在这里插入图片描述
    在这里插入图片描述
    特征图中像素间的间隔数=dilation rate - 1
    在这里插入图片描述
    上图为空洞卷积的实现,参数填写为padding=dilation,dilation=dilation
    即:dilation=dilation为空洞数
    如果想保证输入特征图尺寸等于输出特征图尺寸,则需要padding=dilation,dilation=dilation
    在这里插入图片描述
    在这里插入图片描述
    膨胀卷积的缺陷问题:
    在这里插入图片描述
    在这里插入图片描述
    Gridding Effect问题↑↑↑↑↑

避免Gridding Effect的策略是:不要连续的使用膨胀卷积或将膨胀因子设置成锯齿结构
在这里插入图片描述
将膨胀因子设置成锯齿结构↑↑↑↑↑

6、FCN(Backbone-ResNet-50)

6.1 项目框架

在这里插入图片描述

6.2 ResNet50网络结构

在这里插入图片描述

6.3 FCN(Backbone-ResNet-50)网络结构

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

搭建主网络
在这里插入图片描述
make_bolck
在这里插入图片描述
bottlneck
在这里插入图片描述

6.4 FCN(Backbone-ResNet-50)模型搭建流程演示图

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

7、评价指标

在这里插入图片描述
上图中假设类别为n_class=4(包含背景类别)
第一步:假定真实的GT标签为GT=[0,1,1,2,2,3,1,2,3]
真是标签列表索引为GT_inds=[0,1,2,3,4,5,6,7,8,9]
第二步:将类别数n_class x GT + Predict (得到对应像素在混淆矩阵展平后的位置)
得到location=[1,5,5,10,11,15,5,10,15]
第三步:在用统计直方图的方法统计location中每一个数值出现的频次

torch.bincount(inds, minlength=n**2).reshape(n, n)

得到混淆矩阵:
在这里插入图片描述
求得每一类别对应的准确率:
在这里插入图片描述
计算每个类别预测与真实目标的iou
在这里插入图片描述

代码实现:

class ConfusionMatrix(object):def __init__(self, num_classes):self.num_classes = num_classesself.mat = Nonedef update(self, a, b):n = self.num_classes   # gqr:其包含背景类别if self.mat is None:# 创建混淆矩阵self.mat = torch.zeros((n, n), dtype=torch.int64, device=a.device)with torch.no_grad():# 寻找GT中为目标的像素索引k = (a >= 0) & (a < n)   # gqr:利用(a < n)忽略掉值为255的像素# 统计像素真实类别a[k]被预测成类别b[k]的个数(这里的做法很巧妙)inds = n * a[k].to(torch.int64) + b[k]self.mat += torch.bincount(inds, minlength=n**2).reshape(n, n)def reset(self):if self.mat is not None:self.mat.zero_()def compute(self):h = self.mat.float()# 计算全局预测准确率(混淆矩阵的对角线为预测正确的个数)acc_global = torch.diag(h).sum() / h.sum()# 计算每个类别的准确率acc = torch.diag(h) / h.sum(1)# 计算每个类别预测与真实目标的iouiu = torch.diag(h) / (h.sum(1) + h.sum(0) - torch.diag(h))return acc_global, acc, iudef reduce_from_all_processes(self):if not torch.distributed.is_available():returnif not torch.distributed.is_initialized():returntorch.distributed.barrier()torch.distributed.all_reduce(self.mat)def __str__(self):acc_global, acc, iu = self.compute()return ('global correct: {:.1f}\n''average row correct: {}\n''IoU: {}\n''mean IoU: {:.1f}').format(acc_global.item() * 100,['{:.1f}'.format(i) for i in (acc * 100).tolist()],['{:.1f}'.format(i) for i in (iu * 100).tolist()],iu.mean().item() * 100)
[epoch: 183]
train_loss: 0.3513
lr: 0.000010
global correct: 92.7
average row correct: ['97.1', '84.3', '70.9', '81.5', '67.0', '82.2', '77.7', '89.9', '93.2', '59.5', '50.4', '69.8', '80.4', '62.5', '86.1', '95.0', '70.8', '78.9', '62.9', '83.2', '88.4']
IoU: ['93.7', '82.7', '58.1', '75.1', '61.4', '69.4', '74.8', '77.8', '76.2', '37.3', '47.8', '57.7', '57.7', '56.9', '77.3', '87.9', '60.7', '63.9', '45.8', '71.9', '70.0']
mean IoU: 66.9

在这里插入图片描述
在这里插入图片描述

8、数据集

参照博文:
PASCAL VOC2012数据集详细介绍-5、语义分割任务
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8.1 数据集预处理

在这里插入图片描述
Random Resize
在这里插入图片描述
在对mask图像进行缩放时,必须采用最邻近插值法,以为如果采用双线性插值,回出现引入杂乱的像素值

RandomHorizontalFlip
在这里插入图片描述
RandomCrop
在这里插入图片描述
在这里插入图片描述
ToTensor
在这里插入图片描述
Normalize
在这里插入图片描述

9、Loss损失函数

采用交叉熵损失函数
在这里插入图片描述

10、学习策略

采用warm up热身训练,
在这里插入图片描述

11、测试效果

在这里插入图片描述
多GPU训练指令

python -m torch.distributed.launch --nproc_per_node=2 --use_env train_multi_GPU.py

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/141527.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

基于微信小程序的背单词学习激励系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言用户微信端的主要功能有&#xff1a;管理员的主要功能有&#xff1a;具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序&#xff08;小蔡coding&#xff09;有保障的售后福利 代码参考源码获取 前言 &#x1f497;博主介绍&#xff1a;✌全网粉…

什么是电源的纹波和噪声?

1、本文内容如有错误&#xff0c;欢迎交流指正。 2、本文仅作为本人学习笔记&#xff0c;部分内容来源于网络、书籍&#xff0c;如涉及侵权&#xff0c;请联系删除。 什么是纹波&#xff1f; 纹波是就是电源本身的一种周期性波动。 直流稳定电源一般是由交流电源经整流稳压形成…

拼多多商品详情数据接口

拼多多商品详情接口的具体内容。获取拼多多商品详情&#xff0c;可以参考如下方式&#xff1a; item_get_app-根据ID取商品详情原数据接口包括&#xff1a;标题&#xff0c;价格&#xff0c;促销价&#xff0c;优惠券&#xff0c;库存&#xff0c;销量&#xff0c;详情图片&am…

linux系统设置密钥登录

一、生成密钥文件 ssh-keygen -t 指定生成密钥的类型 -f 指定生成密钥的路径 -b 指定密钥长度&#xff0c;默认是2048 [rootlocalhost ~]# ssh-keygen -t rsa # 生成密钥对 Generating public/private rsa key pair. Enter file in which to save the key (/root/.ssh/id_rs…

算法与数据结构-堆

文章目录 什么是堆如何实现一个堆&#xff1f;如何基于堆实现排序&#xff1f;1. 建堆2. 排序 什么是堆 堆是一种特殊的树&#xff0c;特殊点有二&#xff0c;如下&#xff1a; 堆是一个完全二叉树&#xff1b;堆中每一个节点的值都必须大于等于&#xff08;或小于等于&#…

AxureRP制作静态站点发布互联网,实现公网访问【内网穿透】

AxureRP制作静态站点发布互联网&#xff0c;内网穿透实现公网访问 文章目录 AxureRP制作静态站点发布互联网&#xff0c;内网穿透实现公网访问前言1.在AxureRP中生成HTML文件2.配置IIS服务3.添加防火墙安全策略4.使用cpolar内网穿透实现公网访问4.1 登录cpolar web ui管理界面4…

网络安全CTF比赛有哪些事?——《CTF那些事儿》告诉你

目录 前言 一、内容简介 二、读者对象 三、专家推荐 四、全书目录 前言 CTF比赛是快速提升网络安全实战技能的重要途径&#xff0c;已成为各个行业选拔网络安全人才的通用方法。但是&#xff0c;本书作者在从事CTF培训的过程中&#xff0c;发现存在几个突出的问题&#xff1…

详解MySQL索引+面试题

前言: 📕作者简介:热爱编程的小七,致力于C、Java、Python等多编程语言,热爱编程和长板的运动少年! 📘相关专栏Java基础语法,JavaEE初阶,数据库,数据结构和算法系列等,大家有兴趣的可以看一看。 😇😇😇有兴趣的话关注博主一起学习,一起进步吧! 一、索引概述…

电缆直埋、电缆沟、电缆井大样图

一、图纸下载&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1_SUnhFHMUY8Q_kkhgzscDQ?pwd8888 提取码&#xff1a;8888 二、部分图纸预览

亚马逊儿童自行车,滑板车等电动移动设备合规标准UL报告如何办理?UL 2272、UL 2849

加拿大 儿童自行车 儿童自行车适用于 14 岁以下儿童。儿童自行车的车轮由两个轮子组成&#xff0c;一个在另一个后面&#xff0c;通过踩踏推动&#xff0c;用连接在前轮上的车把操纵。其中一些可能配备有训练轮&#xff0c;这是一对平行于后轮的额外的车轮&#xff0c;可防止自…

SAP FI FS10N排除特定凭证类型

财务要求 需要把CO类型的凭证去掉&#xff0c;经过调试发现 筛选条件在GT_selection 在这个函数里面做个增强试试 *----------------------------------------------------------------------* ***INCLUDE FAGL_FILL_GT_SELECTIONS . *------------------------------------…

论文阅读:AugGAN: Cross Domain Adaptation with GAN-based Data Augmentation

Abstract 基于GAN的图像转换方法存在两个缺陷&#xff1a;保留图像目标和保持图像转换前后的一致性&#xff0c;这导致不能用它生成大量不同域的训练数据。论文提出了一种结构感知(Structure-aware)的图像转换网络(image-to-image translation network)。 Proposed Framework…

【沐风老师】3DMAX翻转折叠动画插件FoldFx使用方法详解

3DMAX翻转折叠动画插件FoldFx使用方法详解 3DMAX翻转折叠动画插件FoldFx&#xff0c;是3dMax运动图形工具&#xff0c;用于创建多边形折叠动画。用户几乎有无限的可能性&#xff0c;因为动画的每个方面都是可控的。 【适用版本】 适用于3dMax版本&#xff1a;2010及更新版本&a…

结合Mockjs与Bus事件总线搭建首页导航和左侧菜单

&#x1f389;&#x1f389;欢迎来到我的CSDN主页&#xff01;&#x1f389;&#x1f389; &#x1f3c5;我是Java方文山&#xff0c;一个在CSDN分享笔记的博主。&#x1f4da;&#x1f4da; &#x1f31f;推荐给大家我的专栏《ELement》。&#x1f3af;&#x1f3af; &#x1…

微信公众号开发(BUG集)

1.微信公众平台接口错误:不合法的自定义菜单使用用户 地址&#xff1a;解决地址 2.微信公众平台接口错误:invalid ip 180.101.72.196 ipv6 ::ffff:180.101.72.196, not in whitelist rid: 6511420b-60c59249-01084d02 白名单离开放服务器IP

【postgresql】ERROR: cannot alter type of a column used by a view or rule

修改字段类型 由varchar 改为int8。 具体sql alter table company alter column city_id type int8 using city_id::int8; 返回错误信息 > ERROR: cannot alter type of a column used by a view or rule DETAIL: rule _RETURN on view search_qy depends on column …

https跳过SSL认证时是不是就是不加密的,相当于http?

https跳过SSL认证时是不是就是不加密的,相当于http?&#xff0c;其实不是&#xff0c;HTTPS跳过SSL认证并不相当于HTTP&#xff0c;也不意味着没有加密。请注意以下几点&#xff1a; HTTPS&#xff08;Hypertext Transfer Protocol Secure&#xff09;本质上是在HTTP的基础上…

QT-day5

1、添加注册功能到数据库 头文件 #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QMessageBox> //消息对话框类头文件 #include <QDebug> #include <QPushButton> #include <QSqlDatabase> //数据库管理类 #include…

美轮美奂,尽在眼前——Aerial for Mac 高清鸟瞰屏保程序

想要让您的 Mac 屏幕焕发别样风采&#xff1f;那么&#xff0c;Aerial for Mac 高清鸟瞰屏保程序一定不容错过。这款应用程序将为您带来最优质的高清鸟瞰视频壁纸&#xff0c;让您的屏幕焕发无限活力和美感。 Aerial for Mac 高清鸟瞰屏保程序是一款专为 Mac 设计的屏幕保护程…

如何在低代码平台中应用可视化编程

可视化编程&#xff0c;亦即可视化程序设计&#xff1a;以“所见即所得”的编程思想为原则&#xff0c;力图实现编程工作的可视化&#xff0c;即随时可以看到结果&#xff0c;程序与结果的调整同步。可视化编程的理念来源于可视化技术&#xff0c;它指的是一种把计算机程序中的…