DL_语义分割(学习笔记)

文章目录

图像分割
- 1 常见分类
- - 1.1 语义分割
  - 1.2 实例分割
  - 1.3 全景分割
- 2 语义分割
- - 2.1 模型评价指标
  - 2.2 常用数据集
  - 2.3 转置卷积
  - 2.4 膨胀卷积
  - 2.5 感受野
  - 2.6 双线性插值
  - 2.7 FCN

图像分割

1 常见分类

1.1 语义分割

定义：【只判断类别，无法区分个体】
- 语义分割是将图像中的每个像素分配一个类别标签，以实现对图像中不同对象的分类和区域划分。它关注的是图像中不同区域的语义含义，而不区分同一类别的不同实例。
- 例如，在一张包含人和汽车的图像中，语义分割会将所有的人标记为 “人” 这个类别，所有的汽车标记为 “汽车” 这个类别，而不会区分不同的个体人或汽车。
特点：
- 类别划分：对图像中的不同区域进行明确的类别划分，使得每个像素都被赋予一个特定的语义类别。这有助于理解图像的内容和结构，为图像分析和处理提供基础。
- 不区分实例：不区分同一类别的不同实例，即所有属于同一类别的像素被视为一个整体。这在一些场景下可以简化图像分析任务，但在需要区分个体对象的情况下可能不够精确。
- 应用广泛：语义分割在许多领域都有广泛的应用，如自动驾驶、医学影像分析、地理信息系统等。在自动驾驶中，语义分割可以帮助识别道路、车辆、行人等不同的对象，为车辆的决策和控制提供重要信息；在医学影像分析中，语义分割可以用于分割病变组织、器官等，辅助医生进行诊断和治疗。

1.2 实例分割

定义：
- 实例分割不仅要区分图像中的不同对象类别，还要区分同一类别的不同实例。它将图像中的每个对象作为一个独立的个体进行分割和标注，为每个对象分配一个唯一的标识符。
- 例如，在一张包含多个人和汽车的图像中，实例分割会将不同的人分别标记为 “人 1”、“人 2” 等，不同的汽车分别标记为 “汽车 1”、“汽车 2” 等。
特点：
- 精确分割：能够精确地分割出图像中的每个对象实例，为图像分析和处理提供更详细的信息。这对于需要对单个对象进行精确分析和处理的任务非常重要，如目标跟踪、三维重建等。
- 区分实例：与语义分割不同，实例分割区分同一类别的不同实例，为每个实例分配一个唯一的标识符。这需要更复杂的算法和模型，通常需要结合目标检测和语义分割的技术。
- 计算量大：由于需要对每个对象实例进行精确分割和标注，实例分割的计算量通常比语义分割更大。这需要更强大的计算资源和更高效的算法来实现实时处理。

1.3 全景分割

定义：
- 全景分割是将语义分割和实例分割相结合，同时对图像中的所有像素进行分类和实例标注，实现对图像的全面理解和分割。它将图像中的每个像素分配一个类别标签和一个实例标识符，使得每个像素都被明确地划分到一个特定的对象实例中。
- 例如，在一张包含多个人和汽车的图像中，全景分割会将不同的人分别标记为 “人 1”、“人 2” 等，不同的汽车分别标记为 “汽车 1”、“汽车 2” 等，同时将背景像素标记为相应的类别标签。
特点：
- 全面分割：结合了语义分割和实例分割的优点，能够对图像进行全面的分割和标注。这为图像分析和处理提供了最详细和全面的信息，有助于实现更复杂的视觉任务。
- 统一框架：提供了一个统一的框架，将语义分割和实例分割整合在一起，使得不同的分割任务可以在一个统一的模型中进行处理。这有助于提高算法的效率和性能，减少模型的复杂性。
- 应用挑战：由于需要同时进行语义分割和实例分割，全景分割的计算量和难度都比较大。这需要更先进的算法和技术来实现高效的处理，同时也需要更多的标注数据来训练模型。

在这里插入图片描述

2 语义分割

2.1 模型评价指标

在FCN论文中，有指出：

在这里插入图片描述

下列假设中：一共有五个类别标签【0-4】，按照顺序填写右侧二维表格。

0的填补为例：将真实0单独用白色表级，其他为灰色。将预测中的0，与真实标签对应的用绿色，被错误预测为0的用红色。

在这里插入图片描述

1的填补：

在这里插入图片描述

最终填补完成。

在这里插入图片描述

各指标计算：

pixel accuracy： $\frac{\sum_{i}n_{ii}}{\sum_{i}t_{i}}$

$n_{ii}$ 代表第i个标签，预测正确的个数。【表格中的对角线上的数值，即为每个标签预测正确的个数】

$t_{i}$ 代表每个标签的个数，加上 $\sum$ 符号就是求所有标签之和【该例子中：8*8，或者二维表格中所有数值的和】

在这里插入图片描述

mean accuraccy：【各标签正确率的平均值】

在这里插入图片描述

mean IU:

在这里插入图片描述

2.2 常用数据集

在这里插入图片描述

pascal voc数据集

在这里插入图片描述

2007数据集结构详情：

在这里插入图片描述

2012数据集结构详情：

在这里插入图片描述

Pascal VOC 2007 和 2012 数据结构的区别如下：

Pascal VOC 2012 的数据集是在之前几年数据集上扩增的，文件名中包含年份，而 Pascal VOC 2007 的文件名中不包含。

例如，Pascal VOC 2007 的标注文件名和图像文件名类似为 “000005.xml”“000005.jpg”；Pascal VOC 2012 的标注文件名和图像文件名类似为 “2007000027.xml”“2007000039.png”。
Pascal VOC 2012 的 ImageSets 中包括 Action 文件，用于动作识别任务的数据集划分；而 Pascal VOC 2007 的 ImageSets 文件中不包含，因为动作识别任务是 2010 年才有的。
xml 的标注文件内容有所不同，比如 2012 版本中有的图像标注有动作信息<actions>。

xml标注文件详解：

<annotation><folder>VOC2012</folder><filename>2007_000027.jpg</filename><source><database>The VOC2007 Database</database><annotation>PASCAL VOC2007</annotation><image>flickr</image></source><size><width>486</width><height>500</height><depth>3</depth></size><segmented>0</segmented><object><name>person</name><pose>Unspecified</pose><truncated>0</truncated><difficult>0</difficult><bndbox><xmin>174</xmin><ymin>101</ymin><xmax>349</xmax><ymax>351</ymax></bndbox><part><name>head</name><bndbox><xmin>169</xmin><ymin>104</ymin><xmax>209</xmax><ymax>146</ymax></bndbox></part><part><name>hand</name><bndbox><xmin>278</xmin><ymin>210</ymin><xmax>297</xmax><ymax>233</ymax></bndbox></part><part><name>foot</name><bndbox><xmin>273</xmin><ymin>333</ymin><xmax>297</xmax><ymax>354</ymax></bndbox></part><part><name>foot</name><bndbox><xmin>319</xmin><ymin>307</ymin><xmax>340</xmax><ymax>326</ymax></bndbox></part></object>
</annotation>

annotation：标注文件的根节点，包含整个标注信息。

包含以下子节点：
- folder：图像所在的文件夹名称。
- filename：图像的文件名。
- source：图像来源。
- owner：图像拥有者。
- size：图像的尺寸信息，包括宽度、高度、深度。
- segmented：是否被分割标注过，值为 0 表示未被分割标注，值为 1 表示被分割标注。
- object:
- ：图像中的一个物体，包含以下信息：
  - name：物体的类别名称，有 20 个类别。
  - bndbox：物体的边界框信息，包括左上角和右下角的坐标，具体为xmin（边界框左上角的 x 坐标）、ymin（边界框左上角的 y 坐标）、xmax（边界框右下角的 x 坐标）、ymax（边界框右下角的 y 坐标）。
  - difficult：标记物体是否难以识别的标志，0 表示容易识别，1 表示难以识别。
  - truncated：标记物体是否被截断，0 表示未被截断，1 表示被截断（比如在图片之外或者被遮挡超过 15%）。
- pose：标记物体的姿态，例如正面、侧面等。
- part: 代表人体的各部分布局标签。
一个Object代表图像中的一个物体。

对于语义分割标注图像：

在这里插入图片描述

2.3 转置卷积

一、转置卷积的定义【≠卷积的逆运算】

转置卷积（Transposed Convolution），也被称为反卷积（Deconvolution），是一种在深度学习中用于上采样图像或特征图的操作。它与普通卷积操作相反，普通卷积通常会降低图像的空间分辨率，而转置卷积则试图增加图像的空间分辨率。转置卷积在神经网络中主要用于图像生成、超分辨率重建、语义分割等任务中，特别是当需要从低分辨率的特征表示恢复到高分辨率的图像或特征图时。

二、转置卷积的计算方法

转置卷积可以看作是一种特殊的卷积操作，其过程可以通过在输入特征图的每个像素之间插入零值，然后进行正常的卷积操作来实现。

假设输入特征图的大小为 $H_{in}×W_{in}$ ，卷积核的大小为 $K \times K$ ，步长为 $S$ ，填充为 $P$ ，则输出特征图的大小 $H_{out}×W_{out}$ 可以通过以下公式计算：

$H_{out}=(H_{in}-1)×S+K-2P$
$W_{out}=(W_{in}-1)×S+K-2P$

在转置卷积中，已知输出特征图的大小和卷积核的参数，可以通过上述公式反推出输入特征图的大小，从而实现从高分辨率的输出特征图到低分辨率的输入特征图的反向映射。

在这里插入图片描述

计算示例：

在这里插入图片描述

拓展：

普通卷积计算：

在这里插入图片描述

将普通的计算结果进行拆解，就是如下，四个卷积等效矩阵：

在这里插入图片描述

换一种思路，将特征图和等效矩阵展平：

在这里插入图片描述

问题：已知C【16*4】，O【1*4】,那么是否可以通过乘以某个矩阵得到I，显然是不太容易找到的【这里因为C不是方阵，所以必定不可逆，所以想通过左右都乘以C的逆矩阵是行不通的，C都不存在逆矩阵】

那么，是否可以使得O乘以某个矩阵【C的转置矩阵】，得到I【1*16】呐？显然可以，这里的I不一定和原来的I相同。

在这里插入图片描述

三、转置卷积的用途

图像生成： - 在生成对抗网络（GAN）和变分自编码器（VAE）等图像生成模型中，转置卷积被用于从低维的潜在空间生成高分辨率的图像。通过逐步上采样低分辨率的特征表示，最终可以生成与原始图像大小相同的高质量图像。 - 例如，在一个基于 GAN 的图像生成模型中，生成器网络通常使用转置卷积来将随机噪声向量逐步上采样为图像。首先，一个低维的随机噪声向量被输入到生成器网络中，然后通过一系列的转置卷积层，逐步增加图像的空间分辨率，最终生成一个逼真的高分辨率图像。
超分辨率重建： - 转置卷积可以用于超分辨率重建任务，即从低分辨率的图像恢复出高分辨率的图像。通过学习低分辨率图像和高分辨率图像之间的映射关系，转置卷积可以在不丢失细节的情况下增加图像的分辨率。 - 例如，在一个超分辨率重建模型中，输入的低分辨率图像首先经过一系列的卷积层提取特征，然后通过转置卷积层进行上采样，最终生成高分辨率的图像。通过训练模型，可以使生成的高分辨率图像尽可能接近原始的高分辨率图像。
语义分割： - 在语义分割任务中，转置卷积可以用于恢复图像的空间分辨率，以便更好地进行像素级别的分类。通常，语义分割模型会使用卷积神经网络对输入图像进行下采样，以提取高级别的语义特征。然后，通过转置卷积层将这些特征上采样回原始图像的大小，以便为每个像素分配一个类别标签。 - 例如，在一个基于全卷积网络（FCN）的语义分割模型中，输入图像经过一系列的卷积层和池化层进行下采样，得到一个低分辨率的特征图。然后，通过转置卷积层对这个特征图进行上采样，恢复到原始图像的大小。最后，使用一个 softmax 分类器为每个像素分配一个类别标签，实现语义分割。

2.4 膨胀卷积

在这里插入图片描述

Dilated convolution也被称为 atrous convolution（空洞卷积）。

一、定义与原理

空洞卷积是在标准卷积的基础上引入了一个 “膨胀率”（dilation rate）的概念。在标准卷积中，卷积核的每个元素都与输入特征图上相邻的元素进行计算。而在空洞卷积中，卷积核的元素之间插入了一定数量的 “空洞”，使得卷积核在与输入特征图进行计算时，能够覆盖更大的感受野。

例如，对于一个 3×3 的卷积核，如果膨胀率为 2【r=2，如上图所示，每个元素之间的距离为2】，那么实际上这个卷积核的大小变为 5×5，但其中只有 9 个元素是有效的，其余位置都是空洞。这样，在进行卷积计算时，这个卷积核能够覆盖更大的输入区域，从而获得更大的感受野。

二、特点

更大的感受野：
- 空洞卷积能够在不增加卷积核参数数量的情况下，扩大卷积核的感受野。这对于处理图像等具有空间结构的数据非常有用，可以让模型更好地捕捉全局信息。
- 例如，在上述图片中，普通卷积的输出每个像素对应3*3的视野大小，而膨胀卷积每个像素对应的感受野是5*5大小。
  
  疑问：虽然视野变大了，但是在整个视野范围内，处于间隔位置的像素信息，不是没有被采集到吗，这难道不是一个问题吗？（网格问题）
保持分辨率(也说空间维度，即W,H的大小)：
- 与传统的下采样方法（如池化）相比，空洞卷积可以在扩大感受野的同时保持输入特征图的分辨率。这对于需要保留精细细节的任务非常重要。【调整padding和stride的值】

三、缺点

Gridding Effect（网格效应）是由空洞卷积(Dilated Convolution)引发的问题。空洞卷积通过在卷积核的元素之间插入空洞（不计算的像素点）来扩大感受野，使卷积核能够捕捉更大范围的上下文信息。然而，由于卷积核之间的像素点被“跳过”，这会导致输入特征图中的某些像素点没有被覆盖到，会跳过较多像素，导致某些区域的感知信息稀疏，形成了一种不连续的“网格”效应。

造成的问题

网格效应会导致特征图中部分像素之间的连接性减弱，进而影响网络的性能，尤其是在处理细节丰富或者复杂的图像时会出现以下问题：

信息丢失：由于卷积操作跳过了一些像素点，导致特征图中的某些信息无法有效提取，尤其是对于局部细节的感知变得稀疏和不连贯。
分辨率降低：网络对于细节的捕捉能力减弱，特别是对于像素级任务（如语义分割、边缘检测），网格效应会导致对物体边缘、纹理等细节的捕捉变得不准确，导致最终输出图像出现伪影或不连续性。
不连续性：由于卷积核在输入图像上跳跃地计算，最终可能导致特征图中的不同区域之间产生不连续性，形成类似网格的斑点。

【 HDC 框架出处：Understanding Convolution for Semantic Segmentation】

针对标准膨胀卷积中存在的 “网格问题”，提出了 HDC 框架是一种为了解决网格效应提出的方法。它的核心思想是通过不同层级的卷积核使用不同的空洞率，从而减少感受野的稀疏性。具体来说，HDC 的每一层会使用不同的空洞率，使得网络感受野在不同层次上既能够增大，又不会因为过高的空洞率导致跳过大量像素，从而减轻网格问题，同时自然地扩大了网络的感受野，有助于识别较大的物体。

在这里插入图片描述

2.5 感受野

感受野在卷积神经网络（CNN）中是指网络的某一层中的一个神经元“看”到的输入数据的范围。通俗来说，感受野就是一个神经元在输入图像中能够感知到的区域，类似于人眼的视野。

在这里插入图片描述

神经元感受野的值越大表示其能接触到的原始图像范围就越大，也意味着它可能蕴含更为全局，语义层次更高的特征；相反，值越小则表示其所包含的特征越趋向局部和细节。

能改变感受野的操作：

卷积操作、反卷积操作、池化操作、残差链接、合并

不会改变感受野的操作：

非线性层、归一化操作

感受野大小的计算公式：

在这里插入图片描述

膨胀卷积核大小计算方式： $k_l=k+(k-1)*(r-1)$

例1：浅绿色部分代表感受野的大小。【红色代表参数】

【第一次卷积操作时，一般取值 $r_0=1,s_0=1$ 】

下述例子中的r取值：r=[1,2,4]，步幅s=1固定不变，卷积核k=3*3

第一层：
$k_1=3+(3-1)*(1-1)=3$

$r_1=1+（3-1）*1=3$

第二层：
$k_2=3+(3-1)*(2-1)=5$

$r_2=3+(5-1)*(1*1)=7$

第二层：
$k_3=3+(3-1)*(4-1)=9$

$r_3=7+(9-1)*(1*1*1)=15$

在这里插入图片描述

==例2：==该图片是描述网格问题的，这里我们拿来做一次计算练习（蓝色是区域代表的是感受野）

图片出处：Understanding Convolution for Semantic Segmentation

在这里插入图片描述

a图：k=3，r=[2,2,2]，【第一次卷积操作时，一般取值 $r_0=1,s_0=1$ 】

第一层：
$k_1=3+(3-1)*(2-1)=5$

$r_1=1+（5-1）*1=5$

第二层：
$k_2=3+(3-1)*(2-1)=5$

$r_2=5+(5-1)*(1*1)=9$

第二层：
$k_3=3+(3-1)*(2-1)=5$

$r_3=9+(5-1)*(1*1*1)=13$

b图：k=3，r=[1,2,3]，【第一次卷积操作时，一般取值 $r_0=1,s_0=1$ 】

第一层：
$k_1=3+(3-1)*(1-1)=3$

$r_1=1+（3-1）*1=3$

第二层：
$k_2=3+(3-1)*(2-1)=5$

$r_2=3+(5-1)*(1*1)=7$

第二层：
$k_3=3+(3-1)*(3-1)=7$

$r_3=7+(7-1)*(1*1*1)=13$

感受野中心的计算公式：

在这里插入图片描述

2.6 双线性插值

双线性插值是一种在图像处理中常用的插值方法，用于在放大或缩小图像时估计新像素的颜色值。【更直白一点：双线性插值就是使用已有的像素点来计算其他像素点从而实现像素的扩充，也就是说双线性插值是在像素层面的计算。】

双：两条

线性：通过线性的方式来用已知像素值计算未知的像素值

插值：通过周围已知的像素值来计算一些原本没有给出的像素值

使用双线性插值进行上采样的操作步骤如下：

确定目标图像的大小：首先，明确需要将原始图像上采样到的目标尺寸，例如将图像的宽度和高度扩大一定的倍数。
计算新像素的坐标：对于目标图像中的每个新像素，计算其在原始图像中的对应坐标。由于上采样会增加像素数量，新像素的坐标可能不是整数，而是小数。
找到相邻的四个像素：根据新像素的坐标，确定其在原始图像中相邻的四个像素。这四个像素将用于进行双线性插值计算。
进行水平方向的插值：在水平方向上，使用相邻两个像素的颜色值进行线性插值。

计算：

以线性插值为例：(单条直线)

已知数据 $x_0$ (x0, y0) 与 $x_1$ (x1, y1)，要计算 [x0, x1] 区间内某一位置 x 在直线上的y值。
$\frac{y - y_{0}}{x - x_{0}} = \frac{y_{1} - y_{0}}{x_{1} - x_{0}}$
两点之间的直线斜率
$\frac{x_{1} - x}{x_{1} - x_{0}} y_{0} + \frac{x - x_{0}}{x_{1} - x_{0}} y_{1}$
对上述公式化简【 ${x_{1} - x}$ ( $x_1距离x的距离$ ) ${x_{1} - x_{0}}$ ( $x_1距离x_0的距离$ ) , $\frac{x_{1} - x}{x_{1} - x_{0}}代表距离权重$ 】

延伸到双线性插值：（两条直线）

在这里插入图片描述

这个公式是通过线性插值的方法得来的。假设我们要在点 $Q_{12} = (x_1, y_2)$ 和 $Q_{22} = (x_2, y_2)$ 之间进行线性插值来估计点 $R_2 = (x, y_2)$ 的函数值 $f(R_2)$ 。我们可以考虑点 $R_2$ 在 $x$ 方向上与 $Q_{12}$ 和 $Q_{22}$ 的位置关系。

根据线性插值的原理，我们可以用以下方式计算 $f(R_2)$ ：

首先，计算点 $R_2$ 与 $Q_{12}$ 之间的距离占总距离的比例，即： $\frac{x - x_1}{x_2 - x_1}$ 然后，计算点 $R_2$ 与 $Q_{22}$ 之间的距离占总距离的比例，即：

$\frac{x_2 - x}{x_2 - x_1}$ 。接下来，我们根据这两个比例来加权计算 $f(R_2)$ 。具体来说，我们用 $Q_{12}$ 的函数值 $f(Q_{12})$ 乘以点 $R_2$ 与 $Q_{22}$ 之间的距离比例，再加上 $Q_{22}$ 的函数值 $f(Q_{22})$ 乘以点 $R_2$ 与 $Q_{12}$ 之间的距离比例，即：
$f(R_2) \approx \frac{x_2 - x}{x_2 - x_1} f(Q_{12}) + \frac{x - x_1}{x_2 - x_1} f(Q_{22})$

这样，我们就得到了公式 $f(R_2) \approx \frac{x_2 - x}{x_2 - x_1} f(Q_{12}) + \frac{x - x_1}{x_2 - x_1} f(Q_{22})$ 。这种线性插值的方法在许多情况下可以用来估计函数在某一点的近似值，特别是当我们知道函数在一些离散点上的值时，可以通过插值来得到其他点的估计值。

假如我们想得到未知函数 f 在点 P = (x, y) 的值，假设我们已知函数 f 在 Q11 = (x1, y1)、Q12 = (x1, y2), Q21 = (x2, y1) 以及 Q22 = (x2, y2) 四个点的值。

首先在 x 方向进行线性插值，得到

在这里插入图片描述

然后在 y 方向进行线性插值利用 $R_1(x,y_1),R_2(x,y_2)$ ，得到

在这里插入图片描述

这样就得到所要的结果 f(x, y)，

在这里插入图片描述

而一般所举例子中为了简化计算，假设的像素点之间的间距值都为1，也即 $x_2-x_1=1,y_2-y_1=1$ 。所以上述公式可以化简。

实现的对齐方式差别，计算公式不变。

在这里插入图片描述

计算举例：

在这里插入图片描述

2.7 FCN

首个端到端的全卷积网络【将全连接层替换为卷积】

在这里插入图片描述

将全连接层替换为卷积层：

在这里插入图片描述

FCN模型结构（32,16,8）文中是以VGG为backbone的。

在这里插入图片描述

pascal voc 是20类别的，加上背景一共是21类别。

语义分割使用的数据部分：

在这里插入图片描述

数据图像是单通道的，但是显示像是彩色图片，这是因为被处理过了。

在这里插入图片描述

使用的pytorch框架中的fcn_resnet50。

pytorch官网，对于fcn_resnet50的描述：https://pytorch.org/vision/stable/models/generated/torchvision.models.segmentation.fcn_resnet50.html#torchvision.models.segmentation.fcn_resnet50

在这里插入图片描述