DL_语义分割(学习笔记)

文章目录

  • 图像分割
    • 1 常见分类
      • 1.1 语义分割
      • 1.2 实例分割
      • 1.3 全景分割
    • 2 语义分割
      • 2.1 模型评价指标
      • 2.2 常用数据集
      • 2.3 转置卷积
      • 2.4 膨胀卷积
      • 2.5 感受野
      • 2.6 双线性插值
      • 2.7 FCN

图像分割

1 常见分类

1.1 语义分割

  1. 定义:【只判断类别,无法区分个体】
    • 语义分割是将图像中的每个像素分配一个类别标签,以实现对图像中不同对象的分类和区域划分。它关注的是图像中不同区域的语义含义,而不区分同一类别的不同实例
    • 例如,在一张包含人和汽车的图像中,语义分割会将所有的人标记为 “人” 这个类别,所有的汽车标记为 “汽车” 这个类别,而不会区分不同的个体人或汽车。
  2. 特点
    • 类别划分:对图像中的不同区域进行明确的类别划分,使得每个像素都被赋予一个特定的语义类别。这有助于理解图像的内容和结构,为图像分析和处理提供基础。
    • 不区分实例:不区分同一类别的不同实例,即所有属于同一类别的像素被视为一个整体。这在一些场景下可以简化图像分析任务,但在需要区分个体对象的情况下可能不够精确。
    • 应用广泛:语义分割在许多领域都有广泛的应用,如自动驾驶、医学影像分析、地理信息系统等。在自动驾驶中,语义分割可以帮助识别道路、车辆、行人等不同的对象,为车辆的决策和控制提供重要信息;在医学影像分析中,语义分割可以用于分割病变组织、器官等,辅助医生进行诊断和治疗。

1.2 实例分割

  1. 定义
    • 实例分割不仅要区分图像中的不同对象类别,还要区分同一类别的不同实例。它将图像中的每个对象作为一个独立的个体进行分割和标注,为每个对象分配一个唯一的标识符。
    • 例如,在一张包含多个人和汽车的图像中,实例分割会将不同的人分别标记为 “人 1”、“人 2” 等,不同的汽车分别标记为 “汽车 1”、“汽车 2” 等。
  2. 特点
    • 精确分割:能够精确地分割出图像中的每个对象实例,为图像分析和处理提供更详细的信息。这对于需要对单个对象进行精确分析和处理的任务非常重要,如目标跟踪、三维重建等。
    • 区分实例:与语义分割不同,实例分割区分同一类别的不同实例,为每个实例分配一个唯一的标识符。这需要更复杂的算法和模型,通常需要结合目标检测和语义分割的技术。
    • 计算量大:由于需要对每个对象实例进行精确分割和标注,实例分割的计算量通常比语义分割更大。这需要更强大的计算资源和更高效的算法来实现实时处理。

1.3 全景分割

  1. 定义
    • 全景分割是将语义分割和实例分割相结合,同时对图像中的所有像素进行分类和实例标注,实现对图像的全面理解和分割。它将图像中的每个像素分配一个类别标签和一个实例标识符,使得每个像素都被明确地划分到一个特定的对象实例中。
    • 例如,在一张包含多个人和汽车的图像中,全景分割会将不同的人分别标记为 “人 1”、“人 2” 等,不同的汽车分别标记为 “汽车 1”、“汽车 2” 等,同时将背景像素标记为相应的类别标签
  2. 特点
    • 全面分割:结合了语义分割和实例分割的优点,能够对图像进行全面的分割和标注。这为图像分析和处理提供了最详细和全面的信息,有助于实现更复杂的视觉任务。
    • 统一框架:提供了一个统一的框架,将语义分割和实例分割整合在一起,使得不同的分割任务可以在一个统一的模型中进行处理。这有助于提高算法的效率和性能,减少模型的复杂性。
    • 应用挑战:由于需要同时进行语义分割和实例分割,全景分割的计算量和难度都比较大。这需要更先进的算法和技术来实现高效的处理,同时也需要更多的标注数据来训练模型。

在这里插入图片描述

2 语义分割

2.1 模型评价指标

在FCN论文中,有指出:

在这里插入图片描述

在这里插入图片描述

下列假设中:一共有五个类别标签【0-4】,按照顺序填写右侧二维表格。

0的填补为例:将真实0单独用白色表级,其他为灰色。将预测中的0,与真实标签对应的用绿色,被错误预测为0的用红色。

在这里插入图片描述

1的填补:

在这里插入图片描述

最终填补完成。

在这里插入图片描述

各指标计算:

pixel accuracy ∑ i n i i ∑ i t i \frac{\sum_{i}n_{ii}}{\sum_{i}t_{i}} itiinii

n i i n_{ii} nii代表第i个标签,预测正确的个数。【表格中的对角线上的数值,即为每个标签预测正确的个数】

t i t_{i} ti代表每个标签的个数,加上 ∑ ∑ 符号就是求所有标签之和【该例子中:8*8,或者二维表格中所有数值的和】

在这里插入图片描述

mean accuraccy:【各标签正确率的平均值】

在这里插入图片描述

mean IU:

在这里插入图片描述

2.2 常用数据集

在这里插入图片描述

pascal voc数据集

在这里插入图片描述

2007数据集结构详情:

在这里插入图片描述

2012数据集结构详情:

在这里插入图片描述

Pascal VOC 2007 和 2012 数据结构的区别如下:

  1. Pascal VOC 2012 的数据集是在之前几年数据集上扩增的,文件名中包含年份,而 Pascal VOC 2007 的文件名中不包含。

    例如,Pascal VOC 2007 的标注文件名和图像文件名类似为 “000005.xml”“000005.jpg”;Pascal VOC 2012 的标注文件名和图像文件名类似为 “2007000027.xml”“2007000039.png”。

  2. Pascal VOC 2012 的 ImageSets 中包括 Action 文件,用于动作识别任务的数据集划分;而 Pascal VOC 2007 的 ImageSets 文件中不包含,因为动作识别任务是 2010 年才有的。

  3. xml 的标注文件内容有所不同,比如 2012 版本中有的图像标注有动作信息<actions>

xml标注文件详解:

<annotation><folder>VOC2012</folder><filename>2007_000027.jpg</filename><source><database>The VOC2007 Database</database><annotation>PASCAL VOC2007</annotation><image>flickr</image></source><size><width>486</width><height>500</height><depth>3</depth></size><segmented>0</segmented><object><name>person</name><pose>Unspecified</pose><truncated>0</truncated><difficult>0</difficult><bndbox><xmin>174</xmin><ymin>101</ymin><xmax>349</xmax><ymax>351</ymax></bndbox><part><name>head</name><bndbox><xmin>169</xmin><ymin>104</ymin><xmax>209</xmax><ymax>146</ymax></bndbox></part><part><name>hand</name><bndbox><xmin>278</xmin><ymin>210</ymin><xmax>297</xmax><ymax>233</ymax></bndbox></part><part><name>foot</name><bndbox><xmin>273</xmin><ymin>333</ymin><xmax>297</xmax><ymax>354</ymax></bndbox></part><part><name>foot</name><bndbox><xmin>319</xmin><ymin>307</ymin><xmax>340</xmax><ymax>326</ymax></bndbox></part></object>
</annotation>
  1. annotation:标注文件的根节点,包含整个标注信息。

    包含以下子节点:

    • folder:图像所在的文件夹名称。
    • filename:图像的文件名。
    • source:图像来源。
    • owner:图像拥有者。
    • size:图像的尺寸信息,包括宽度、高度、深度。
    • segmented:是否被分割标注过,值为 0 表示未被分割标注,值为 1 表示被分割标注。
    • object:
    • :图像中的一个物体,包含以下信息:
      • name:物体的类别名称,有 20 个类别。
      • bndbox:物体的边界框信息,包括左上角和右下角的坐标,具体为xmin(边界框左上角的 x 坐标)、ymin(边界框左上角的 y 坐标)、xmax(边界框右下角的 x 坐标)、ymax(边界框右下角的 y 坐标)。
      • difficult:标记物体是否难以识别的标志,0 表示容易识别,1 表示难以识别。
      • truncated:标记物体是否被截断,0 表示未被截断,1 表示被截断(比如在图片之外或者被遮挡超过 15%)。
    • pose:标记物体的姿态,例如正面、侧面等。
    • part: 代表人体的各部分布局标签。
  2. 一个Object代表图像中的一个物体。

对于语义分割标注图像:

在这里插入图片描述

2.3 转置卷积

一、转置卷积的定义【≠卷积的逆运算】

转置卷积(Transposed Convolution),也被称为反卷积(Deconvolution),是一种在深度学习中用于上采样图像或特征图的操作。它与普通卷积操作相反,普通卷积通常会降低图像的空间分辨率,而转置卷积则试图增加图像的空间分辨率。 转置卷积在神经网络中主要用于图像生成、超分辨率重建、语义分割等任务中,特别是当需要从低分辨率的特征表示恢复到高分辨率的图像或特征图时。

二、转置卷积的计算方法

转置卷积可以看作是一种特殊的卷积操作,其过程可以通过在输入特征图的每个像素之间插入零值,然后进行正常的卷积操作来实现。

假设输入特征图的大小为 H i n × W i n H_{in}×W_{in} Hin×Win,卷积核的大小为 K × K K×K K×K,步长为 S S S,填充为 P P P,则输出特征图的大小 H o u t × W o u t H_{out}×W_{out} Hout×Wout 可以通过以下公式计算:

  • H o u t = ( H i n − 1 ) × S + K − 2 P H_{out}=(H_{in}-1)×S+K-2P Hout=(Hin1)×S+K2P

  • W o u t = ( W i n − 1 ) × S + K − 2 P W_{out}=(W_{in}-1)×S+K-2P Wout=(Win1)×S+K2P

在转置卷积中,已知输出特征图的大小和卷积核的参数,可以通过上述公式反推出输入特征图的大小,从而实现从高分辨率的输出特征图到低分辨率的输入特征图的反向映射。

在这里插入图片描述

计算示例:

在这里插入图片描述

拓展:

普通卷积计算:

在这里插入图片描述

将普通的计算结果进行拆解,就是如下,四个卷积等效矩阵:

在这里插入图片描述

换一种思路,将特征图和等效矩阵展平:

在这里插入图片描述

问题:已知C【16*4】,O【1*4】,那么是否可以通过乘以某个矩阵得到I,显然是不太容易找到的【这里因为C不是方阵,所以必定不可逆,所以想通过左右都乘以C的逆矩阵是行不通的,C都不存在逆矩阵】

那么,是否可以使得O乘以某个矩阵【C的转置矩阵】,得到I【1*16】呐?显然可以,这里的I不一定和原来的I相同。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

三、转置卷积的用途

  1. 图像生成: - 在生成对抗网络(GAN)和变分自编码器(VAE)等图像生成模型中,转置卷积被用于从低维的潜在空间生成高分辨率的图像。通过逐步上采样低分辨率的特征表示,最终可以生成与原始图像大小相同的高质量图像。 - 例如,在一个基于 GAN 的图像生成模型中,生成器网络通常使用转置卷积来将随机噪声向量逐步上采样为图像。首先,一个低维的随机噪声向量被输入到生成器网络中,然后通过一系列的转置卷积层,逐步增加图像的空间分辨率,最终生成一个逼真的高分辨率图像。
  2. 超分辨率重建: - 转置卷积可以用于超分辨率重建任务,即从低分辨率的图像恢复出高分辨率的图像。通过学习低分辨率图像和高分辨率图像之间的映射关系,转置卷积可以在不丢失细节的情况下增加图像的分辨率。 - 例如,在一个超分辨率重建模型中,输入的低分辨率图像首先经过一系列的卷积层提取特征,然后通过转置卷积层进行上采样,最终生成高分辨率的图像。通过训练模型,可以使生成的高分辨率图像尽可能接近原始的高分辨率图像。
  3. 语义分割: - 在语义分割任务中,转置卷积可以用于恢复图像的空间分辨率,以便更好地进行像素级别的分类。通常,语义分割模型会使用卷积神经网络对输入图像进行下采样,以提取高级别的语义特征。然后,通过转置卷积层将这些特征上采样回原始图像的大小,以便为每个像素分配一个类别标签。 - 例如,在一个基于全卷积网络(FCN)的语义分割模型中,输入图像经过一系列的卷积层和池化层进行下采样,得到一个低分辨率的特征图。然后,通过转置卷积层对这个特征图进行上采样,恢复到原始图像的大小。最后,使用一个 softmax 分类器为每个像素分配一个类别标签,实现语义分割。

2.4 膨胀卷积

在这里插入图片描述

Dilated convolution也被称为 atrous convolution(空洞卷积)。

一、定义与原理

空洞卷积是在标准卷积的基础上引入了一个 “膨胀率”(dilation rate)的概念。在标准卷积中,卷积核的每个元素都与输入特征图上相邻的元素进行计算。而在空洞卷积中,卷积核的元素之间插入了一定数量的 “空洞”,使得卷积核在与输入特征图进行计算时,能够覆盖更大的感受野。

例如,对于一个 3×3 的卷积核,如果膨胀率为 2【r=2,如上图所示,每个元素之间的距离为2】,那么实际上这个卷积核的大小变为 5×5,但其中只有 9 个元素是有效的,其余位置都是空洞。这样,在进行卷积计算时,这个卷积核能够覆盖更大的输入区域,从而获得更大的感受野。

二、特点

  1. 更大的感受野

    • 空洞卷积能够在不增加卷积核参数数量的情况下,扩大卷积核的感受野。这对于处理图像等具有空间结构的数据非常有用,可以让模型更好地捕捉全局信息。

    • 例如,在上述图片中,普通卷积的输出每个像素对应3*3的视野大小,而膨胀卷积每个像素对应的感受野是5*5大小。

      疑问:虽然视野变大了,但是在整个视野范围内,处于间隔位置的像素信息,不是没有被采集到吗,这难道不是一个问题吗?(网格问题)

  2. 保持分辨率(也说空间维度,即W,H的大小):

    • 与传统的下采样方法(如池化)相比,空洞卷积可以在扩大感受野的同时保持输入特征图的分辨率。这对于需要保留精细细节的任务非常重要。【调整padding和stride的值】

三、缺点

Gridding Effect(网格效应)是由空洞卷积(Dilated Convolution)引发的问题。空洞卷积通过在卷积核的元素之间插入空洞(不计算的像素点)来扩大感受野,使卷积核能够捕捉更大范围的上下文信息。然而,由于卷积核之间的像素点被“跳过”,这会导致输入特征图中的某些像素点没有被覆盖到,会跳过较多像素,导致某些区域的感知信息稀疏,形成了一种不连续的“网格”效应。

造成的问题

网格效应会导致特征图中部分像素之间的连接性减弱,进而影响网络的性能,尤其是在处理细节丰富或者复杂的图像时会出现以下问题:

  1. 信息丢失:由于卷积操作跳过了一些像素点,导致特征图中的某些信息无法有效提取,尤其是对于局部细节的感知变得稀疏和不连贯。

  2. 分辨率降低:网络对于细节的捕捉能力减弱,特别是对于像素级任务(如语义分割、边缘检测),网格效应会导致对物体边缘、纹理等细节的捕捉变得不准确,导致最终输出图像出现伪影或不连续性。

  3. 不连续性:由于卷积核在输入图像上跳跃地计算,最终可能导致特征图中的不同区域之间产生不连续性,形成类似网格的斑点。

HDC 框架出处:Understanding Convolution for Semantic Segmentation

针对标准膨胀卷积中存在的 “网格问题”,提出了 HDC 框架是一种为了解决网格效应提出的方法。它的核心思想是通过不同层级的卷积核使用不同的空洞率,从而减少感受野的稀疏性。具体来说,HDC 的每一层会使用不同的空洞率,使得网络感受野在不同层次上既能够增大,又不会因为过高的空洞率导致跳过大量像素,从而减轻网格问题,同时自然地扩大了网络的感受野,有助于识别较大的物体。

在这里插入图片描述

2.5 感受野

感受野在卷积神经网络(CNN)中是指网络的某一层中的一个神经元“看”到的输入数据的范围。通俗来说,感受野就是一个神经元在输入图像中能够感知到的区域,类似于人眼的视野。

在这里插入图片描述

神经元感受野的值越大表示其能接触到的原始图像范围就越大,也意味着它可能蕴含更为全局,语义层次更高的特征;相反,值越小则表示其所包含的特征越趋向局部和细节。

能改变感受野的操作:

卷积操作、反卷积操作、池化操作、残差链接、合并

不会改变感受野的操作:

非线性层、归一化操作

感受野大小的计算公式:

在这里插入图片描述

膨胀卷积核大小计算方式 k l = k + ( k − 1 ) ∗ ( r − 1 ) k_l=k+(k-1)*(r-1) kl=k+(k1)(r1)

例1:浅绿色部分代表感受野的大小。【红色代表参数】

第一次卷积操作时,一般取 r 0 = 1 , s 0 = 1 r_0=1,s_0=1 r0=1,s0=1

下述例子中的r取值:r=[1,2,4],步幅s=1固定不变,卷积核k=3*3

第一层:
k 1 = 3 + ( 3 − 1 ) ∗ ( 1 − 1 ) = 3 k_1=3+(3-1)*(1-1)=3 k1=3+(31)(11)=3

r 1 = 1 + ( 3 − 1 ) ∗ 1 = 3 r_1=1+(3-1)*1=3 r1=1+311=3

第二层:
k 2 = 3 + ( 3 − 1 ) ∗ ( 2 − 1 ) = 5 k_2=3+(3-1)*(2-1)=5 k2=3+(31)(21)=5

r 2 = 3 + ( 5 − 1 ) ∗ ( 1 ∗ 1 ) = 7 r_2=3+(5-1)*(1*1)=7 r2=3+(51)(11)=7

第二层:
k 3 = 3 + ( 3 − 1 ) ∗ ( 4 − 1 ) = 9 k_3=3+(3-1)*(4-1)=9 k3=3+(31)(41)=9

r 3 = 7 + ( 9 − 1 ) ∗ ( 1 ∗ 1 ∗ 1 ) = 15 r_3=7+(9-1)*(1*1*1)=15 r3=7+(91)(111)=15

在这里插入图片描述

==例2:==该图片是描述网格问题的,这里我们拿来做一次计算练习(蓝色是区域代表的是感受野)

图片出处:Understanding Convolution for Semantic Segmentation

在这里插入图片描述

  • a图:k=3,r=[2,2,2],【第一次卷积操作时,一般取 r 0 = 1 , s 0 = 1 r_0=1,s_0=1 r0=1,s0=1

第一层:
k 1 = 3 + ( 3 − 1 ) ∗ ( 2 − 1 ) = 5 k_1=3+(3-1)*(2-1)=5 k1=3+(31)(21)=5

r 1 = 1 + ( 5 − 1 ) ∗ 1 = 5 r_1=1+(5-1)*1=5 r1=1+511=5

第二层:
k 2 = 3 + ( 3 − 1 ) ∗ ( 2 − 1 ) = 5 k_2=3+(3-1)*(2-1)=5 k2=3+(31)(21)=5

r 2 = 5 + ( 5 − 1 ) ∗ ( 1 ∗ 1 ) = 9 r_2=5+(5-1)*(1*1)=9 r2=5+(51)(11)=9

第二层:
k 3 = 3 + ( 3 − 1 ) ∗ ( 2 − 1 ) = 5 k_3=3+(3-1)*(2-1)=5 k3=3+(31)(21)=5

r 3 = 9 + ( 5 − 1 ) ∗ ( 1 ∗ 1 ∗ 1 ) = 13 r_3=9+(5-1)*(1*1*1)=13 r3=9+(51)(111)=13

  • b图:k=3,r=[1,2,3],【第一次卷积操作时,一般取 r 0 = 1 , s 0 = 1 r_0=1,s_0=1 r0=1,s0=1

第一层:
k 1 = 3 + ( 3 − 1 ) ∗ ( 1 − 1 ) = 3 k_1=3+(3-1)*(1-1)=3 k1=3+(31)(11)=3

r 1 = 1 + ( 3 − 1 ) ∗ 1 = 3 r_1=1+(3-1)*1=3 r1=1+311=3

第二层:
k 2 = 3 + ( 3 − 1 ) ∗ ( 2 − 1 ) = 5 k_2=3+(3-1)*(2-1)=5 k2=3+(31)(21)=5

r 2 = 3 + ( 5 − 1 ) ∗ ( 1 ∗ 1 ) = 7 r_2=3+(5-1)*(1*1)=7 r2=3+(51)(11)=7

第二层:
k 3 = 3 + ( 3 − 1 ) ∗ ( 3 − 1 ) = 7 k_3=3+(3-1)*(3-1)=7 k3=3+(31)(31)=7

r 3 = 7 + ( 7 − 1 ) ∗ ( 1 ∗ 1 ∗ 1 ) = 13 r_3=7+(7-1)*(1*1*1)=13 r3=7+(71)(111)=13

感受野中心的计算公式:

在这里插入图片描述

2.6 双线性插值

双线性插值是一种在图像处理中常用的插值方法,用于在放大或缩小图像时估计新像素的颜色值。【更直白一点:双线性插值就是使用已有的像素点来计算其他像素点从而实现像素的扩充,也就是说双线性插值是在像素层面的计算。】

双:两条

线性:通过线性的方式来用已知像素值计算未知的像素值

插值:通过周围已知的像素值来计算一些原本没有给出的像素值

使用双线性插值进行上采样的操作步骤如下:

  1. 确定目标图像的大小:首先,明确需要将原始图像上采样到的目标尺寸,例如将图像的宽度和高度扩大一定的倍数。
  2. 计算新像素的坐标:对于目标图像中的每个新像素,计算其在原始图像中的对应坐标。由于上采样会增加像素数量,新像素的坐标可能不是整数,而是小数。
  3. 找到相邻的四个像素:根据新像素的坐标,确定其在原始图像中相邻的四个像素。这四个像素将用于进行双线性插值计算。
  4. 进行水平方向的插值:在水平方向上,使用相邻两个像素的颜色值进行线性插值。

计算:

以线性插值为例:(单条直线)

已知数据 x 0 x_0 x0 (x0, y0) 与 x 1 x_1 x1(x1, y1),要计算 [x0, x1] 区间内某一位置 x 在直线上的y值。
y − y 0 x − x 0 = y 1 − y 0 x 1 − x 0 \frac{y - y_{0}}{x - x_{0}} = \frac{y_{1} - y_{0}}{x_{1} - x_{0}} xx0yy0=x1x0y1y0
两点之间的直线斜率
y = x 1 − x x 1 − x 0 y 0 + x − x 0 x 1 − x 0 y 1 y = \frac{x_{1} - x}{x_{1} - x_{0}} y_{0} + \frac{x - x_{0}}{x_{1} - x_{0}} y_{1} y=x1x0x1xy0+x1x0xx0y1
对上述公式化简【 x 1 − x {x_{1} - x} x1x ( x 1 距离 x 的距离 x_1距离x的距离 x1距离x的距离) x 1 − x 0 {x_{1} - x_{0}} x1x0 ( x 1 距离 x 0 的距离 x_1距离x_0的距离 x1距离x0的距离) , x 1 − x x 1 − x 0 代表距离权重 \frac{x_{1} - x}{x_{1} - x_{0}}代表距离权重 x1x0x1x代表距离权重

延伸到双线性插值:(两条直线)

在这里插入图片描述

这个公式是通过线性插值的方法得来的。 假设我们要在点 Q 12 = ( x 1 , y 2 ) Q_{12} = (x_1, y_2) Q12=(x1,y2) Q 22 = ( x 2 , y 2 ) Q_{22} = (x_2, y_2) Q22=(x2,y2) 之间进行线性插值来估计点 R 2 = ( x , y 2 ) R_2 = (x, y_2) R2=(x,y2) 的函数值 f ( R 2 ) f(R_2) f(R2)。 我们可以考虑点 R 2 R_2 R2 x x x 方向上与 Q 12 Q_{12} Q12 Q 22 Q_{22} Q22 的位置关系。

根据线性插值的原理,我们可以用以下方式计算 f ( R 2 ) f(R_2) f(R2)

首先,计算点 R 2 R_2 R2 Q 12 Q_{12} Q12 之间的距离占总距离的比例,即: x − x 1 x 2 − x 1 \frac{x - x_1}{x_2 - x_1} x2x1xx1然后,计算点 R 2 R_2 R2 Q 22 Q_{22} Q22 之间的距离占总距离的比例,即:

x 2 − x x 2 − x 1 \frac{x_2 - x}{x_2 - x_1} x2x1x2x。接下来,我们根据这两个比例来加权计算 f ( R 2 ) f(R_2) f(R2)。具体来说,我们用 Q 12 Q_{12} Q12 的函数值 f ( Q 12 ) f(Q_{12}) f(Q12) 乘以点 R 2 R_2 R2 Q 22 Q_{22} Q22 之间的距离比例,再加上 Q 22 Q_{22} Q22 的函数值 f ( Q 22 ) f(Q_{22}) f(Q22) 乘以点 R 2 R_2 R2 Q 12 Q_{12} Q12 之间的距离比例,即:
f ( R 2 ) ≈ x 2 − x x 2 − x 1 f ( Q 12 ) + x − x 1 x 2 − x 1 f ( Q 22 ) f(R_2) \approx \frac{x_2 - x}{x_2 - x_1} f(Q_{12}) + \frac{x - x_1}{x_2 - x_1} f(Q_{22}) f(R2)x2x1x2xf(Q12)+x2x1xx1f(Q22)

这样,我们就得到了公式 f ( R 2 ) ≈ x 2 − x x 2 − x 1 f ( Q 12 ) + x − x 1 x 2 − x 1 f ( Q 22 ) f(R_2) \approx \frac{x_2 - x}{x_2 - x_1} f(Q_{12}) + \frac{x - x_1}{x_2 - x_1} f(Q_{22}) f(R2)x2x1x2xf(Q12)+x2x1xx1f(Q22)。 这种线性插值的方法在许多情况下可以用来估计函数在某一点的近似值,特别是当我们知道函数在一些离散点上的值时,可以通过插值来得到其他点的估计值。

假如我们想得到未知函数 f 在点 P = (x, y) 的值,假设我们已知函数 fQ11 = (x1, y1)、Q12 = (x1, y2), Q21 = (x2, y1) 以及 Q22 = (x2, y2) 四个点的值。

首先在 x 方向进行线性插值,得到

在这里插入图片描述

然后在 y 方向进行线性插值利用 R 1 ( x , y 1 ) , R 2 ( x , y 2 ) R_1(x,y_1),R_2(x,y_2) R1(x,y1),R2(x,y2),得到

在这里插入图片描述

这样就得到所要的结果 f(x, y),

在这里插入图片描述

而一般所举例子中为了简化计算,假设的像素点之间的间距值都为1,也即 x 2 − x 1 = 1 , y 2 − y 1 = 1 x_2-x_1=1,y_2-y_1=1 x2x1=1,y2y1=1。所以上述公式可以化简。

实现的对齐方式差别,计算公式不变。

在这里插入图片描述

计算举例:

在这里插入图片描述

2.7 FCN

首个端到端的全卷积网络【将全连接层替换为卷积】

在这里插入图片描述

将全连接层替换为卷积层:

在这里插入图片描述

FCN模型结构(32,16,8)文中是以VGG为backbone的。

在这里插入图片描述

pascal voc 是20类别的,加上背景一共是21类别。

语义分割使用的数据部分:

在这里插入图片描述

数据图像是单通道的,但是显示像是彩色图片,这是因为被处理过了。

在这里插入图片描述

使用的pytorch框架中的fcn_resnet50。

pytorch官网,对于fcn_resnet50的描述:https://pytorch.org/vision/stable/models/generated/torchvision.models.segmentation.fcn_resnet50.html#torchvision.models.segmentation.fcn_resnet50

在这里插入图片描述

模型训练结果:

在这里插入图片描述

最好结果:

在这里插入图片描述

分割效果:

在这里插入图片描述

图片名称:2007_001311.jpg

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1550113.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Tableau 瀑布图应用示例

通过探索 10 个示例&#xff0c;将瀑布图的应用拓展到更深层次的业务分析&#xff01; 作为一种直观展示数据变化的图表&#xff0c;瀑布图被广泛应用在业务分析中。同时&#xff0c;借助 Tableau 2024.2 中的 Viz Extensions&#xff0c;如今我们可以快速在 Tableau 中实现瀑布…

【YashanDB知识库】崖山数据库Outline功能验证

本文内容来自YashanDB官网&#xff0c;具体内容请见(https://www.yashandb.com/newsinfo/7488286.html?templateId1718516) 测试验证环境说明 测试用例说明 1、相同版本下&#xff0c;新增表数据量&#xff0c;使统计信息失效。优化器优先使用outline的计划。 2、相同版本下…

CHI trans简介--Retry

总目录&#xff1a; CHI协议简读汇总-CSDN博客 Retry trans flow requester发送一个请求&#xff0c;该请求没有protocol credit(P-Credit); 也就是说&#xff0c;该请求不保证completer一定能够接收该trans;completer返回一个retry resp, RetryAck, 给到Requester;completer再…

逻辑回归(上):函数求导过程自推 LaTex 语法

背景 闲来无事翻了一下之前买的一个机器学习课程及之前记录的网络笔记&#xff0c;发现遇到公式都是截图&#xff0c;甚至是在纸上用笔推导的。重新整理一遍之前逻辑回归函数的学习笔记&#xff0c;主要是为了玩一下 LaTex 语法&#xff0c;写公式挺有意思的。 整理之前三篇笔…

A股收复3000点!外资积极看涨,对冲基金净买入量创三年来新高

9月27日&#xff0c;A股开盘后跳空上涨&#xff0c;连续四天的大幅上涨&#xff0c;9月26日&#xff0c;上证指数收复3000点大关&#xff0c;让一些温州股民感到兴奋不已&#xff0c;一些炒股群里沸腾了。但对于行情走势&#xff0c;股民们产生了分歧&#xff0c;有人是逢高减仓…

SWAP、AquaCrop、FVCOM、Delft3D、SWAT、R+VIC、HSPF、HEC-HMS......

全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型&#xff0c;它综合考虑了土壤-水分-大气以及植被间的相互作用&#xff1b;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程&…

源2.0全面适配百度PaddleNLP,大模型开发开箱即用

近日&#xff0c;源2.0开源大模型与百度PaddleNLP完成全面适配。用户通过PaddleNLP&#xff0c;可快速调用源2.0预训练大模型&#xff0c;使用源2.0在语义、数学、推理、代码、知识等方面的推理能力&#xff0c;也可以使用特定领域的数据集对源2.0 进行微调&#xff0c;训练出适…

爬虫及数据可视化——运用Hadoop和MongoDB数据进行分析

作品详情  运用Hadoop和MongoDB对得分能力数据进行分析&#xff1b;  运用python进行机器学习的模型调理&#xff0c;利用Pytorch框架对爬取的评论进行情感分析预测&#xff1b;  利用python和MySQL对网站的数据进行爬取、数据清洗及可视化。

win10如何禁止指定程序运行?推荐这4个好用的方法,小白必入哦!(轻松拿捏!)

在Windows 10系统中&#xff0c;管理程序运行权限是维护系统安全和提升工作效率的重要手段。 无论是出于防止恶意软件入侵的考虑&#xff0c;还是为了规范员工的软件使用行为&#xff0c;禁止指定程序运行都是一项必备技能。 本文将为您介绍四种简单实用的方法&#xff0c;即便…

校企合作 | 宝兰德与西安航空职业技术学院共筑智慧教育新高地

在教育领域持续变革的今天&#xff0c;智慧教育作为提升教学质量、优化资源配置的关键策略&#xff0c;正逐步成为教育发展的主流趋势。近日&#xff0c;西安航空职业技术学院副校长郭红星、信息中心副主任李畅及主任李永锋等领导莅临宝兰德西安研发中心&#xff0c;双方就智慧…

el-upload不显示进度条

原因&#xff1a;我并没有用el-upload上面的action设置上传url&#xff0c;也没有用他自带的方法上传 这里我使用的是通过自定义接口手动上传&#xff0c;即点击外部按钮&#xff0c;将文件转换后调用接口将文件传参&#xff0c;拿到存储后转换回来的文件url&#xff0c;直接调…

如何处理各行业的DDOS问题

分布式拒绝服务&#xff08;Distributed Denial of Service, DDoS&#xff09;攻击是网络安全领域最为常见且危害性极大的攻击方式之一。通过控制大量计算机、物联网终端或网络僵尸&#xff0c;攻击者能够向目标网站或服务器发送大量请求&#xff0c;从而耗尽其资源&#xff0c…

【docker】如何保存镜像以及分享社区

一、前言 在上篇博客中&#xff0c;我们已经下载了一个nginx的镜像&#xff0c;并且修改了它的内容为“111222”&#xff0c;命名为mynginx&#xff0c;现在我们就要把这个mynginx保存下来&#xff0c;并且分享但我们的docker_hub社区中&#xff01; 二、保存镜像 1、常用命名…

Vision Mamba UNet:一种新型医学图像分割网络

人工智能咨询培训老师叶梓 转载标明出处 在医学图像分割的研究中&#xff0c;卷积神经网络&#xff08;CNN&#xff09;与变换器&#xff08;Transformer&#xff09;模型各有其优势和局限。CNN由于其有限的局部感受野&#xff0c;在捕获长距离信息时能力较弱&#xff1b;而尽…

深入理解 Nuxt.js 中的 app:data:refresh 钩子

title: 深入理解 Nuxt.js 中的 app:data:refresh 钩子 date: 2024/9/29 updated: 2024/9/29 author: cmdragon excerpt: 摘要:本文详细介绍了 Nuxt.js框架中的app:data:refresh钩子,包括其定义、用途、使用方法及实际应用案例。该钩子用于在数据刷新时执行额外处理,支持…

这几个高含金量证书,网工真的该拿

在这个技术日新月异的行业中&#xff0c;不断学习新技能和知识是保持竞争力的关键。 而证书&#xff0c;作为一种专业能力的认证&#xff0c;不仅能够证明你的技术实力&#xff0c;还能为你打开更多的职业发展大门。 在众多的IT认证中&#xff0c;有些证书因其高含金量而备受推…

推动国产化软件飞跃:三品软件与麒麟完成兼容性验证 共筑数字强国梦

近日&#xff0c;三品软件产品全生命周期管理系统(PLM)V1.0与麒麟软件成功完成了兼容性适配认证&#xff0c;这标志着我司在推进国产化创新发展进程中取得实质性的进展。 三品软件的PLMV1.0是一款全面的产品生命周期管理平台软件产品&#xff0c;集成设计、研发、生产管理等环…

Python编码系列—Python状态模式:轻松管理对象状态的变化

&#x1f31f;&#x1f31f; 欢迎来到我的技术小筑&#xff0c;一个专为技术探索者打造的交流空间。在这里&#xff0c;我们不仅分享代码的智慧&#xff0c;还探讨技术的深度与广度。无论您是资深开发者还是技术新手&#xff0c;这里都有一片属于您的天空。让我们在知识的海洋中…

帮儿女带孩子的老人,都有以下几种共性

在现代社会中&#xff0c;随着生活节奏的加快&#xff0c;许多年轻父母需要在繁忙的工作中平衡家庭和事业&#xff0c;老人们自然成为了带孙辈的重要力量。 放眼望去&#xff0c;不少家庭的老人主动承担起了带孙子的责任&#xff0c;为子女分担了育儿的重担。 随着时代的变化…

以太网交换安全:端口安全

一、端口安全介绍 端口安全是一种网络设备防护措施&#xff0c;通过将接口学习到的动态MAC地址转换为安全MAC地址&#xff08;包括安全动态MAC和Sticky MAC&#xff09;&#xff0c;阻止除安全MAC和静态MAC之外的主机通过本接口和设备通信&#xff0c;从而增强设备的安全性。以…