车辆重识别（CVPR2016图像识别的深度残差学习ResNet）论文阅读2024/9/21

[2] Deep Residual Learning for Image Recognition ( CVPR 2016)
作者：Kaiming He Xiangyu Zhang Shaoqing Ren Jian Sun
单位：微软研究院

摘要：
更深层的神经网络更难训练。我们提出了一个残差学习框架，以减轻对比先前使用的深度更深的网络的训练。我们显式地将层重构为参考层输入的学习残差函数，而不是学习未参考的函数。我们提供了全面的经验证据，表明这些残差网络更容易优化，并且可以从大幅增加的深度中获得准确性。在ImageNet数据集上，我们评估了深度高达152层的残差网络- -比VGG网络[ 40 ]深8倍，但仍具有较低的复杂度。这些残差网络的集合在ImageNet测试集上达到3.57 %的误差。这个结果赢得了ILSVRC 2015分类任务的第一名。我们也提供了对100层和1000层CIFAR - 10的分析。
表示的深度对于许多视觉识别任务来说是至关重要的。由于我们非常深入的表示，我们在COCO目标检测数据集上获得了28 %的相对改进。深度残差网络是我们提交ILSVRC & COCO 2015竞赛1的基础，我们在ImageNet检测、ImageNet定位、COCO检测和COCO分割任务上也获得了第1名。

主要贡献：
（1）提出了残差块，通过跳跃连接解决深度网络训练中的退化问题。使得网络可以有效地加深至152层以上，而不出现性能下降。
（2）在ImageNet和COCO数据集上展示了残差网络在图像识别任务中的优越性能。

创新点：
引入了残差块的概念，使得网络能够学习输入与输出之间的残差，而不是直接学习期望映射，这大大简化了优化过程。提出了有效的网络训练策略，包括权重初始化和批归一化，进一步提高了模型的收敛速度和性能。

简介：
在本文中，我们通过引入深度残差学习框架来解决退化问题。为了拟合一个期望的底层映射，我们显式地让这些层拟合一个残差映射。在形式上，我们将期望的底层映射表示为H ( x )，并让堆叠的非线性层拟合F ( x )的另一个映射：F ( x )= H ( x ) - x。原始映射被重铸成F ( x ) + x。我们假设优化残差映射比优化原始的、未引用的映射更容易。在极端情况下，如果一个恒等映射是最优的，那么将残差推到零比用一堆非线性层拟合一个恒等映射更容易。

框图：请添加图片描述
关于ResNet
疑问：
为什么更深层次的网络更难训练？
举个例子解释一下残差网络的流程
shortcut快捷连接是什么意思
残差网络可以把一层作为一个残差块吗
投影是什么意思