看懂本文，入门神经网络Neural Network

神经网络（Neural Network）

1.1图片

每一个图片都是三维数组，每个像素的值为0-255，如

训练集Training Dataset：“上课学的知识”，用于训练模型得到参数

验证集Validation Dataset：“课后习题”，用于纠正和强化知识点，用来评估不同超参数训练出的模型效果，从而优化模型

测试机 Test Dataset：“期末考试”，用于评估最终模型效果

例如：已知T1（x1，y1）、T2（x2，y2）、T3（x3，y3）三个点，利用T1，T2得出y=ax+b直线，这个T1，T2就是训练集，他们参与了模型的训练得到了参数a，b。将x=x3代入得到y3’ ，比较输出y3’ 与标签值y3，就能衡量模型的好坏，T3参与了模型评估，T3是测试集。a，b就是训练的目标，但是，在训练模型前，要设定其他参数，如选用哪个函数空间？用什么损失函数来衡量输出与标签之间的差异？要采用哪种优化算法？等等这些问题设计的参数都是需要提取设计的超参数。可以利用验证集去寻找最优模型。

训练集训练模型得到参数后，验证集在这个参数和超参数下训练得到的模型进行评估，并找到最优的一组超参数，然后将超参数固定，再拿到训练集上重新训练模型，最后由测试集评估最终模型性能

1.2线性函数（得分函数）

如，这个猫是32*32*3的像素构成，其中某些点是促进成猫的，有些像素点是抑制成为猫的，函数f（x，W）中，x表示像素点，W表示像素点的权重（得分，即促猫的程度）。

f（x，W）=Wx+b，例如这个图片32*32*3=3072，视为3072*1的矩阵，对于猫的权重矩阵W1=1*3072，对于其他的类型，有它的Wn（n为自己想要的分类数，也可以5分类，8分类等），假设这里为10（W2可以为狗，W3可以为汽车....等等）这个n取决于自己想要的分类，则总共的W为10*3072的矩阵，再乘以图片矩阵3072*1，得到10*1的得分矩阵（第一项为W1猫的得分，第二项为W2狗的得分......），Wx起到的是决定性作用，后面的b为偏置参数，起到微调的作用（这个例子b为10*1的矩阵）

综上，对于特定的图片，它的x是不会变化的，而W权重矩阵是需要给出的，整个机器学习、深度学习就是在寻找更好的W，来输出更准确的结果。神经网络就是一直在优化W。每个特征点是独立的，则每个特征点对应的权重参数Wi的每个值也是独立的。

1.3损失函数

得分矩阵的数值如何来说明问题？可以用损失函数来描述。神经网络可以做分类可以做回归，区别在于他们的损失函数不同，而网络结构是不改变的。

如上图，第一列中，图片明明是猫，却是汽车的得分最高，定义了如上的损失函数，sj 为错误值，syi 为正确值，经过损失函数的计算，可得出一个数据，能够表示预测的正确性（表示是否区分开）。例如第一列猫图片的计算（右上角）。损失函数后面的+1表示的是容忍程度（一般为∆ ，用∆ 表示容忍程度），如第一列，cat为3.2，car为3.15，没有+∆ 计算后值为0，即没有损失了，效果会不好，若有+1 ，计算后为1.05，表明识别情况。损失函数越小越好。

右上角第一个计算后值为2.9就为loss值；第二个计算后为0（car比其他值都大1），表明做的很好，loss值为0；第三个计算后值为10.9，表明做的很差

1.3.1注意问题

损失函数值相同，两个模型效果一样吗？

如上图，w1和w2与x计算后值都为1，但是w1过于关注x的第一参数，会导致过拟合的现象，这是不想要的。所以要加上正则化惩罚项。

如上称为data_loss，即为数据在当前损失函数的损失，正则化惩罚项为模型的权重参数带来的损失，直接用平方来表示，λ 表示惩罚系数，它越大，表示你不希望过拟合（正则化惩罚项和数据损失是矛盾的，数据损失是要预测值与真实值越来越接近，就要满足每一个样本需求，正则化惩罚项要求不要满足每一个，所以引入λ ）。