3个3x3的卷积层串联的效果则相当于1个7x7的卷积层。那为什么选择使用3个3x3的卷积层而不是使用1个7x7的卷积层呢?
(1)3个串联的3x3的卷积层,拥有比1个7x7的卷积层更少的参数,参数量是后者的(3x3x3 ) /(7x7) = 55%
(2)3个3x3的卷积层比1个7x7的卷积层拥有更多的非线性变换,前者可以使用3次ReLU激活函数,而后者只能使用 一次,这样使得CNN对特征的学习能力更强。
Stacking堆叠法
level 0上训练的多个强学习器被称为基学习器(base-model),也叫做个体学习器。在level 1上训练的学习器叫元学习器(meta-model)。
level 0上的算法们的职责是找出原始数据与标签的关系、即建立原始数据与标签之间的假设,因此需要强大的学习能力。
level 1上的算法的职责是融合个体学习器做出的假设、并最终输出融合模型的结果,相当于在寻找“最佳融合规则”,而非直接建立原始数据与标签之间的假设。
参考:神经网络中卷积层的堆叠-CSDN博客