卷积神经网络参数解析_数字化

（1）现象：

（1-1）一次性将batch数量个样本feed神经网络，进行前向传播；然后再进行权重的调整，这样的一整个过程叫做一个回合（epoch），也即一个batch大小样本的全过程就是一次迭代。

（1-2）将训练数据分块，做成批(batch training)训练可以将多个训练数据元的loss function求和，使用梯度下降法，最小化求和后的loss function ，进而对神经网络的参数进行优化更新

（2）一次迭代：包括前向传播计算输出向量、输出向量与label的loss计算和后向传播求loss对权重向量 w 导数（梯度下降法计算），并实现权重向量 w 的更新。

（3）优点：

（a）对梯度向量（代价函数对权值向量 w 的导数）的精确估计，保证以最快的速度下降到局部极小值的收敛性；一个batch一次梯度下降；

（b）学习过程的并行运行；

（c）更加接近随机梯度下降的算法效果；

（d）Batch Normalization 使用同批次的统计平均和偏差对数据进行正则化，加速训练，有时可提高正确率 [7]

（4）现实工程问题：存在计算机存储问题，一次加载的batch大小受到内存的影响；

（5）batch参数选择：

（5-1）从收敛速度的角度来说，小批量的样本集合是最优的，也就是我们所说的mini-batch，这时的batch size往往从几十到几百不等，但一般不会超过几千

（5-2）GPU对2的幂次的batch可以发挥更佳的性能，因此设置成16、32、64、128时往往要比设置为整10、整100的倍数时表现更优

（6）4种加速批梯度下降的方法 [8] ：

（6-1）使用动量－使用权重的速度而非位置来改变权重。

（6-2）针对不同权重参数使用不同学习率。

（6-3）RMSProp－这是Prop 的均方根 ( Mean Square ) 改进形式，Rprop 仅仅使用梯度的符号，RMSProp 是其针对 Mini-batches 的平均化版本

（6-4）利用曲率信息的最优化方法。

（1）定义：运用梯度下降算法优化loss成本函数时，权重向量的更新规则中，在梯度项前会乘以一个系数，这个系数就叫学习速率η

（2）效果：

（2-1）学习率η越小，每次迭代权值向量变化小，学习速度慢，轨迹在权值空间中较光滑，收敛慢；

（2-2）学习率η越大，每次迭代权值向量变化大，学习速度快，但是有可能使变化处于震荡中，无法收敛；

（3）处理方法：

（3-1）既要加快学习速度又要保持稳定的方法修改delta法则，即添加动量项。

（4）选择经验：

（4-1）基于经验的手动调整。通过尝试不同的固定学习率，如01, 001, 0001等，观察迭代次数和loss的变化关系，找到loss下降最快关系对应的学习率。

（4-2）基于策略的调整。

（4-2-1）fixed 、exponential、polynomial

（4-2-2）自适应动态调整。adadelta、adagrad、ftrl、momentum、rmsprop、sgd

（5）学习率η的调整：学习速率在学习过程中实现自适应调整（一般是衰减）

（5-1）非自适应学习速率可能不是最佳的。

（5-2）动量是一种自适应学习速率方法的参数，允许沿浅方向使用较高的速度，同时沿陡峭方向降低速度前进

（5-3）降低学习速率是必要的，因为在训练过程中，较高学习速率很可能陷入局部最小值。

参考文献：

[1] Simon Haykin 神经网络与机器学习[M] 机械工业出版社, 2011

[2] 训练神经网络时如何确定batch的大小？

[3] 学习笔记：Batch Size 对深度神经网络预言能力的影响

[4] 机器学习算法中如何选取超参数：学习速率、正则项系数、minibatch size http://blogcsdnnet/u012162613/article/details/44265967

[5] 深度学习如何设置学习率 http://blogcsdnnet/mao_feng/article/details/52902666

[6] 调整学习速率以优化神经网络训练 https://zhuanlanzhihucom/p/28893986

[7] 机器学习中用来防止过拟合的方法有哪些？

[8] Neural Networks for Machine Learning by Geoffrey Hinton

[9] 如何确定卷积神经网络的卷积核大小、卷积层数、每层map个数

[10] 卷积神经网络的卷积核大小、卷积层数、每层map个数都是如何确定下来的呢？

“感受野”的概念来源于生物神经科学，比如当我们的“感受器”，比如我们的手受到刺激之后，会将刺激传输至中枢神经，但是并不是一个神经元就能够接受整个皮肤的刺激，因为皮肤面积大，一个神经元可想而知肯定接受不完，而且我们同时可以感受到身上皮肤在不同的地方，如手、脚，的不同的刺激，如痛、痒等。这说明皮肤感受器是由很多不同的神经元控制的，那么每一个神经元所能够反映的那块感受器的区域就称之为“感受野”，感受野即每一个神经元所支配的区域，也可以说这个神经元的活动受到那一块区域的影响。

在卷积神经网络中，整个卷积运算的过程正好和上面的皮肤刺激过程类似，我们可以将原始图像对应看成感受器（皮肤），将最终的输出看成是做出反应的那个神经元。最终输出到底是什么状态（神经元的状态）所受到的初始图像哪一块区域的影响（受到那一块皮肤的刺激）不正是上面所描述的过程吗？于是我们给出感受野的定义如下：

卷积神经网络每一层输出的特征图（feature map）上的像素点在原始图像上映射的区域大小；通俗点说，就是图像的最终输出的每一个特征（每一个像素）到底受到原始图像哪一部分的影响。

为了更好地说明整个卷积神经网络的工作过程，下面以一个例子说明，原始图像的大小为10x10，一共设计了5个网络层，前面4个是卷积层，卷积核的大小为3x3，最后一个是池化层，大小为2x2,为了较简单的说明，本次所有的步幅stride均为1

注意：感受野在计算的时候不考虑“边界填充”，因为填充的边界已经不是原始图像本身的内容了，感受野描述的是输出特征到原始图像的映射关系，故而不考虑padding 。实际建模过程中可能需要填充边界，原理一样，只是计算稍微复杂点。

从上面可以看出：第一层网络输出的图像中，输出结果为8x8，output1输出的每一个特征（即每一个像素）受到原始图像的3x3区域内的影响，故而第一层的感受野为3，用字母表示为

RF1=3 （每一个像素值与原始图像的3x3区域有关）

从上图可以看出，经历两次卷积运算之后，最终的输出图像为6x6，output2输出的每一个特征（即每一个像素）受到output1的范围影响为3x3，而output1中的这个3x3又收到原始图像的5x5的范围的影响，故而第二层的感受野为5，即

RF2=5 （每一个像素值与原始图像的5x5区域有关）

从上图可以看出，经历三次卷积运算之后，最终的输出图像为4x4，output3输出的每一个特征（即每一个像素）受到output2的范围影响为3x3，而output2中的这个3x3又受到output1的5x5的范围的影响，而output1中的这个5x5又受到原始图像的7x7的范围的影响，故而第三层的感受野为7，即

RF3=7 （每一个像素值与原始图像的7x7区域有关）

从上图可以看出，经历四次卷积运算之后，最终的输出图像为2x2，output4输出的每一个特征（即每一个像素）受到output3的范围影响为3x3，而output3中的这个3x3又受到output2的5x5的范围的影响，而output2中的这个5x5又受到output1的7x7的范围的影响，而output1中的这个7x7又受到原始图形的9x9的范围的影响，故而第四层的感受野为9，即

RF4=9 （每一个像素值与原始图像的9x9区域有关）

从上图可以看出，经历四次卷积运算和一次池化运算之后，最终的输出图像为1x1，output5输出的每一个特征（即每一个像素）受到output4的范围影响为2x2，而output4中的这个2x2又受到output3的4x4的范围的影响，而output3中的这个4x4又受到output2的6x6的范围的影响，而output2中的这个6x6受到output1的8x8的范围的影响，而output1中的这个8x8受到原始图像的10x10的范围的影响，故而第五层的感受野为10，即

RF5=10 （每一个像素值与原始图像的10x10区域有关）

从上面的过程可以看出，感受野的推导是一个递推的过程，下面将展示这一过程。

RF1=3 k1（第一层的感受野，永远等于第一个卷积核的尺寸大小）k表示第几个卷积层

RF2=5 k1 + (k2-1) RF1+ (k2-1)

RF3=7 k1 + (k2-1) + （k3-1) RF2+ (k3-1)

RF4=9 k1 + (k2-1) + （k3-1) + (k4-1) RF3+ (k4-1)

RF4=10 k1 + (k2-1) + （k3-1) + (k4-1) + (k5-1) RF4+ (k5-1)

但是上面的所有步长均为 1 ，如果每一次卷积运算的步长 stride 不为1呢，同理，这里直接给出递推公式：

其中stride_n表示的是第n次卷积的移动步幅stride。

求解过程是从RF1开始的。

LeNet网络的结构如下图所示，可以看出，LeNet网络并没有使用padding，每进行一次卷积，图像的高度和宽度都会缩小，而通道数会一直增加。在全连接层中有400个节点，每个极点都有120个神经元，有时还会从这400个节点抽取一部分节点构建一个全连接层，即有两个全连接层。在该网络中，最后一步就是利用84个特征得到最后的输出，该网络刚开始使用的是 sigmoid 函数 tanh 函数，而现在常常倾向于使用 softmax 函数。需要注意的是，LeNet-5网络进行图像分类时，输入的图像是单通道的灰度图像。

AlexNet是以论文第一作者的名字命名的，该网络的结构，如下图所示，该网络的输出层使用了 softmax 函数。AlexNet网络比LeNet网络规模更大，大约有6000万个参数，用于训练图像和数据集时，能够处理非常相似的基本构造模块，这些模块中包含着大量的隐藏单元，并且与LeNet网络不同的是，该网络使用了ReLu的激活函数。

VGG-16网络没有太多的超参数，这是一种专注于构建卷积层的简单网络。如下图所示，该网络首先利用64个过滤器进行了两次卷积，接着在池化层将输入图像压缩，接着又是128个过滤器进行两次卷积，接着载池化。继续用256个过滤器进行3次卷积，再池化，接着再利用512个过滤器卷积3次，再池化，将稍后得到的特征图进行全连接 *** 作，再进 softmax 激活。

由于存在梯度消失和梯度爆炸的原因，深层次的神经网络是很难训练的，如果采用一种跳跃连接的方式，即从某一层网络层获取激活，然后迅速反馈给另外一层，甚至是神经网络的更深层。这种利用跳跃连接构建的深度神经网络ResNets，深度能够超过100层

一个简单的两层神经网络示例，如下图所示：

常规的输出和输出之间的关系可以用如下的公式表示：

如上公式所述，这是一条神经网络的主路径。如果将的输入直接到深层的激活函数之前，此时，神经网络有了一条副路径，其对应输出将有公式（5）变成如下所示的公式（6）

此时的输入除了原先的输入外，多了一个项，即由于产生了一个残差块。

构建一个ResNet网络就是将很多这样的残差块堆积在一起，形成一个深度神经网络，如下所示：

使用传统的标准优化算法训练一个网络，随着网络深度的增加，训练误差会先减小再增加，随着网络层数的增加，优化算法会越难以训练，训练误差也会越来越多。但是，使用ResNet网络，能够有效地避免这种情况。

如上所述，加入残差网络之后，其输出计算公式如公式（6）所示，展开这个公式，则有：

如果使用L2正则化或者权重衰减，则会压缩权重参数的值，如果参数和参数等于0，其输出将由公式（7）变成，假定使用ReLU激活函数，则有：

由于残差网络存在的这种跳跃连接，很容易得出以上等式，这意味着，即使给神经网络增加两层，但是其效率并不逊色与更简单的神经网络。并且由于存在以上恒等式，使得网络学习隐藏层的单元的信息更加容易。而普通网络，随着网络层数的增加，学习参数会变得很困难。

此外，关于残差网络，如公式（6）所示，假设与具有相同的维度，由于ResNets使用了许多same卷积，的维度等于输出层的维度。如果输入和输出具有不同的维度，可以再增加一个矩阵，使得和具有相同的维度。而的维度可以通过0值填充调节。

在卷积网络的架构设计中，一种有趣的想法是会使用到1×1的过滤矩阵，实际上，对于单通道的图像而言，1×1的过滤矩阵，意义不大，但是，对于多通道的图像而言，1×1的过滤矩阵能够有效减少图像卷积之后的通道数量。

根据卷积和池化的基本知识，随着神经网络层数的增加，图像的通道数量会逐渐增加，采用1×1的过滤矩阵卷积之后，可以有效减少图像的通道数量，一个简单的示例，如下所示：

假设有一个6×6×32的，使用1×1×32的过滤矩阵进行卷积运算，整个运算过程将会遍历36个单元格，并计算过滤矩阵所覆盖区域的元素积之和，将其应用到ReLu非线性函数，会得到一个输出值。此计算过程中，可能会用到多个1×1×32的过滤器，那么，通过以上计算会得到一个 6×6×过滤器数量的矩阵。

构建卷积神经网络时，有时会很难决定过滤器的大小，而Inception网络的引入，却能很好的解决这个问题。

Inception网络的作用就是代替人工确定选择卷积层的过滤器类型。如下图所示，对于一个多通道图像，可以使用不同的过滤矩阵或者池化层，得到不同的输出，将这些输出堆积起来。

有了如上图所示的Inception块，最终输出为32+32+64+128=256，而Inception模块的输入为28×28×192，其整个计算成本，以5×5的过滤矩阵为例，其乘法的计算次数为：28×28×32×5×5×192，整个计算次数超过了12亿次。而如果使用如下所示的优化计算方法，则可以有效减少计算量。

如果利用1×1的过滤器，将输入矩阵的通道减少至16，则可以有效减少计算量，如下所示：

如上图所示的价格中，整个网络的运算次数为：28×28×192×16+28×28×32×5×5×16=1240万，整个计算成本降低至原来的十分之一。而，通过1×1×192过滤器卷积得到的这个网络层被称之为瓶颈层。

如上，所示，可以给每一个非1×1的卷积层之前，加入一个1×1的瓶颈层，就可以构建一个基本的inception模块了，如下图所示：

而一个inception网络就是多个Inception模块连接起来，如下图所示：

事实上，以上网络中，还存在一些分支，如编号1所示，这些分支就是全连接层，而全连接层之后就是一个softmax层用于预测。又如分支2所示，包含一些隐藏层（编号3），通过全连接层和softmax进行预测。这些分支结构能够确保，即使是隐藏层和中间层也参与了特征计算，并且也能够预测的分类。这种做法能够有效避免网络过拟合。

对于计算机视觉领域而言，神经网络的训练可能需要大量的数据，但是当数据量有限时，可以通过数据增强来实现数据量的扩充，以提高系统的鲁棒性，具体的数据增强方法如下所示：

除了以上三种数据增强的方法外，更多的数据增强方法和实现可以参考图像数据增强

数据增强可以利用计算机多线程实现，一个线程用来实现加载数据，实现数据增强，其他线程可以训练这些数据以加快整体的运算速度。

卷积神经网络（Convolutional Neural Network,CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。[1] 它包括卷积层(alternating convolutional layer)和池层(pooling layer)。

卷积神经网络是近年发展起来，并引起广泛重视的一种高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络（Convolutional Neural Networks-简称CNN）。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。 KFukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后，更多的科研工作者对该网络进行了改进。其中，具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”，该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。

数据输入的是一张（输入层），CONV表示卷积层，RELU表示激励层，POOL表示池化层，Fc表示全连接层

全连接神经网络需要非常多的计算资源才能支撑它来做反向传播和前向传播，所以说全连接神经网络可以存储非常多的参数，如果你给它的样本如果没有达到它的量级的时候，它可以轻轻松松把你给他的样本全部都记下来，这会出现过拟合的情况。

所以我们应该把神经元和神经元之间的连接的权重个数降下来，但是降下来我们又不能保证它有较强的学习能力，所以这是一个纠结的地方，所以有一个方法就是 局部连接+权值共享 ，局部连接+权值共享不仅权重参数降下来了，而且学习能力并没有实质的降低，除此之外还有其它的好处，下来看一下，下面的这几张：

一个图像的不同表示方式

这几张描述的都是一个东西，但是有的大有的小，有的靠左边，有的靠右边，有的位置不同，但是我们构建的网络识别这些东西的时候应该是同一结果。为了能够达到这个目的，我们可以让的不同位置具有相同的权重（权值共享），也就是上面所有的，我们只需要在训练集中放一张，我们的神经网络就可以识别出上面所有的，这也是 权值共享 的好处。

而卷积神经网络就是局部连接+权值共享的神经网络。

现在我们对卷积神经网络有一个初步认识了，下面具体来讲解一下卷积神经网络，卷积神经网络依旧是层级结构，但层的功能和形式做了改变，卷积神经网络常用来处理数据，比如识别一辆汽车：

在输出到神经网络之前，常常先进行图像处理，有三种常见的图像的处理方式：

均值化和归一化

去相关和白化

有一个性质叫做局部关联性质，一个的像素点影响最大的是它周边的像素点，而距离这个像素点比较远的像素点二者之间关系不大。这个性质意味着每一个神经元我们不用处理全局的了（和上一层全连接），我们的每一个神经元只需要和上一层局部连接，相当于每一个神经元扫描一小区域，然后许多神经元（这些神经元权值共享）合起来就相当于扫描了全局，这样就构成一个特征图，n个特征图就提取了这个的n维特征，每个特征图是由很多神经元来完成的。

在卷积神经网络中，我们先选择一个局部区域（filter），用这个局部区域（filter）去扫描整张。局部区域所圈起来的所有节点会被连接到下一层的 一个节点上 。我们拿灰度图（只有一维）来举例：

局部区域

是矩阵式的，将这些以矩阵排列的节点展成了向量。就能更好的看出来卷积层和输入层之间的连接，并不是全连接的，我们将上图中的红色方框称为filter，它是22的，这是它的尺寸，这不是固定的，我们可以指定它的尺寸。

我们可以看出来当前filter是22的小窗口，这个小窗口会将矩阵从左上角滑到右下角，每滑一次就会一下子圈起来四个，连接到下一层的一个神经元，然后产生四个权重，这四个权重(w1、w2、w3、w4)构成的矩阵就叫做卷积核。

卷积核是算法自己学习得到的，它会和上一层计算，比如，第二层的0节点的数值就是局部区域的线性组合（w1 0+w2 1+w3 4+w4 5），即被圈中节点的数值乘以对应的权重后相加。

卷积核计算

卷积 *** 作

我们前面说过不用向量表示是为了保留平面结构的信息。同样的，卷积后的输出若用上图的向量排列方式则丢失了平面结构信息。所以我们依然用矩阵的方式排列它们，就得到了下图所展示的连接，每一个蓝色结点连接四个**的结点。

卷积层的连接方式

是一个矩阵然后卷积神经网络的下一层也是一个矩阵，我们用一个卷积核从矩阵左上角到右下角滑动，每滑动一次，当然被圈起来的神经元们就会连接下一层的一个神经元，形成参数矩阵这个就是卷积核，每次滑动虽然圈起来的神经元不同，连接下一层的神经元也不同，但是产生的参数矩阵确是一样的，这就是 权值共享 。

卷积核会和扫描的的那个局部矩阵作用产生一个值，比如第一次的时候，（w1 0+w2 1+w3 4+w4 5），所以，filter从左上到右下的这个过程中会得到一个矩阵（这就是下一层也是一个矩阵的原因），具体过程如下所示：

卷积计算过程

上图中左边是图矩阵，我们使用的filter的大小是3 3的，第一次滑动的时候，卷积核和矩阵作用（1 1+1 0+1 1+0 0+1 1+1 0+0 1+0 0+1 1）=4，会产生一个值，这个值就是右边矩阵的第一个值，filter滑动9次之后，会产生9个值，也就是说下一层有9个神经元，这9个神经元产生的值就构成了一个矩阵，这矩阵叫做特征图，表示image的某一维度的特征，当然具体哪一维度可能并不知道，可能是这个图像的颜色，也有可能是这个图像的轮廓等等。

单通道总结 ：以上就是单通道的的卷积处理，是一个矩阵，我们用指定大小的卷积核从左上角到右下角来滑动，每次滑动所圈起来的结点会和下一层的一个结点相连，连接之后就会形成局部连接，每一条连接都会产生权重，这些权重就是卷积核，所以每次滑动都会产生一个卷积核，因为权值共享，所以这些卷积核都是一样的。卷积核会不断和当时卷积核所圈起来的局部矩阵作用，每次产生的值就是下一层结点的值了，这样多次产生的值组合起来就是一个特征图，表示某一维度的特征。也就是从左上滑动到右下这一过程中会形成一个特征图矩阵（共享一个卷积核），再从左上滑动到右下又会形成另一个特征图矩阵（共享另一个卷积核），这些特征图都是表示特征的某一维度。

三个通道的如何进行卷积 *** 作？

至此我们应该已经知道了单通道的灰度图是如何处理的，实际上我们的都是RGB的图像，有三个通道，那么此时图像是如何卷积的呢？

彩色图像

filter窗口滑的时候，我们只是从width和height的角度来滑动的，并没有考虑depth，所以每滑动一次实际上是产生一个卷积核，共享这一个卷积核，而现在depth=3了，所以每滑动一次实际上产生了具有三个通道的卷积核（它们分别作用于输入的蓝色、绿色、红色通道），卷积核的一个通道核蓝色的矩阵作用产生一个值，另一个和绿色的矩阵作用产生一个值，最后一个和红色的矩阵作用产生一个值，然后这些值加起来就是下一层结点的值，结果也是一个矩阵，也就是一张特征图。

三通道的计算过程

要想有多张特征图的话，我们可以再用新的卷积核来进行左上到右下的滑动，这样就会形成 新的特征图 。

三通道的卷积过程

也就是说增加一个卷积核，就会产生一个特征图，总的来说就是输入有多少通道，我们的卷积核就需要对应多少通道，而本层中卷积核有多少个，就会产生多少个特征图。这样卷积后输出可以作为新的输入送入另一个卷积层中处理，有几个特征图那么depth就是几，那么下一层的每一个特征图就得用相应的通道的卷积核来对应处理，这个逻辑要清楚，我们需要先了解一下 基本的概念：

卷积计算的公式

4x4的在边缘Zero padding一圈后，再用3x3的filter卷积后，得到的Feature Map尺寸依然是4x4不变。

填充

当然也可以使用5x5的filte和2的zero padding可以保持的原始尺寸，3x3的filter考虑到了像素与其距离为1以内的所有其他像素的关系，而5x5则是考虑像素与其距离为2以内的所有其他像素的关系。

规律： Feature Map的尺寸等于

(input_size + 2 padding_size − filter_size)/stride+1

我们可以把卷积层的作用 总结一点： 卷积层其实就是在提取特征，卷积层中最重要的是卷积核（训练出来的），不同的卷积核可以探测特定的形状、颜色、对比度等，然后特征图保持了抓取后的空间结构，所以不同卷积核对应的特征图表示某一维度的特征，具体什么特征可能我们并不知道。特征图作为输入再被卷积的话，可以则可以由此探测到"更大"的形状概念，也就是说随着卷积神经网络层数的增加，特征提取的越来越具体化。

激励层的作用可以理解为把卷积层的结果做 非线性映射 。

激励层

上图中的f表示激励函数，常用的激励函数几下几种：

常用的激励函数

我们先来看一下激励函数Sigmoid导数最小为0，最大为1/4，

激励函数Sigmoid

Tanh激活函数：和sigmoid相似，它会关于x轴上下对应，不至于朝某一方面偏向

Tanh激活函数

ReLU激活函数（修正线性单元)：收敛快，求梯度快，但较脆弱，左边的梯度为0

ReLU激活函数

Leaky ReLU激活函数：不会饱和或者挂掉，计算也很快，但是计算量比较大

Leaky ReLU激活函数

一些激励函数的使用技巧 ：一般不要用sigmoid，首先试RELU，因为快，但要小心点，如果RELU失效，请用Leaky ReLU，某些情况下tanh倒是有不错的结果。

这就是卷积神经网络的激励层，它就是将卷积层的线性计算的结果进行了非线性映射。可以从下面的图中理解。它展示的是将非线性 *** 作应用到一个特征图中。这里的输出特征图也可以看作是"修正"过的特征图。如下所示：

非线性 *** 作

池化层：降低了各个特征图的维度，但可以保持大分重要的信息。池化层夹在连续的卷积层中间，压缩数据和参数的量，减小过拟合，池化层并没有参数，它只不过是把上层给它的结果做了一个下采样（数据压缩）。下采样有两种常用的方式：

Max pooling ：选取最大的，我们定义一个空间邻域（比如，2x2 的窗口），并从窗口内的修正特征图中取出最大的元素，最大池化被证明效果更好一些。

Average pooling ：平均的，我们定义一个空间邻域（比如，2x2 的窗口），并从窗口内的修正特征图算出平均值

Max pooling

我们要注意一点的是：pooling在不同的depth上是分开执行的，也就是depth=5的话，pooling进行5次，产生5个池化后的矩阵，池化不需要参数控制。池化 *** 作是分开应用到各个特征图的，我们可以从五个输入图中得到五个输出图。

池化 *** 作

无论是max pool还是average pool都有分信息被舍弃，那么部分信息被舍弃后会损坏识别结果吗？

因为卷积后的Feature Map中有对于识别物体不必要的冗余信息，我们下采样就是为了去掉这些冗余信息，所以并不会损坏识别结果。

我们来看一下卷积之后的冗余信息是怎么产生的？

我们知道卷积核就是为了找到特定维度的信息，比如说某个形状，但是图像中并不会任何地方都出现这个形状，但卷积核在卷积过程中没有出现特定形状的位置卷积也会产生一个值，但是这个值的意义就不是很大了，所以我们使用池化层的作用，将这个值去掉的话，自然也不会损害识别结果了。

比如下图中，假如卷积核探测"横折"这个形状。卷积后得到3x3的Feature Map中，真正有用的就是数字为3的那个节点，其余数值对于这个任务而言都是无关的。所以用3x3的Max pooling后，并没有对"横折"的探测产生影响。试想在这里例子中如果不使用Max pooling，而让网络自己去学习。网络也会去学习与Max pooling近似效果的权重。因为是近似效果，增加了更多的参数的代价，却还不如直接进行最大池化处理。

最大池化处理

在全连接层中所有神经元都有权重连接，通常全连接层在卷积神经网络尾部。当前面卷积层抓取到足以用来识别的特征后，接下来的就是如何进行分类。通常卷积网络的最后会将末端得到的长方体平摊成一个长长的向量，并送入全连接层配合输出层进行分类。比如，在下面图中我们进行的图像分类为四分类问题，所以卷积神经网络的输出层就会有四个神经元。

四分类问题

我们从卷积神经网络的输入层、卷积层、激活层、池化层以及全连接层来讲解卷积神经网络，我们可以认为全连接层之间的在做特征提取，而全连接层在做分类，这就是卷积神经网络的核心。

写在前面：

图卷积神经网络借鉴了卷积神经网络的思想应用于在图上，但卷积神经网络对应的是欧式空间的平移不变性，但图是非欧空间。

1、平移不变性

在欧几里德几何中，平移是一种几何变换，表示把一幅图像或一个空间中的每一个点在相同方向移动相同距离。比如对图像分类任务来说，图像中的目标不管被移动到的哪个位置，得到的结果（标签）应该是相同的，这就是卷积神经网络中的平移不变性。

平移不变性意味着系统产生完全相同的响应（输出），不管它的输入是如何平移的。

2、为什么卷积神经网络具有平移不变性

简单地说，卷积+最大池化约等于平移不变性。

卷积：简单地说，图像经过平移，相应的特征图上的表达也是平移的。下图只是一个为了说明这个问题的例子。输入图像的左下角有一个人脸，经过卷积，人脸的特征（眼睛，鼻子）也位于特征图的左下角。

假如人脸特征在图像的左上角，那么卷积后对应的特征也在特征图的左上角。

在神经网络中，卷积被定义为不同位置的特征检测器，也就意味着，无论目标出现在图像中的哪个位置，它都会检测到同样的这些特征，输出同样的响应。比如人脸被移动到了图像左下角，卷积核直到移动到左下角的位置才会检测到它的特征。

池化：比如最大池化，它返回感受野中的最大值，如果最大值被移动了，但是仍然在这个感受野中，那么池化层也仍然会输出相同的最大值。这就有点平移不变的意思了。

所以这两种 *** 作共同提供了一些平移不变性，即使图像被平移，卷积保证仍然能检测到它的特征，池化则尽可能地保持一致的表达。

参考资料：

1、卷积神经网络为什么具有平移不变性？

https://zhangting2020githubio/2018/05/30/Transform-Invariance/

前面讲到的都是基于知识的图像特征提取方法，除此之外还有另一条技术路线——基于深度学习的图像特征提取。

人在认知图像时是分层抽象的，首先理解的是颜色和亮度，然后是边缘、角点、直线等局部细节特征，接下来是纹理、几何形状等更复杂的信息和结构，最后形成整个物体的概念。

视觉神经科学（Visual Neuroscience）对于视觉机理的研究验证了这一结论，动物大脑的视觉皮层具有分层结构。眼睛将看到的景象成像在视网膜上，视网膜把光学信号转换成电信号，传递到大脑的视觉皮层（Visual cortex），视觉皮层是大脑中负责处理视觉信号的部分。1959年，David和Wiesel进行了一次实验，他们在猫的大脑初级视觉皮层内插入电极，在猫的眼前展示各种形状、空间位置、角度的光带，然后测量猫大脑神经元放出的电信号。实验发现，不同的神经元对各种空间位置和方向偏好不同。这一成果后来让他们获得了诺贝尔奖。

目前已经证明，视觉皮层具有层次结构。从视网膜传来的信号首先到达初级视觉皮层（primary visual cortex），即V1皮层。V1皮层简单神经元对一些细节、特定方向的图像信号敏感。V1皮层处理之后，将信号传导到V2皮层。V2皮层将边缘和轮廓信息表示成简单形状，然后由V4皮层中的神经元进行处理，它颜色信息敏感。复杂物体最终在IT皮层（inferior temporal cortex）被表示出来。

卷积神经网络可以看成是上面这种机制的简单模仿。它由多个卷积层构成，每个卷积层包含多个卷积核，用这些卷积核从左向右、从上往下依次扫描整个图像，得到称为特征图（feature map）的输出数据。网络前面的卷积层捕捉图像局部、细节信息，有小的感受野，即输出图像的每个像素只利用输入图像很小的一个范围。后面的卷积层感受野逐层加大，用于捕获图像更复杂，更抽象的信息。经过多个卷积层的运算，最后得到图像在各个不同尺度的抽象表示。

顾名思义，卷积层由一组卷积单元（又称"卷积核"）组成，可以把这些卷积单元理解为过滤器，每个过滤器都会提取一种特定的特征，方法参见图像卷积。

卷积层的过滤器负责从图像中查找规律，过滤器越多则参数越多，这意味着卷积层的维度可能很庞大。我们需要一种方法来降低维数，这就是卷积网络中的池化层（又名"下采样层"）所扮的角色。

池化主要有3种形式：一般池化，重叠池化和金字塔池化。

池化窗口的尺寸为nn，一般情况下池化窗口都是正方形的。步长（stride）等于n。此时池化窗口之间是没有重叠的。对于超出数字矩阵范围的，只计算范围内的或者范围外的用0填充再计算。又可以分为最大值池化，均值池化。

池化窗口范围内的最大值作为采样的输出值。

假如输入是一个4×4矩阵，执行最大池化是一个2×2矩阵，每次滑动2步。执行过程非常简单，把4×4的输入拆分成不同的区域，把这些区域用不同颜色来标记。对于2×2的输出，输出的每个元素都是其对应颜色区域中的最大元素值。

普通均值池化就是将池化窗口范围内的平均值作为采样的输出值。这种池化不如最大池化常用。

池化窗口之间有重叠。也就是步长大于等于1小于n，计算和一般池化是一样的。

空间金字塔池化（Spatial Pyramid Pooling，简称SPP）可以将尺寸大小不一样的转换为同样的尺寸。

SPP首先把看成1块，对这1块进行最大值池化，得到1个值，分成4块，对这4块分别进行最大值池化，得到4个值；分成16块，对这16块分别进行最大值池化，得到16个值，以此类推。这样就可以保证对于不同尺寸的而言，最终得到的值的个数是一样的。因为是最大值池化，超出范围的用不用0填充不会影响结果。

直接对原始图像做卷积，会存在两个问题。一是每次卷积后图像（特征图）都会缩小，这样卷不了几次就没了；二是相比于中间的点，边缘的点在卷积中被计算的次数很少，导致边缘的信息易于丢失。

为了解决这个问题，我们可以采用填充的方法。我们每次卷积前，先给周围都补一圈空白，让卷积之后跟原来一样大，同时，原来的边缘也被计算了更多次。

比如，我们把(8,8)的给补成(10,10)，那么经过(3,3)的filter之后，就是(8,8)，没有变。

能够保证输入的数据和输出的数据具有相同的空间尺寸，假设零填充个数为p，卷积核为f f，卷积核滑动步长为s，则p应设置为

假设原始输入图像为m m，输出图像为n n，零填充个数为p，卷积核为f f，卷积核滑动步长为s，则输出尺寸为

假设输入图像为(m,m,d)，其中d为图像深度（通道数），卷积核为f f，卷积核个数为n，则weight个数为

bias个数：

池化层很少使用零填充。假设原始输入图像为m m，输出图像为n n，卷积核为f f，卷积核滑动步长为s，则输出尺寸为

卷积神经网络反向求导时对池化层的处理

1）池化层没有激活函数，这个问题倒比较好解决，我们可以令池化层的激活函数为$\sigma(z) = z$，即激活后就是自己本身。这样池化层激活函数的导数为1

2）池化层在前向传播的时候，对输入进行了压缩，那么我们现在需要向前反向推导$\delta^{l-1}$，这个推导方法和DNN完全不同。

为了符合梯度计算，我们在误差矩阵周围填充了一圈0，此时我们将卷积核翻转后和反向传播的梯度误差进行卷积，就得到了前一次的梯度误差。这个例子直观的介绍了为什么对含有卷积的式子求导时，卷积核要翻转180度的原因。

以上就是卷积层的误差反向传播过程。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/12177603.html

卷积神经网络参数解析

发表评论

评论列表（0条）