卷积神经网络的卷积层、激活层、池化层、全连接层_数字化

数据输入的是一张（输入层），CONV表示卷积层，RELU表示激励层，POOL表示池化层，Fc表示全连接层

全连接神经网络需要非常多的计算资源才能支撑它来做反向传播和前向传播，所以说全连接神经网络可以存储非常多的参数，如果你给它的样本如果没有达到它的量级的时候，它可以轻轻松松把你给他的样本全部都记下来，这会出现过拟合的情况。

所以我们应该把神经元和神经元之间的连接的权重个数降下来，但是降下来我们又不能保证它有较强的学习能力，所以这是一个纠结的地方，所以有一个方法就是 局部连接+权值共享 ，局部连接+权值共享不仅权重参数降下来了，而且学习能力并没有实质的降低，除此之外还有其它的好处，下来看一下，下面的这几张：

一个图像的不同表示方式

这几张描述的都是一个东西，但是有的大有的小，有的靠左边，有的靠右边，有的位置不同，但是我们构建的网络识别这些东西的时候应该是同一结果。为了能够达到这个目的，我们可以让的不同位置具有相同的权重（权值共享），也就是上面所有的，我们只需要在训练集中放一张，我们的神经网络就可以识别出上面所有的，这也是 权值共享 的好处。

而卷积神经网络就是局部连接+权值共享的神经网络。

现在我们对卷积神经网络有一个初步认识了，下面具体来讲解一下卷积神经网络，卷积神经网络依旧是层级结构，但层的功能和形式做了改变，卷积神经网络常用来处理数据，比如识别一辆汽车：

在输出到神经网络之前，常常先进行图像处理，有三种常见的图像的处理方式：

均值化和归一化

去相关和白化

有一个性质叫做局部关联性质，一个的像素点影响最大的是它周边的像素点，而距离这个像素点比较远的像素点二者之间关系不大。这个性质意味着每一个神经元我们不用处理全局的了（和上一层全连接），我们的每一个神经元只需要和上一层局部连接，相当于每一个神经元扫描一小区域，然后许多神经元（这些神经元权值共享）合起来就相当于扫描了全局，这样就构成一个特征图，n个特征图就提取了这个的n维特征，每个特征图是由很多神经元来完成的。

在卷积神经网络中，我们先选择一个局部区域（filter），用这个局部区域（filter）去扫描整张。局部区域所圈起来的所有节点会被连接到下一层的 一个节点上 。我们拿灰度图（只有一维）来举例：

局部区域

是矩阵式的，将这些以矩阵排列的节点展成了向量。就能更好的看出来卷积层和输入层之间的连接，并不是全连接的，我们将上图中的红色方框称为filter，它是22的，这是它的尺寸，这不是固定的，我们可以指定它的尺寸。

我们可以看出来当前filter是22的小窗口，这个小窗口会将矩阵从左上角滑到右下角，每滑一次就会一下子圈起来四个，连接到下一层的一个神经元，然后产生四个权重，这四个权重(w1、w2、w3、w4)构成的矩阵就叫做卷积核。

卷积核是算法自己学习得到的，它会和上一层计算，比如，第二层的0节点的数值就是局部区域的线性组合（w1 0+w2 1+w3 4+w4 5），即被圈中节点的数值乘以对应的权重后相加。

卷积核计算

卷积 *** 作

我们前面说过不用向量表示是为了保留平面结构的信息。同样的，卷积后的输出若用上图的向量排列方式则丢失了平面结构信息。所以我们依然用矩阵的方式排列它们，就得到了下图所展示的连接，每一个蓝色结点连接四个**的结点。

卷积层的连接方式

是一个矩阵然后卷积神经网络的下一层也是一个矩阵，我们用一个卷积核从矩阵左上角到右下角滑动，每滑动一次，当然被圈起来的神经元们就会连接下一层的一个神经元，形成参数矩阵这个就是卷积核，每次滑动虽然圈起来的神经元不同，连接下一层的神经元也不同，但是产生的参数矩阵确是一样的，这就是 权值共享 。

卷积核会和扫描的的那个局部矩阵作用产生一个值，比如第一次的时候，（w1 0+w2 1+w3 4+w4 5），所以，filter从左上到右下的这个过程中会得到一个矩阵（这就是下一层也是一个矩阵的原因），具体过程如下所示：

卷积计算过程

上图中左边是图矩阵，我们使用的filter的大小是3 3的，第一次滑动的时候，卷积核和矩阵作用（1 1+1 0+1 1+0 0+1 1+1 0+0 1+0 0+1 1）=4，会产生一个值，这个值就是右边矩阵的第一个值，filter滑动9次之后，会产生9个值，也就是说下一层有9个神经元，这9个神经元产生的值就构成了一个矩阵，这矩阵叫做特征图，表示image的某一维度的特征，当然具体哪一维度可能并不知道，可能是这个图像的颜色，也有可能是这个图像的轮廓等等。

单通道总结 ：以上就是单通道的的卷积处理，是一个矩阵，我们用指定大小的卷积核从左上角到右下角来滑动，每次滑动所圈起来的结点会和下一层的一个结点相连，连接之后就会形成局部连接，每一条连接都会产生权重，这些权重就是卷积核，所以每次滑动都会产生一个卷积核，因为权值共享，所以这些卷积核都是一样的。卷积核会不断和当时卷积核所圈起来的局部矩阵作用，每次产生的值就是下一层结点的值了，这样多次产生的值组合起来就是一个特征图，表示某一维度的特征。也就是从左上滑动到右下这一过程中会形成一个特征图矩阵（共享一个卷积核），再从左上滑动到右下又会形成另一个特征图矩阵（共享另一个卷积核），这些特征图都是表示特征的某一维度。

三个通道的如何进行卷积 *** 作？

至此我们应该已经知道了单通道的灰度图是如何处理的，实际上我们的都是RGB的图像，有三个通道，那么此时图像是如何卷积的呢？

彩色图像

filter窗口滑的时候，我们只是从width和height的角度来滑动的，并没有考虑depth，所以每滑动一次实际上是产生一个卷积核，共享这一个卷积核，而现在depth=3了，所以每滑动一次实际上产生了具有三个通道的卷积核（它们分别作用于输入的蓝色、绿色、红色通道），卷积核的一个通道核蓝色的矩阵作用产生一个值，另一个和绿色的矩阵作用产生一个值，最后一个和红色的矩阵作用产生一个值，然后这些值加起来就是下一层结点的值，结果也是一个矩阵，也就是一张特征图。

三通道的计算过程

要想有多张特征图的话，我们可以再用新的卷积核来进行左上到右下的滑动，这样就会形成 新的特征图 。

三通道的卷积过程

也就是说增加一个卷积核，就会产生一个特征图，总的来说就是输入有多少通道，我们的卷积核就需要对应多少通道，而本层中卷积核有多少个，就会产生多少个特征图。这样卷积后输出可以作为新的输入送入另一个卷积层中处理，有几个特征图那么depth就是几，那么下一层的每一个特征图就得用相应的通道的卷积核来对应处理，这个逻辑要清楚，我们需要先了解一下 基本的概念：

卷积计算的公式

4x4的在边缘Zero padding一圈后，再用3x3的filter卷积后，得到的Feature Map尺寸依然是4x4不变。

填充

当然也可以使用5x5的filte和2的zero padding可以保持的原始尺寸，3x3的filter考虑到了像素与其距离为1以内的所有其他像素的关系，而5x5则是考虑像素与其距离为2以内的所有其他像素的关系。

规律： Feature Map的尺寸等于

(input_size + 2 padding_size − filter_size)/stride+1

我们可以把卷积层的作用 总结一点： 卷积层其实就是在提取特征，卷积层中最重要的是卷积核（训练出来的），不同的卷积核可以探测特定的形状、颜色、对比度等，然后特征图保持了抓取后的空间结构，所以不同卷积核对应的特征图表示某一维度的特征，具体什么特征可能我们并不知道。特征图作为输入再被卷积的话，可以则可以由此探测到"更大"的形状概念，也就是说随着卷积神经网络层数的增加，特征提取的越来越具体化。

激励层的作用可以理解为把卷积层的结果做 非线性映射 。

激励层

上图中的f表示激励函数，常用的激励函数几下几种：

常用的激励函数

我们先来看一下激励函数Sigmoid导数最小为0，最大为1/4，

激励函数Sigmoid

Tanh激活函数：和sigmoid相似，它会关于x轴上下对应，不至于朝某一方面偏向

Tanh激活函数

ReLU激活函数（修正线性单元)：收敛快，求梯度快，但较脆弱，左边的梯度为0

ReLU激活函数

Leaky ReLU激活函数：不会饱和或者挂掉，计算也很快，但是计算量比较大

Leaky ReLU激活函数

一些激励函数的使用技巧 ：一般不要用sigmoid，首先试RELU，因为快，但要小心点，如果RELU失效，请用Leaky ReLU，某些情况下tanh倒是有不错的结果。

这就是卷积神经网络的激励层，它就是将卷积层的线性计算的结果进行了非线性映射。可以从下面的图中理解。它展示的是将非线性 *** 作应用到一个特征图中。这里的输出特征图也可以看作是"修正"过的特征图。如下所示：

非线性 *** 作

池化层：降低了各个特征图的维度，但可以保持大分重要的信息。池化层夹在连续的卷积层中间，压缩数据和参数的量，减小过拟合，池化层并没有参数，它只不过是把上层给它的结果做了一个下采样（数据压缩）。下采样有两种常用的方式：

Max pooling ：选取最大的，我们定义一个空间邻域（比如，2x2 的窗口），并从窗口内的修正特征图中取出最大的元素，最大池化被证明效果更好一些。

Average pooling ：平均的，我们定义一个空间邻域（比如，2x2 的窗口），并从窗口内的修正特征图算出平均值

Max pooling

我们要注意一点的是：pooling在不同的depth上是分开执行的，也就是depth=5的话，pooling进行5次，产生5个池化后的矩阵，池化不需要参数控制。池化 *** 作是分开应用到各个特征图的，我们可以从五个输入图中得到五个输出图。

池化 *** 作

无论是max pool还是average pool都有分信息被舍弃，那么部分信息被舍弃后会损坏识别结果吗？

因为卷积后的Feature Map中有对于识别物体不必要的冗余信息，我们下采样就是为了去掉这些冗余信息，所以并不会损坏识别结果。

我们来看一下卷积之后的冗余信息是怎么产生的？

我们知道卷积核就是为了找到特定维度的信息，比如说某个形状，但是图像中并不会任何地方都出现这个形状，但卷积核在卷积过程中没有出现特定形状的位置卷积也会产生一个值，但是这个值的意义就不是很大了，所以我们使用池化层的作用，将这个值去掉的话，自然也不会损害识别结果了。

比如下图中，假如卷积核探测"横折"这个形状。卷积后得到3x3的Feature Map中，真正有用的就是数字为3的那个节点，其余数值对于这个任务而言都是无关的。所以用3x3的Max pooling后，并没有对"横折"的探测产生影响。试想在这里例子中如果不使用Max pooling，而让网络自己去学习。网络也会去学习与Max pooling近似效果的权重。因为是近似效果，增加了更多的参数的代价，却还不如直接进行最大池化处理。

最大池化处理

在全连接层中所有神经元都有权重连接，通常全连接层在卷积神经网络尾部。当前面卷积层抓取到足以用来识别的特征后，接下来的就是如何进行分类。通常卷积网络的最后会将末端得到的长方体平摊成一个长长的向量，并送入全连接层配合输出层进行分类。比如，在下面图中我们进行的图像分类为四分类问题，所以卷积神经网络的输出层就会有四个神经元。

四分类问题

我们从卷积神经网络的输入层、卷积层、激活层、池化层以及全连接层来讲解卷积神经网络，我们可以认为全连接层之间的在做特征提取，而全连接层在做分类，这就是卷积神经网络的核心。

1简介

Autoencoder是一种无监督学习过程，由encode和decode构成，给定输入之后，经过encode将输入编码成code，然后在经过decode将code解码成输出，通过不断地训练，使得输入和输出尽可能相似。通过控制encode的输出维数，可以实现以低维参数学习高维特征，实现了降维。在训练的过程中，主要使用反向传播进行优化，使得输入和输出尽可能相似。

encode和decode两个过程可以理解成互为反函数，在encode过程不断降维，在decode过程提高维度。当AutoEncoder过程中用卷积 *** 作提取特征，相当于encode过程为一个深度卷积神经网络，好多层的卷积池化，那么decode过程就需要进行反卷积和反池化（https://blogcsdnnet/roguesir/article/details/77469665）。

Autoencode并不需要使完全重构输入，只是需要学习到原始图像的重要特征，实现降维，从而有利于可视化或分类。下面使李宏毅机器学习可成长的一个利用autoencode进行text retrieval的例子。

2应用

21文本检索

将每一个文本提取构建成一个向量，那么就可以轻易的根据余弦相似度等方法得到不同文本之间的相似度，找到我们需要的文本，那个，这个向量如何构建呢，最直接的方法就是利用词袋，若世界上一共有1000个词，那个这个文本对应的向量的维度是一千维的，每一个分量的取值为0或1，表示对应的单词在文档中有没有出现。但是这种方法构建的向量复杂，且没有考虑语义信息。Autoencode更好的解决了这个问题。

autoencode可以将向量不断压缩，压缩成一个二维的向量，右上角的图是Hinton在Science上发表的文章的结果图，将文章分为了不同的类别，query对应的类别如图中红点所示，描述的是Energy markets。而右下角所示的LSA并不能起到这种良好的分类效果。

22图像搜索

或许可以通过在像素上的相似程度来找到相似的，但是这样可能会存在问题。如下图，要找到图一的迈克尔杰克逊，但是直接计算像素上的相似性可能得到的相似性是后面那几张。

用Autoencode就可以解决这个问题，将层层编码成一个code，相当于对原图进行了压缩和特征提取，最后在code上进行处理来比较相似性。

23预训练深度神经网络

在进行神经网络训练的时候，通常需要初始化一些参数，如权重等。有一些方法可以实现这些参数的初始化，即pre-training，预训练。那么怎么进行这些参数的初始化呢？autoencode就可以完成这个工作

假如构建了一个如上图右边所示的神经网络，每一层的输入维度分别为784/1000/1000/500，那么在训练第一层的时候可以利用自编码器，如右图所示，将784维的输入输进自编码器，中间encode一千维，使得输出的结果和input越接近越好，这样就将输入转化成了一个一千维的code,就得到了可以用来初始化的第一层的参数W1这里要注意，encode的code如果要比输入还要大，即这里的1000维大于784维，要小心自编码器将输入完全复制成code的情况，使得输入和输出是完全identity的。这一步将第一层的参数训练好之后就可以进行下一步

在固定第一层的参数的之后，可以得到一个1000维的输入，在输入一个自编码器中，将输入转化为1000维的code,保证输入和输出尽可能相似，此时可以得到第二层的参数W2,如此下去，将W1和W2固定，再通过自编码器可以得到W3，然后继续下图所示的过程。

将前三层参数预训练得到以后，将输出的结果进入最后一层，最后一层的参数可以随机初始化，然后根据最后的误差并利用反向传播算法进行调整。

4在CNN上的应用

在卷积神经网络中，利用反向传播算法进行学习时，会有反卷积和反池化，就利用到了autoencode。

https://blogcsdnnet/sinat_25346307/article/details/79104612

3几种自编码器

31De-noising auto-encode

https://blogcsdnnet/marsjhao/article/details/73480859

本文只是作者的粗浅的理解，想要了解更多内容可以看一下李宏毅老师的课程https://wwwbilibilicom/video/av35932863/p=24

卷积神经网络主要结构有：卷积层、池化层、和全连接层。通过堆叠这些层结构形成一个卷积神经网络。将原始图像转化为类别得分，其中卷积层和全连接层拥有参数，激活层和池化层没有参数。参数更新通过反向传播实现。

（1）卷积层

卷积核是一系列的滤波器，用来提取某一种特征

我们用它来处理一个，当图像特征与过滤器表示的特征相似时，卷积 *** 作可以得到一个比较大的值。

当图像特征与过滤器不相似时，卷积 *** 作可以得到一个比较小的值，实际上，卷积的结果特征映射图显示的是对应卷积核所代表的特征在原始特征图上的分布情况。

每个滤波器在空间上（宽度和高度）都比较小，但是深度和输入数据保持一致（特征图的通道数），当卷积核在原图像滑动时，会生成一个二维激活图，激活图上每个空间位置代表原图像对该卷积核的反应。每个卷积层，会有一整个集合的卷积核，有多少个卷积核，输出就有多少个通道。每个卷积核生成一个特征图，这些特征图堆叠起来组成整个输出结果。

卷积核体现了参数共享和局部连接的模式。每个卷积核的大小代表了一个感受野的大小。

卷积后的特征图大小为(W-F+2P)/s+1 ；P 为填充 s 为步长

（2）池化层

池化层本质上是下采样，利用图像局部相关性的原理（认为最大值或者均值代表了这个局部的特征），对图像进行子抽样，可以减少数据处理量同时保留有用信息。这里池化有平均池化，L2范式池化，最大池化，经过实践，最大池化的效果要好于平均池化（平均池化一般放在卷积神经网络的最后一层），最大池化有利于保存纹理信息，平均池化有利于保存背景信息。实际上（因为信息损失的原因）我们可以看到，通过在卷积时使用更大的步长也可以缩小特征映射的尺寸，并不一定要用池化，有很多人不建议使用池化层。3232在55卷积核步长为1下可得到2828。

池化 *** 作可以逐渐降低数据体的空间尺寸，这样的话就能减少网络中参数的数量，使得计算资源耗费变少，也能有效控制过拟合。

（3）全连接层

通过全连接层将特征图转化为类别输出。全连接层不止一层，在这个过程中为了防止过拟合会引入DropOut。最新研究表明，在进入全连接层之前，使用全局平均池化可以有效降低过拟合。

（4）批归一化BN——Batch Normal

随着神经网络训练的进行，每个隐层的参数变化使得后一层的输入发生变化，从而每一批的训练数据的分布也随之改变，致使网络在每次迭代中都需要拟合不同的数据分布，增大训练复杂度和过拟合的风险，只能采用较小的学习率去解决。

通常卷积层后就是BN层加Relu。BN已经是卷积神经网络中的一个标准技术。标准化的过程是可微的，因此可以将BN应用到每一层中做前向和反向传播，同在接在卷积或者全连接层后，非线性层前。它对于不好的初始化有很强的鲁棒性，同时可以加快网络收敛速度。

（5）DropOut

Dropout对于某一层神经元，通过定义的概率来随机删除一些神经元，同时保持输入层与输出层神经元的个数不变，然后按照神经网络的学习方法进行参数更新，下一次迭代中，重新随机删除一些神经元，直至训练结束。

（6）softmax层

Softmax层也不属于CNN中单独的层，一般要用CNN做分类的话，我们习惯的方式是将神经元的输出变成概率的形式，Softmax就是做这个的：。显然Softmax层所有的输出相加为1，按照这个概率的大小确定到底属于哪一类。

“心中有歌，到处都是舞台”。

自从投入了自编码的深度学习研究后，一路走来就是磕磕碰碰。

上一篇将地震信号用在了自编码卷积神经网络降噪（见《地震去噪新探索——无监督卷积神经网络实战》），结果那叫一个惨。如下面的图示，上边是噪声图，下边是去噪图：

从去噪效果来看，仅能获取到一些支离破碎的有效信号，这是一张完全拿不出手的效果图。

卷积神经网络不是更能学习到特征细节，性能更好吗？为啥我做出来的效果如此之惨？

前期的参数设置包括：使用10000个2828的训练小块，训练epoch：5，学习率：0001，优化器：tftrainAdamOptimizer(learn)minimize(cost)，LOSS函数：tfnnsigmoid_cross_entropy_with_logits(labels=targets_, logits=logits_)，cost = tfreduce_mean(loss)

网络结构图为：

训练损失曲线：

1归一化的优化

惨不忍睹的LOSS训练结果引起了我的注意。将收敛失败这个问题拿到网上去寻找答案，有大神说这是归一化没做好。

那就先进行2项优化：

一是控制训练样本的取值范围到（-1,1），使用方法是原值除以最大值的方法，就像这样：

noisy_imgs=noisy_imgs/abs(noisy_imgs)max()

二是在训练网络的每个卷积后增加BN，就像这样：

conv1 = tflayersconv2d(inputs_, 64, (3,3), padding='same', activation=tfnnrelu)

conv1 = tflayersbatch_normalization(conv1, training=True)

再进行训练，效果不明显，还是没有收敛。

另外，很多归一化的方法是将取值范围集中在（0,1），使用这样的算法：

imgs= (imgs-imgsmin())/(imgsmax()-imgsmin())#归一化到[0,1]

结果证明对于地震数据完全没法训练，曲线是这样的：

2学习函数的调整

“一计不成，再生一计”。

我想到了对优化器和LOSS函数进行改动。

在神经网络学习中，损失函数的作用是度量神经网络的输出的预测值，计算与实际值之间的差距，可以说是实现学习的关键函数。常见的损失函数包括：最小二乘损失函数、交叉熵损失函数、回归中使用的smooth L1损失函数等。

而优化函数的原理是：把损失值从神经网络的最外层传递到最前面，实现反向传播学习，这是神经网络实现持续学习达到收敛的关键。如最基础的梯度下降算法包括：随机梯度下降算法，批量梯度下降算法，带动量的梯度下降算法，Adagrad，Adadelta，Adam等。

那我就先从优化器函数入手吧。

既然学习率为0001无法收敛，那试试00001呢。结果还真收敛了，如下图：

那预测效果如何呢？结果是一塌糊涂，连基本特征都学习不到，如下图：

这是怎么回事呢？我的理解是学习率太高，就会让神经网络学习到更细粒度的特征，而失去了我们想要的特征。就相当于研究一个人的特征，我们通常是从五官、体型等方面来看，但如果从细胞的角度的去学习，那就无法还原人的外貌特征了。

另外，设置为00005也好不了多少。

那改动LOSS函数能不能起作用呢？

比如改为softmax_cross_entropy_with_logits，像这样：

loss = tfnnsoftmax_cross_entropy_with_logits(labels=targets_, logits=logits_)

结果是无法学习，如下图：

3其它的尝试

两板斧过去，还没有看到变好的迹象。我没有放弃，我开始思考为啥原程序训练Mnist效果都如此好，换到地震数据训练就不行了呢？

我想到了训练样本数据是不是有问题。我又进行了以下尝试：

一是调整训练样本数据的尺寸：有128128,4040,3232,2828等。

二是对样本数据进行截断：地震数据不是异常值多，偏离度大吗。我就筛选数据集中的90%区间，区间外面的进行截断，再进行归一化。这样数据分布就均匀多了。

三是扩充采样数据来源，从不同的数据源采样。是不是数据更丰富，训练效果就会改观呢？

……

你可以想象做这些实验有多么琐碎和繁杂，然而现实却是如此的无情。最后结局都是一个——失败，根本拿不出一个像样的效果，连一个较为清晰的结果都没有。

“山穷水复疑无路，柳暗花明又一村”。

在持续N天被现实按在地上摩擦后，我痛定思痛：到底解决的方向在哪里？

在现有这个无可救药的神经网络中，提高学习率可以收敛，但是无法学习到有效特征。降低学习率可以学习到有效特征但是无法收敛，也就是说无法持续优化的学习。整个成了一个悖论。

面对这张丑陋的预测结果图，我意识到可能是网络结构本身出了问题。很有可能是网络对数据学习有效，对地震数据学习就是不行。

在翻阅了其它研究者的论文后，我逐步聚焦到了一个结构——解码。我的程序在这部分是使用卷积核上采样的结构。像这样：

conv4 = tfimageresize_nearest_neighbor(conv3, (8,8))

conv4 = tflayersconv2d(conv4, 32, (3,3), padding='same', activation=tfnnrelu)

而其它地震论文结构却包含了一个我没有的结构——反卷积。

如果我也使用反卷积，甚至就只有卷积和反卷积这种最简单的自编码结构，效果如何呢？像这样的结构：

x = Conv2D(32, (3, 3), activation='relu', padding='same')(input_img)

x = Conv2D(32, (3, 3), activation='relu', padding='same')(x)

x = Conv2DTranspose(32, (3,3), padding='same', activation='relu', kernel_initializer='glorot_normal')(x)#反卷积

x = Conv2DTranspose(32, (3,3), padding='same', activation='relu', kernel_initializer='glorot_normal')(x)

decoded = Conv2DTranspose(1, (1,1), padding='same', activation='tanh', kernel_initializer='glorot_normal')(x)

结果是令人惊艳的。下图是收敛的效果，很快就能够收敛：

训练的效果更好。以下分别是原图，噪声图和去噪效果图：

可以看到，上面噪声几乎淹没了有效信号。然后通过训练，仅仅5个迭代，就较好的分离出了有效信号。

“既然选择了远方便只顾风雨兼程”。

看来反卷积是是解决地震学习的一把钥匙。下一步我将研究反卷积能适应地震处理的原因，然后继续进行优化和创新，并使用其它算法做对比实验，争取做出更好的效果。

如果喜欢请点“赞”，如果小伙伴对程序感兴趣，可以联系我获取。

参数调整流程:

计算loss--loss是根据网络输入值和真实值求解获得,与网络参数有关

根据loss使用梯度下降法进行反向传播--梯度下降的BP算法,参考微积分链式求导法则

结束

可以追问的~~

卷积神经网络简介（Convolutional Neural Networks，简称CNN）

卷积神经网络是近年发展起来，并引起广泛重视的一种高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络（Convolutional

Neural

Networks-简称CNN）。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

KFukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后，更多的科研工作者对该网络进行了改进。其中，具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”，该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。

一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

1 神经网络

首先介绍神经网络，这一步的详细可以参考资源1。简要介绍下。神经网络的每个单元如下：

其对应的公式如下：

其中，该单元也可以被称作是Logistic回归模型。当将多个单元组合起来并具有分层结构时，就形成了神经网络模型。下图展示了一个具有一个隐含层的神经网络。

其对应的公式如下：

比较类似的，可以拓展到有2,3,4,5，…个隐含层。

神经网络的训练方法也同Logistic类似，不过由于其多层性，还需要利用链式求导法则对隐含层的节点进行求导，即梯度下降+链式求导法则，专业名称为反向传播。关于训练算法，本文暂不涉及。

2 卷积神经网络

在图像处理中，往往把图像表示为像素的向量，比如一个1000×1000的图像，可以表示为一个1000000的向量。在上一节中提到的神经网络中，如果隐含层数目与输入层一样，即也是1000000时，那么输入层到隐含层的参数数据为1000000×1000000=10^12，这样就太多了，基本没法训练。所以图像处理要想练成神经网络大法，必先减少参数加快速度。就跟辟邪剑谱似的，普通人练得很挫，一旦自宫后内力变强剑法变快，就变的很牛了。

21 局部感知

卷积神经网络有两种神器可以降低参数数目，第一种神器叫做局部感知野。一般认为人对外界的认知是从局部到全局的，而图像的空间联系也是局部的像素联系较为紧密，而距离较远的像素相关性则较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。网络部分连通的思想，也是受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的（即这些神经元只响应某些特定区域的刺激）。如下图所示：左图为全连接，右图为局部连接。

在上右图中，假如每个神经元只和10×10个像素值相连，那么权值数据为1000000×100个参数，减少为原来的千分之一。而那10×10个像素值对应的10×10个参数，其实就相当于卷积 *** 作。

22 参数共享

但其实这样的话参数仍然过多，那么就启动第二级神器，即权值共享。在上面的局部连接中，每个神经元都对应100个参数，一共1000000个神经元，如果这1000000个神经元的100个参数都是相等的，那么参数数目就变为100了。

怎么理解权值共享呢？我们可以这100个参数（也就是卷积 *** 作）看成是提取特征的方式，该方式与位置无关。这其中隐含的原理则是：图像的一部分的统计特性与其他部分是一样的。这也意味着我们在这一部分学习的特征也能用在另一部分上，所以对于这个图像上的所有位置，我们都能使用同样的学习特征。

更直观一些，当从一个大尺寸图像中随机选取一小块，比如说 8×8 作为样本，并且从这个小块样本中学习到了一些特征，这时我们可以把从这个

8×8 样本中学习到的特征作为探测器，应用到这个图像的任意地方中去。特别是，我们可以用从 8×8

样本中所学习到的特征跟原本的大尺寸图像作卷积，从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。

如下图所示，展示了一个33的卷积核在55的图像上做卷积的过程。每个卷积都是一种特征提取方式，就像一个筛子，将图像中符合条件（激活值越大越符合条件）的部分筛选出来。

23 多卷积核

上面所述只有100个参数时，表明只有1个100100的卷积核，显然，特征提取是不充分的，我们可以添加多个卷积核，比如32个卷积核，可以学习32种特征。在有多个卷积核时，如下图所示：

上图右，不同颜色表明不同的卷积核。每个卷积核都会将图像生成为另一幅图像。比如两个卷积核就可以将生成两幅图像，这两幅图像可以看做是一张图像的不同的通道。如下图所示，下图有个小错误，即将w1改为w0，w2改为w1即可。下文中仍以w1和w2称呼它们。

下图展示了在四个通道上的卷积 *** 作，有两个卷积核，生成两个通道。其中需要注意的是，四个通道上每个通道对应一个卷积核，先将w2忽略，只看w1，那么在w1的某位置（i,j）处的值，是由四个通道上（i,j）处的卷积结果相加然后再取激活函数值得到的。

所以，在上图由4个通道卷积得到2个通道的过程中，参数的数目为4×2×2×2个，其中4表示4个通道，第一个2表示生成2个通道，最后的2×2表示卷积核大小。

24 Down-pooling

在通过卷积获得了特征 (features)

之后，下一步我们希望利用这些特征去做分类。理论上讲，人们可以用所有提取得到的特征去训练分类器，例如 softmax

分类器，但这样做面临计算量的挑战。例如：对于一个 96X96

像素的图像，假设我们已经学习得到了400个定义在8X8输入上的特征，每一个特征和图像卷积都会得到一个 (96 − 8 + 1) × (96 − 8+ 1) = 7921 维的卷积特征，由于有 400 个特征，所以每个样例 (example) 都会得到一个 892 × 400 =3,168,400 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便，并且容易出现过拟合 (over-fitting)。

为了解决这个问题，首先回忆一下，我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的 *** 作就叫做池(pooling)，有时也称为平均池化或者最大池化 (取决于计算池化的方法)。

至此，卷积神经网络的基本结构和原理已经阐述完毕。

25 多层卷积

在实际应用中，往往使用多层卷积，然后再使用全连接层进行训练，多层卷积的目的是一层卷积学到的特征往往是局部的，层数越高，学到的特征就越全局化。

3 ImageNet-2010网络结构

ImageNetLSVRC是一个分类的比赛，其训练集包括127W+张，验证集有5W张，测试集有15W张。本文截取2010年AlexKrizhevsky的CNN结构进行说明，该结构在2010年取得冠军，top-5错误率为153%。值得一提的是，在今年的ImageNetLSVRC比赛中，取得冠军的GoogNet已经达到了top-5错误率667%。可见，深度学习的提升空间还很巨大。

下图即为Alex的CNN结构图。需要注意的是，该模型采用了2-GPU并行结构，即第1、2、4、5卷积层都是将模型参数分为2部分进行训练的。在这里，更进一步，并行结构分为数据并行与模型并行。数据并行是指在不同的GPU上，模型结构相同，但将训练数据进行切分，分别训练得到不同的模型，然后再将模型进行融合。而模型并行则是，将若干层的模型参数进行切分，不同的GPU上使用相同的数据进行训练，得到的结果直接连接作为下一层的输入。

上图模型的基本参数为：

输入：224×224大小的，3通道

第一层卷积：5×5大小的卷积核96个，每个GPU上48个。

第一层max-pooling：2×2的核。

第二层卷积：3×3卷积核256个，每个GPU上128个。

第二层max-pooling：2×2的核。

第三层卷积：与上一层是全连接，33的卷积核384个。分到两个GPU上个192个。

第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。

第五层卷积：3×3的卷积核256个，两个GPU上个128个。

第五层max-pooling：2×2的核。

第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。

第二层全连接：4096维

Softmax层：输出为1000，输出的每一维都是属于该类别的概率。

4 DeepID网络结构

DeepID网络结构是香港中文大学的Sun

Yi开发出来用来学习人脸特征的卷积神经网络。每张输入的人脸被表示为160维的向量，学习到的向量经过其他模型进行分类，在人脸验证试验上得到了9745%的正确率，更进一步的，原作者改进了CNN，又得到了9915%的正确率。

如下图所示，该结构与ImageNet的具体参数类似，所以只解释一下不同的部分吧。

上图中的结构，在最后只有一层全连接层，然后就是softmax层了。论文中就是以该全连接层作为图像的表示。在全连接层，以第四层卷积和第三层max-pooling的输出作为全连接层的输入，这样可以学习到局部的和全局的特征。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/12460015.html

卷积神经网络的卷积层、激活层、池化层、全连接层

发表评论

评论列表（0条）

卷积神经网络的 卷积层、激活层、池化层、全连接层

发表评论

评论列表（0条）

卷积神经网络的卷积层、激活层、池化层、全连接层