图像识别之一：AlexNet_数字化

摘要：文章部分摘自链接。以kaggle上的猫狗数据集做训练，20000张训练，猫狗各10000张，5000张验证集，猫狗各2500张。

数据集链接

链接： https://panbaiducom/s/1uTl_ErqP_KxYH4M5feZOaQ

提取码：6666

@[toc]

在2012年前，图像特征都是机械地计算出来的。事实上，设计一套新的特征函数、改进结果，并撰写论文是盛极一时的潮流。SIFT [Lowe, 2004]、SURF [Bay et al, 2006]、HOG（定向梯度直方图） [Dalal & Triggs, 2005] 、bags of visual words 和类似的特征提取方法占据了主导地位。

另一组研究人员，包括Yann LeCun、Geoff Hinton、Yoshua Bengio、Andrew Ng、Shun ichi Amari和Juergen Schmidhuber，想法则与众不同：他们认为特征本身应该被学习。此外，他们还认为，在合理地复杂性前提下，特征应该由多个共同学习的神经网络层组成，每个层都有可学习的参数。在机器视觉中，最底层可能检测边缘、颜色和纹理。事实上，Alex Krizhevsky、Ilya Sutskever和Geoff Hinton提出了一种新的卷积神经网络变体AlexNet。在2012年ImageNet挑战赛中取得了轰动一时的成绩。AlexNet 以 Alex Krizhevsky 的名字命名，他是论文 [Krizhevsky et al, 2012] 的第一作者。

有趣的是，在网络的最底层，模型学习到了一些类似于传统滤波器的特征抽取器。图1 是从AlexNet论文 [Krizhevsky et al, 2012] 复制的，描述了底层图像特征。

AlexNet的更高层建立在这些底层表示的基础上，以表示更大的特征，如眼睛、鼻子、草叶等等。而更高的层可以检测整个物体，如人、飞机、狗或飞盘。最终的隐藏神经元可以学习图像的综合表示，从而使属于不同类别的数据易于区分。尽管一直有一群执着的研究者不断钻研，试图学习视觉数据的逐级表征，然而很长一段时间里这些尝试都未有突破。深度卷积神经网络的突破出现在2012年。2012年，AlexNet横空出世。它首次证明了学习到的特征可以超越手工设计的特征。它一举打破了计算机视觉研究的现状。 AlexNet使用了8层卷积神经网络，并以很大的优势赢得了2012年ImageNet图像识别挑战赛。

AlexNet和LeNet的设计理念非常相似，但也存在显著差异。首先，AlexNet比相对较小的LeNet5要深得多。 AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。其次，AlexNet使用ReLU而不是sigmoid作为其激活函数。

测试模型是否正确

把原来ALexNet最后的全连接层的神经元数目减少了一些方便训练，最后的验证准确度差不多86%左右，训练参数7057474个。

目前经常使用的深度神经网络模型主要有卷积神经网络(CNN) 、递归神经网络(RNN)、深信度网络(DBN) 、深度自动编码器(AutoEncoder) 和生成对抗网络(GAN) 等。

递归神经网络实际上包含了两种神经网络。一种是循环神经网络(Recurrent NeuralNetwork) ;另一种是结构递归神经网络(Recursive Neural Network)，它使用相似的网络结构递归形成更加复杂的深度网络。RNN它们都可以处理有序列的问题，比如时间序列等且RNN有“记忆”能力，可以“模拟”数据间的依赖关系。卷积网络的精髓就是适合处理结构化数据。

关于深度神经网络模型的相关学习，推荐CDA数据师的相关课程，课程以项目调动学员数据挖掘实用能力的场景式教学为主，在讲师设计的业务场景下由讲师不断提出业务问题，再由学员循序渐进思考并 *** 作解决问题的过程中，帮助学员掌握真正过硬的解决业务问题的数据挖掘能力。这种教学方式能够引发学员的独立思考及主观能动性，学员掌握的技能知识可以快速转化为自身能够灵活应用的技能，在面对不同场景时能够自由发挥。点击预约免费试听课。

如下：

1、DNN：存在着一个问题——无法对时间序列上的变化进行建模。然而，样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。对了适应这种需求，就出现了另一种神经网络结构——循环神经网络RNN。

2、CNN：每层神经元的信号只能向上一层传播，样本的处理在各个时刻独立，因此又被称为前向神经网络。

3、RNN：神经元的输出可以在下一个时间戳直接作用到自身，即第i层神经元在m时刻的输入，除了（i-1）层神经元在该时刻的输出外，还包括其自身在（m-1）时刻的输出！

介绍

神经网络技术起源于上世纪五、六十年代，当时叫感知机（perceptron），拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层，在输出层得到分类结果。早期感知机的推动者是Rosenblatt。

在实际应用中，所谓的深度神经网络DNN，往往融合了多种已知的结构，包括卷积层或是LSTM单元。

这个网络主要源自于Resnet网络，其作用是：

将靠前若干层的某一层数据输出直接跳过多层引入到后面数据层的输入部分。

意味着后面的特征层的内容会有一部分由其前面的某一层线性贡献。

实验表明，残差网络更容易优化，并且能够通过增加相当的深度来提高准确率。

最终可以使得网络越来越深，Resnet152就是一个很深很深的网络。

残差网络的典型结构如下：

这个结构主要是在Inception网络结构中出现。

Inception网络采用不同大小的卷积核，使得存在不同大小的感受野，最后实现拼接达到不同尺度特征的融合。

不同大小卷积核并行卷积的典型结构如下：

这种结构主要利用在InceptionV3中。

利用1x7的卷积和7x1的卷积代替7x7的卷积，这样可以只使用约（1x7 + 7x1) / (7x7) = 286%的计算开销；利用1x3的卷积和3x1的卷积代替3x3的卷积，这样可以只使用约（1x3 + 3x1) / (3x3) = 67%的计算开销。

下图利用1x7的卷积和7x1的卷积代替7x7的卷积。

下图利用1x3的卷积和3x1的卷积代替3x3的卷积。

这个结构在Resnet里非常常见，其它网络也有用到。

所谓Bottleneck结构就是首先利用1x1卷积层进行特征压缩，再利用3x3卷积网络进行特征提取，再利用1x1卷积层进行特征扩张。

该结构相比于直接对输入进行3x3卷积减少了许多参数量。

当输入为26,26,512时，直接使用3x3、filter为512的卷积网络的参数量为512x3x3x512=2,359,296。

采用Bottleneck结构的话，假设其首先利用1x1、filter为128卷积层进行特征压缩，再利用3x3、filter为128的卷积网络进行特征提取，再利用1x1、filter为512的卷积层进行特征扩张，则参数量为 512×1×1×128 + 128×3×3×128 + 128×1×1×512 = 278,528。

深度可分离卷积主要在MobileNet模型上应用。

其特点是3x3的卷积核厚度只有一层，然后在输入张量上一层一层地滑动，每一次卷积完生成一个输出通道，当卷积完成后，在利用1x1的卷积调整厚度。

假设有一个3×3大小的卷积层，其输入通道为16、输出通道为32。具体为，32个3×3大小的卷积核会遍历16个通道中的每个数据，最后可得到所需的32个输出通道，所需参数为16×32×3×3=4608个。

应用深度可分离卷积，用16个3×3大小的卷积核分别遍历16通道的数据，得到了16个特征图谱。在融合 *** 作之前，接着用32个1×1大小的卷积核遍历这16个特征图谱，所需参数为16×3×3+16×32×1×1=656个。

这种结构主要存在在Xception网络中。

改进版深度可分离卷积就是调换了一下深度可分离的顺序，先进行1x1卷积调整通道，再利用3x3卷积提取特征。

和普通的深度可分离卷积相比，参数量也会有一定的变化。

改进版深度可分离卷积加上残差网络的结构其实和它的名字是一样的，很好理解。

如下图所示：

在ResNet50里我们认识到一个结构，bottleneck design结构，在3x3网络结构前利用1x1卷积降维，在3x3网络结构后，利用1x1卷积升维，相比直接使用3x3网络卷积效果更好，参数更少，先进行压缩，再进行扩张。

而Inverted residuals结构，在3x3网络结构前利用1x1卷积升维，在3x3网络结构后，利用1x1卷积降维，先进行扩张，再进行压缩。

这种结构主要用在MobilenetV2中。

其主要结构如下：

这个结构出现在Deeplabv3语义分割中。

其经过并行的空洞卷积，分别用不同rate的空洞卷积进行特征提取，再进行合并，再进行1x1卷积压缩特征。

空洞卷积可以在不损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。如下就是空洞卷积的一个示意图，所谓空洞就是特征点提取的时候会跨像素。

原文链接： https://blogcsdnnet/weixin_44791964/article/details/103042733

福岛邦彦。

2021年4月29日，福岛邦彦（Kunihiko Fukushima）获得 2021 年鲍尔科学成就奖。他为深度学习做出了杰出贡献，其最有影响力的工作当属「Neocognitron」卷积神经网络架构。

其实，熟悉这位Jürgen Schmidhuber人都知道，他此前一直对自己在深度学习领域的早期原创性成果未能得到业界广泛承认而耿耿于怀。

1979年，福岛博士在STRL开发了一种用于模式识别的神经网络模型：Neocognitron。

很陌生对吧？但这个Neocognitron用今天的话来说，叫卷积神经网络（CNN），是深度神经网络基本结构的最伟大发明之一，也是当前人工智能的核心技术。

什么？卷积神经网络不是一个叫Yann LeCun的大佬发明的吗？怎么又换成了福岛邦彦（Kunihiko Fukushima）了？

严格意义上讲，LeCun是第一个使用误差反向传播训练卷积神经网络（CNN）架构的人，但他并不是第一个发明这个结构的人。而福岛博士引入的Neocognitron，是第一个使用卷积和下采样的神经网络，也是卷积神经网络的雏形。

福岛邦彦(Kunihiko Fukushima)设计的具有学习能力的人工多层神经网络，可以模仿大脑的视觉网络，这种「洞察力」成为现代人工智能技术的基础。福岛博士的工作带来了一系列实际应用，从自动驾驶汽车到面部识别，从癌症检测到洪水预测，还会有越来越多的应用。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/12179288.html

图像识别之一：AlexNet

发表评论

评论列表（0条）