循环神经网络（RNN）的应用_数字化

循环神经网络（RNN）是目前深度学习最有前景的工具之一，它解决了传统神经网络不能共享从数据中共享位置的特征的问题。目前，RNN已经有了不少有意思的应用：

语音识别 ：输入的语音数据，生成相应的语音文本信息。比如微信的语音转文字功能。

机器翻译 ：不同语言之间的相互转换。像有道翻译、腾讯翻译官等。最近微软据说实现了中翻英媲美人类的水平

音乐生成 ：使用RNN网络生成音乐，一般会用到RNN中的LSTM算法（该算法可以解决RNN网络中相距较远的节点梯度消失的问题）。下面这个github项目实现了jazz音乐的生成。

deepjazz

文本生成 ：利用RNN亦可以生成某种风格的文字。有兴趣的可以看一下一下两个github项目

numpy实现字符层面的文本生成器

keras实现特定作家风格的文本

情感分类 ：输入文本或者语音的评论数据，输出相应的打分数据。

DNA序列分析 ：输入的DNA序列，输出蛋白质表达的子序列。

视频行为识别 ：识别输入的视频帧序列中的人物行为。

实体名字识别 ：从文本中识别实体的名字。

1Perceptron(P) 感知机

1感知机

感知机是我们知道的最简单和最古老的神经元模型，它接收一些输入，然后把它们加总，通过激活函数并传递到输出层。

2Feed Forward(FF)前馈神经网络

2前馈神经网络

前馈神经网络（FF），这也是一个很古老的方法——这种方法起源于50年代。它的工作原理通常遵循以下规则：

1所有节点都完全连接

2激活从输入层流向输出，无回环

3输入和输出之间有一层（隐含层）

在大多数情况下，这种类型的网络使用反向传播方法进行训练。

3Radial Basis Network(RBF) RBF神经网络

3RBF神经网络

RBF 神经网络实际上是激活函数是径向基函数而非逻辑函数的FF前馈神经网络（FF）。两者之间有什么区别呢？

逻辑函数--- 将某个任意值映射到[0 , 1]范围内来，回答“是或否”问题。适用于分类决策系统，但不适用于连续变量。

相反，径向基函数--- 能显示“我们距离目标有多远”。这完美适用于函数逼近和机器控制（例如作为PID控制器的替代）。

简而言之，RBF神经网络其实就是，具有不同激活函数和应用方向的前馈网络。

4Deep Feed Forword(DFF)深度前馈神经网络

4DFF深度前馈神经网络

DFF深度前馈神经网络在90年代初期开启了深度学习的潘多拉盒子。这些依然是前馈神经网络，但有不止一个隐含层。那么，它到底有什么特殊性？

在训练传统的前馈神经网络时，我们只向上一层传递了少量的误差信息。由于堆叠更多的层次导致训练时间的指数增长，使得深度前馈神经网络非常不实用。直到00年代初，我们开发了一系列有效的训练深度前馈神经网络的方法; 现在它们构成了现代机器学习系统的核心，能实现前馈神经网络的功能，但效果远高于此。

5Recurrent Neural Network(RNN) 递归神经网络

5RNN递归神经网络

RNN递归神经网络引入不同类型的神经元——递归神经元。这种类型的第一个网络被称为约旦网络（Jordan Network），在网络中每个隐含神经元会收到它自己的在固定延迟（一次或多次迭代）后的输出。除此之外，它与普通的模糊神经网络非常相似。

当然，它有许多变化 — 如传递状态到输入节点，可变延迟等，但主要思想保持不变。这种类型的神经网络主要被使用在上下文很重要的时候——即过去的迭代结果和样本产生的决策会对当前产生影响。最常见的上下文的例子是文本——一个单词只能在前面的单词或句子的上下文中进行分析。

6Long/Short Term Memory (LSTM) 长短时记忆网络

6LSTM长短时记忆网络

LSTM长短时记忆网络引入了一个存储单元，一个特殊的单元，当数据有时间间隔（或滞后）时可以处理数据。递归神经网络可以通过“记住”前十个词来处理文本，LSTM长短时记忆网络可以通过“记住”许多帧之前发生的事情处理视频帧。 LSTM网络也广泛用于写作和语音识别。

存储单元实际上由一些元素组成，称为门，它们是递归性的，并控制信息如何被记住和遗忘。

7Gated Recurrent Unit (GRU)

7GRU是具有不同门的LSTM

GRU是具有不同门的LSTM。

听起来很简单，但缺少输出门可以更容易基于具体输入重复多次相同的输出，目前此模型在声音（音乐）和语音合成中使用得最多。

实际上的组合虽然有点不同：但是所有的LSTM门都被组合成所谓的更新门(Update Gate)，并且复位门(Reset Gate)与输入密切相关。

它们比LSTM消耗资源少，但几乎有相同的效果。

8Auto Encoder (AE) 自动编码器

8AE自动编码器

Autoencoders自动编码器用于分类，聚类和特征压缩。

当您训练前馈(FF)神经网络进行分类时，您主要必须在Y类别中提供X个示例，并且期望Y个输出单元格中的一个被激活。这被称为“监督学习”。

另一方面，自动编码器可以在没有监督的情况下进行训练。它们的结构 - 当隐藏单元数量小于输入单元数量（并且输出单元数量等于输入单元数）时，并且当自动编码器被训练时输出尽可能接近输入的方式，强制自动编码器泛化数据并搜索常见模式。

9Variational AE (VAE) 变分自编码器

9VAE变分自编码器

变分自编码器，与一般自编码器相比，它压缩的是概率，而不是特征。

尽管如此简单的改变，但是一般自编码器只能回答当“我们如何归纳数据？”的问题时，变分自编码器回答了“两件事情之间的联系有多强大？我们应该在两件事情之间分配误差还是它们完全独立的？”的问题。

10Denoising AE (DAE) 降噪自动编码器

10DAE降噪自动编码器

虽然自动编码器很酷，但它们有时找不到最鲁棒的特征，而只是适应输入数据（实际上是过拟合的一个例子）。

降噪自动编码器（DAE）在输入单元上增加了一些噪声 - 通过随机位来改变数据，随机切换输入中的位，等等。通过这样做，一个强制降噪自动编码器从一个有点嘈杂的输入重构输出，使其更加通用，强制选择更常见的特征。

11Sparse AE (SAE) 稀疏自编码器

11SAE稀疏自编码器

稀疏自编码器（SAE）是另外一个有时候可以抽离出数据中一些隐藏分组样试的自动编码的形式。结构和AE是一样的，但隐藏单元的数量大于输入或输出单元的数量。

12Markov Chain (MC) 马尔科夫链

马尔可夫链（Markov Chain, MC）是一个比较老的图表概念了，它的每一个端点都存在一种可能性。过去，我们用它来搭建像“在单词hello之后有00053％的概率会出现dear，有003551%的概率出现you”这样的文本结构。

这些马尔科夫链并不是典型的神经网络，它可以被用作基于概率的分类（像贝叶斯过滤），用于聚类（对某些类别而言），也被用作有限状态机。

13Hopfield Network (HN) 霍普菲尔网络

13HN霍普菲尔网络

霍普菲尔网络（HN）对一套有限的样本进行训练，所以它们用相同的样本对已知样本作出反应。

在训练前，每一个样本都作为输入样本，在训练之中作为隐藏样本，使用过之后被用作输出样本。

在HN试着重构受训样本的时候，他们可以用于给输入值降噪和修复输入。如果给出一半或数列用来学习，它们可以反馈全部样本。

14Boltzmann Machine (BM) 波尔滋曼机

14 BM 波尔滋曼机

波尔滋曼机（BM）和HN非常相像，有些单元被标记为输入同时也是隐藏单元。在隐藏单元更新其状态时，输入单元就变成了输出单元。（在训练时，BM和HN一个一个的更新单元，而非并行）。

这是第一个成功保留模拟退火方法的网络拓扑。

多层叠的波尔滋曼机可以用于所谓的深度信念网络，深度信念网络可以用作特征检测和抽取。

15Restricted BM (RBM) 限制型波尔滋曼机

15 RBM 限制型波尔滋曼机

在结构上，限制型波尔滋曼机（RBM）和BM很相似，但由于受限RBM被允许像FF一样用反向传播来训练（唯一的不同的是在反向传播经过数据之前RBM会经过一次输入层）。

16Deep Belief Network (DBN) 深度信念网络

16DBN 深度信念网络

像之前提到的那样，深度信念网络（DBN）实际上是许多波尔滋曼机（被VAE包围）。他们能被连在一起（在一个神经网络训练另一个的时候），并且可以用已经学习过的样式来生成数据。

17Deep Convolutional Network (DCN) 深度卷积网络

17 DCN 深度卷积网络

当今，深度卷积网络（DCN）是人工神经网络之星。它具有卷积单元（或者池化层）和内核，每一种都用以不同目的。

卷积核事实上用来处理输入的数据，池化层是用来简化它们（大多数情况是用非线性方程，比如max），来减少不必要的特征。

他们通常被用来做图像识别，它们在的一小部分上运行（大约20x20像素）。输入窗口一个像素一个像素的沿着图像滑动。然后数据流向卷积层，卷积层形成一个漏斗（压缩被识别的特征）。从图像识别来讲，第一层识别梯度，第二层识别线，第三层识别形状，以此类推，直到特定的物体那一级。DFF通常被接在卷积层的末端方便未来的数据处理。

18Deconvolutional Network (DN) 去卷积网络

18 DN 去卷积网络

去卷积网络（DN）是将DCN颠倒过来。DN能在获取猫的之后生成像（狗：0，蜥蜴：0，马：0，猫：1）一样的向量。DNC能在得到这个向量之后，能画出一只猫。

19Deep Convolutional Inverse Graphics Network (DCIGN) 深度卷积反转图像网络

19 DCIGN 深度卷积反转图像网络

深度卷积反转图像网络（DCIGN），长得像DCN和DN粘在一起，但也不完全是这样。

事实上，它是一个自动编码器，DCN和DN并不是作为两个分开的网络，而是承载网路输入和输出的间隔区。大多数这种神经网络可以被用作图像处理，并且可以处理他们以前没有被训练过的图像。由于其抽象化的水平很高，这些网络可以用于将某个事物从一张中移除，重画，或者像大名鼎鼎的CycleGAN一样将一匹马换成一个斑马。

20Generative Adversarial Network (GAN) 生成对抗网络

20 GAN 生成对抗网络

生成对抗网络（GAN）代表了有生成器和分辨器组成的双网络大家族。它们一直在相互伤害——生成器试着生成一些数据，而分辨器接收样本数据后试着分辨出哪些是样本，哪些是生成的。只要你能够保持两种神经网络训练之间的平衡，在不断的进化中，这种神经网络可以生成实际图像。

21Liquid State Machine (LSM) 液体状态机

21 LSM 液体状态机

液体状态机（LSM）是一种稀疏的，激活函数被阈值代替了的（并不是全部相连的）神经网络。只有达到阈值的时候，单元格从连续的样本和释放出来的输出中积累价值信息，并再次将内部的副本设为零。

这种想法来自于人脑，这些神经网络被广泛的应用于计算机视觉，语音识别系统，但目前还没有重大突破。

22Extreme Learning Machine (ELM) 极端学习机

22ELM 极端学习机

极端学习机（ELM）是通过产生稀疏的随机连接的隐藏层来减少FF网络背后的复杂性。它们需要用到更少计算机的能量，实际的效率很大程度上取决于任务和数据。

23Echo State Network (ESN) 回声状态网络

23 ESN 回声状态网络

回声状态网络（ESN）是重复网络的细分种类。数据会经过输入端，如果被监测到进行了多次迭代（请允许重复网路的特征乱入一下），只有在隐藏层之间的权重会在此之后更新。

据我所知，除了多个理论基准之外，我不知道这种类型的有什么实际应用。。。。。。。

24Deep Residual Network (DRN) 深度残差网络

24 DRN 深度残差网络

深度残差网络（DRN）是有些输入值的部分会传递到下一层。这一特点可以让它可以做到很深的层级（达到300层），但事实上它们是一种没有明确延时的RNN。

25Kohonen Network (KN) Kohonen神经网络

25 Kohonen神经网络

Kohonen神经网络（KN）引入了“单元格距离”的特征。大多数情况下用于分类，这种网络试着调整它们的单元格使其对某种特定的输入作出最可能的反应。当一些单元格更新了，离他们最近的单元格也会更新。

像SVM一样，这些网络总被认为不是“真正”的神经网络。

26Support Vector Machine (SVM)

26 SVM 支持向量机

支持向量机（SVM）用于二元分类工作，无论这个网络处理多少维度或输入，结果都会是“是”或“否”。

SVM不是所有情况下都被叫做神经网络。

27Neural Turing Machine (NTM) 神经图灵机

27NTM 神经图灵机

神经网络像是黑箱——我们可以训练它们，得到结果，增强它们，但实际的决定路径大多数我们都是不可见的。

神经图灵机（NTM）就是在尝试解决这个问题——它是一个提取出记忆单元之后的FF。一些作者也说它是一个抽象版的LSTM。

记忆是被内容编址的，这个网络可以基于现状读取记忆，编写记忆，也代表了图灵完备神经网络。

神经网络技术起源于上世纪五、六十年代，当时叫感知机（perceptron），包含有输入层、输出层和一个隐藏层。输入的特征向量通过隐藏层变换到达输出层，由输出层得到分类结果。但早期的单层感知机存在一个严重的问题——它对稍微复杂一些的函数都无能为力（如异或 *** 作）。直到上世纪八十年代才被Hition、Rumelhart等人发明的多层感知机克服，就是具有多层隐藏层的感知机。

多层感知机可以摆脱早期离散传输函数的束缚，使用sigmoid或tanh等连续函数模拟神经元对激励的响应，在训练算法上则使用Werbos发明的反向传播BP算法。这就是现在所说的神经网络NN。

神经网络的层数直接决定了它对现实的刻画能力 ——利用每层更少的神经元拟合更加复杂的函数。但问题出现了——随着神经网络层数的加深，优化函数越来越容易陷入局部最优解，并且这个“陷阱”越来越偏离真正的全局最优。利用有限数据训练的深层网络，性能还不如较浅层网络。同时，另一个不可忽略的问题是随着网络层数增加， “梯度消失”现象更加严重。（具体来说，我们常常使用sigmoid作为神经元的输入输出函数。对于幅度为1的信号，在BP反向传播梯度时，每传递一层，梯度衰减为原来的025。层数一多，梯度指数衰减后低层基本上接受不到有效的训练信号。）

2006年，Hition提出了深度学习的概念，引发了深度学习的热潮。具体是利用预训练的方式缓解了局部最优解的问题，将隐藏层增加到了7层，实现了真正意义上的“深度”。

DNN形成

为了克服梯度消失，ReLU、maxout等传输函数代替了sigmoid，形成了如今DNN的基本形式。结构跟多层感知机一样，如下图所示：

我们看到全连接DNN的结构里下层神经元和所有上层神经元都能够形成连接，从而导致参数数量膨胀。假设输入的是一幅像素为1K1K的图像，隐含层有1M个节点，光这一层就有10^12个权重需要训练，这不仅容易过拟合，而且极容易陷入局部最优。

CNN形成

由于图像中存在固有的局部模式（如人脸中的眼睛、鼻子、嘴巴等），所以将图像处理和神将网络结合引出卷积神经网络CNN。CNN是通过卷积核将上下层进行链接，同一个卷积核在所有图像中是共享的，图像通过卷积 *** 作后仍然保留原先的位置关系。

通过一个例子简单说明卷积神经网络的结构。假设我们需要识别一幅彩色图像，这幅图像具有四个通道ARGB（透明度和红绿蓝，对应了四幅相同大小的图像），假设卷积核大小为100100，共使用100个卷积核w1到w100(从直觉来看，每个卷积核应该学习到不同的结构特征)。

用w1在ARGB图像上进行卷积 *** 作，可以得到隐含层的第一幅图像;这幅隐含层图像左上角第一个像素是四幅输入图像左上角100100区域内像素的加权求和，以此类推。

同理，算上其他卷积核，隐含层对应100幅“图像”。每幅图像对是对原始图像中不同特征的响应。按照这样的结构继续传递下去。CNN中还有max-pooling等 *** 作进一步提高鲁棒性。

注意到最后一层实际上是一个全连接层，在这个例子里，我们注意到输入层到隐藏层的参数瞬间降低到了100100100=10^6个！这使得我们能够用已有的训练数据得到良好的模型。题主所说的适用于图像识别，正是由于CNN模型限制参数了个数并挖掘了局部结构的这个特点。顺着同样的思路，利用语音语谱结构中的局部信息，CNN照样能应用在语音识别中。

RNN形成

DNN无法对时间序列上的变化进行建模。然而，样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。为了适应这种需求，就出现了大家所说的另一种神经网络结构——循环神经网络RNN。

在普通的全连接网络或CNN中，每层神经元的信号只能向上一层传播，样本的处理在各个时刻独立，因此又被成为前向神经网络(Feed-forward Neural Networks)。而在RNN中，神经元的输出可以在下一个时间段直接作用到自身，即第i层神经元在m时刻的输入，除了(i-1)层神经元在该时刻的输出外，还包括其自身在(m-1)时刻的输出！表示成图就是这样的：

为方便分析，按照时间段展开如下图所示：

（t+1）时刻网络的最终结果O（t+1）是该时刻输入和所有历史共同作用的结果！这就达到了对时间序列建模的目的。RNN可以看成一个在时间上传递的神经网络，它的深度是时间的长度!正如我们上面所说，“梯度消失”现象又要出现了，只不过这次发生在时间轴上。

所以RNN存在无法解决长时依赖的问题。为解决上述问题，提出了LSTM（长短时记忆单元），通过cell门开关实现时间上的记忆功能，并防止梯度消失，LSTM单元结构如下图所示：

除了DNN、CNN、RNN、ResNet（深度残差）、LSTM之外，还有很多其他结构的神经网络。如因为在序列信号分析中，如果我能预知未来，对识别一定也是有所帮助的。因此就有了双向RNN、双向LSTM，同时利用历史和未来的信息。

事实上，不论是哪种网络，他们在实际应用中常常都混合着使用，比如CNN和RNN在上层输出之前往往会接上全连接层，很难说某个网络到底属于哪个类别。不难想象随着深度学习热度的延续，更灵活的组合方式、更多的网络结构将被发展出来。

参考链接：https://wwwleiphonecom/news/201702/ZwcjmiJ45aW27ULBhtml

我们从下面四点认识人工神经网络（ANN: Artificial Neutral Network）：神经元结构、神经元的激活函数、神经网络拓扑结构、神经网络选择权值和学习算法。

1 神经元：

我们先来看一组对比图就能了解是怎样从生物神经元建模为人工神经元。

下面分别讲述:

生物神经元的组成包括细胞体、树突、轴突、突触。树突可以看作输入端，接收从其他细胞传递过来的电信号；轴突可以看作输出端，传递电荷给其他细胞；突触可以看作I/O接口，连接神经元，单个神经元可以和上千个神经元连接。细胞体内有膜电位，从外界传递过来的电流使膜电位发生变化，并且不断累加，当膜电位升高到超过一个阈值时，神经元被激活，产生一个脉冲，传递到下一个神经元。

为了更形象理解神经元传递信号过程，把一个神经元比作一个水桶。水桶下侧连着多根水管（树突），水管既可以把桶里的水排出去（抑制性），又可以将其他水桶的水输进来（兴奋性），水管的粗细不同，对桶中水的影响程度不同（权重），水管对水桶水位（膜电位）的改变就是水桶内水位的改变，当桶中水达到一定高度时，就能通过另一条管道（轴突）排出去。

按照这个原理，科学家提出了M-P模型（取自两个提出者的姓名首字母），M-P模型是对生物神经元的建模，作为人工神经网络中的一个神经元。

由MP模型的示意图，我们可以看到与生物神经元的相似之处，x_i表示多个输入，W_ij表示每个输入的权值，其正负模拟了生物神经元中突出的兴奋和抑制；sigma表示将全部输入信号进行累加整合，f为激活函数，O为输出。下图可以看到生物神经元和MP模型的类比：

往后诞生的各种神经元模型都是由MP模型演变过来。

2 激活函数

激活函数可以看作滤波器，接收外界各种各样的信号，通过调整函数，输出期望值。ANN通常采用三类激活函数:阈值函数、分段函数、双极性连续函数（sigmoid，tanh）：

3 学习算法

神经网络的学习也称为训练，通过神经网络所在环境的刺激作用调整神经网络的自由参数（如连接权值），使神经网络以一种新的方式对外部环境做出反应的一个过程。每个神经网络都有一个激活函数y=f(x)，训练过程就是通过给定的海量x数据和y数据，拟合出激活函数f。学习过程分为有导师学习和无导师学习，有导师学习是给定期望输出，通过对权值的调整使实际输出逼近期望输出；无导师学习给定表示方法质量的测量尺度，根据该尺度来优化参数。常见的有Hebb学习、纠错学习、基于记忆学习、随机学习、竞争学习。

4 神经网络拓扑结构

常见的拓扑结构有单层前向网络、多层前向网络、反馈网络，随机神经网络、竞争神经网络。

5 神经网络的发展

（不能贴公式不好解释啊 -_-!）sigma是误差信号，yita是学习率，net是输入之和，V是输入层到隐含层的权重矩阵，W是隐含层到输出层的权重矩阵。

之后还有几种

随着计算机硬件计算能力越来越强，用来训练的数据越来越多，神经网络变得越来越复杂。在人工智能领域常听到DNN（深度神经网络）、CNN（卷积神经网络）、RNN（递归神经网络）。其中，DNN是总称，指层数非常多的网络，通常有二十几层，具体可以是CNN或RNN等网络结构。

参考资料 ：

原文链接：

http://blackblogtech/2018/02/23/Eight-Neural-Network/

更多干货就在我的个人博客 http://blackblogtech 欢迎关注

刚刚入门神经网络，往往会对众多的神经网络架构感到困惑，神经网络看起来复杂多样，但是这么多架构无非也就是三类，前馈神经网络，循环网络，对称连接网络，本文将介绍四种常见的神经网络，分别是CNN，RNN，DBN，GAN。通过这四种基本的神经网络架构，我们来对神经网络进行一定的了解。

神经网络是机器学习中的一种模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

一般来说，神经网络的架构可以分为三类：

前馈神经网络：

这是实际应用中最常见的神经网络类型。第一层是输入，最后一层是输出。如果有多个隐藏层，我们称之为“深度”神经网络。他们计算出一系列改变样本相似性的变换。各层神经元的活动是前一层活动的非线性函数。

循环网络：

循环网络在他们的连接图中定向了循环，这意味着你可以按照箭头回到你开始的地方。他们可以有复杂的动态，使其很难训练。他们更具有生物真实性。

循环网络的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。

循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

对称连接网络：

对称连接网络有点像循环网络，但是单元之间的连接是对称的（它们在两个方向上权重相同）。比起循环网络，对称连接网络更容易分析。这个网络中有更多的限制，因为它们遵守能量函数定律。没有隐藏单元的对称连接网络被称为“Hopfield 网络”。有隐藏单元的对称连接的网络被称为玻尔兹曼机。

其实之前的帖子讲过一些关于感知机的内容，这里再复述一下。

首先还是这张图

这是一个M-P神经元

一个神经元有n个输入，每一个输入对应一个权值w，神经元内会对输入与权重做乘法后求和，求和的结果与偏置做差，最终将结果放入激活函数中，由激活函数给出最后的输出，输出往往是二进制的，0 状态代表抑制，1 状态代表激活。

可以把感知机看作是 n 维实例空间中的超平面决策面，对于超平面一侧的样本，感知器输出 1，对于另一侧的实例输出 0，这个决策超平面方程是 w⋅x=0。那些可以被某一个超平面分割的正反样例集合称为线性可分(linearly separable)样例集合，它们就可以使用图中的感知机表示。

与、或、非问题都是线性可分的问题，使用一个有两输入的感知机能容易地表示，而异或并不是一个线性可分的问题，所以使用单层感知机是不行的，这时候就要使用多层感知机来解决疑惑问题了。

如果我们要训练一个感知机，应该怎么办呢？

我们会从随机的权值开始，反复地应用这个感知机到每个训练样例，只要它误分类样例就修改感知机的权值。重复这个过程，直到感知机正确分类所有的样例。每一步根据感知机训练法则来修改权值，也就是修改与输入 xi 对应的权 wi，法则如下：

这里 t 是当前训练样例的目标输出，o 是感知机的输出，η 是一个正的常数称为学习速率。学习速率的作用是缓和每一步调整权的程度，它通常被设为一个小的数值（例如 01），而且有时会使其随着权调整次数的增加而衰减。

多层感知机，或者说是多层神经网络无非就是在输入层与输出层之间加了多个隐藏层而已，后续的CNN，DBN等神经网络只不过是将重新设计了每一层的类型。感知机可以说是神经网络的基础，后续更为复杂的神经网络都离不开最简单的感知机的模型，

谈到机器学习，我们往往还会跟上一个词语，叫做模式识别，但是真实环境中的模式识别往往会出现各种问题。比如：

图像分割：真实场景中总是掺杂着其它物体。很难判断哪些部分属于同一个对象。对象的某些部分可以隐藏在其他对象的后面。

物体光照：像素的强度被光照强烈影响。

图像变形：物体可以以各种非仿射方式变形。例如，手写也可以有一个大的圆圈或只是一个尖头。

情景支持：物体所属类别通常由它们的使用方式来定义。例如，椅子是为了让人们坐在上面而设计的，因此它们具有各种各样的物理形状。

卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值（卷积核）带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。子采样也叫做池化（pooling），通常有均值子采样（mean pooling）和最大值子采样（max pooling）两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。

卷积神经网络由三部分构成。第一部分是输入层。第二部分由n个卷积层和池化层的组合组成。第三部分由一个全连结的多层感知机分类器构成。

这里举AlexNet为例：

·输入：224×224大小的，3通道

·第一层卷积：11×11大小的卷积核96个，每个GPU上48个。

·第一层max-pooling：2×2的核。

·第二层卷积：5×5卷积核256个，每个GPU上128个。

·第二层max-pooling：2×2的核。

·第三层卷积：与上一层是全连接，33的卷积核384个。分到两个GPU上个192个。

·第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。

·第五层卷积：3×3的卷积核256个，两个GPU上个128个。

·第五层max-pooling：2×2的核。

·第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。

·第二层全连接：4096维

·Softmax层：输出为1000，输出的每一维都是属于该类别的概率。

卷积神经网络在模式识别领域有着重要应用，当然这里只是对卷积神经网络做了最简单的讲解，卷积神经网络中仍然有很多知识，比如局部感受野，权值共享，多卷积核等内容，后续有机会再进行讲解。

传统的神经网络对于很多问题难以处理，比如你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNN能够对任何长度的序列数据进行处理。

这是一个简单的RNN的结构，可以看到隐藏层自己是可以跟自己进行连接的。

那么RNN为什么隐藏层能够看到上一刻的隐藏层的输出呢，其实我们把这个网络展开来开就很清晰了。

从上面的公式我们可以看出，循环层和全连接层的区别就是循环层多了一个权重矩阵 W。

如果反复把式2带入到式1，我们将得到：

在讲DBN之前，我们需要对DBN的基本组成单位有一定的了解，那就是RBM，受限玻尔兹曼机。

首先什么是玻尔兹曼机？

[上传失败(image-d36b31-1519636788074)]

如图所示为一个玻尔兹曼机，其蓝色节点为隐层，白色节点为输入层。

玻尔兹曼机和递归神经网络相比，区别体现在以下几点：

1、递归神经网络本质是学习一个函数，因此有输入和输出层的概念，而玻尔兹曼机的用处在于学习一组数据的“内在表示”，因此其没有输出层的概念。

2、递归神经网络各节点链接为有向环，而玻尔兹曼机各节点连接成无向完全图。

而受限玻尔兹曼机是什么呢？

最简单的来说就是加入了限制，这个限制就是将完全图变成了二分图。即由一个显层和一个隐层构成，显层与隐层的神经元之间为双向全连接。

h表示隐藏层，v表示显层

在RBM中，任意两个相连的神经元之间有一个权值w表示其连接强度，每个神经元自身有一个偏置系数b（对显层神经元）和c（对隐层神经元）来表示其自身权重。

具体的公式推导在这里就不展示了

DBN是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。

DBN由多个限制玻尔兹曼机（Restricted Boltzmann Machines）层组成，一个典型的神经网络类型如图所示。这些网络被“限制”为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。

生成对抗网络其实在之前的帖子中做过讲解，这里在说明一下。

生成对抗网络的目标在于生成，我们传统的网络结构往往都是判别模型，即判断一个样本的真实性。而生成模型能够根据所提供的样本生成类似的新样本，注意这些样本是由计算机学习而来的。

GAN一般由两个网络组成，生成模型网络，判别模型网络。

生成模型 G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯分布等）的噪声 z 生成一个类似真实训练数据的样本，追求效果是越像真实样本越好；判别模型 D 是一个二分类器，估计一个样本来自于训练数据（而非生成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，否则，D 输出小概率。

举个例子：生成网络 G 好比假币制造团伙，专门制造假币，判别网络 D 好比警察，专门检测使用的货币是真币还是假币，G 的目标是想方设法生成和真币一样的货币，使得 D 判别不出来，D 的目标是想方设法检测出来 G 生成的假币。

传统的判别网络：

生成对抗网络：

下面展示一个cDCGAN的例子（前面帖子中写过的）

生成网络

判别网络

最终结果，使用MNIST作为初始样本，通过学习后生成的数字，可以看到学习的效果还是不错的。

本文非常简单的介绍了四种神经网络的架构，CNN，RNN，DBN，GAN。当然也仅仅是简单的介绍，并没有深层次讲解其内涵。这四种神经网络的架构十分常见，应用也十分广泛。当然关于神经网络的知识，不可能几篇帖子就讲解完，这里知识讲解一些基础知识，帮助大家快速入（zhuang）门（bi）。后面的帖子将对深度自动编码器，Hopfield 网络长短期记忆网络（LSTM）进行讲解。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/12171531.html

循环神经网络（RNN）的应用

发表评论

评论列表（0条）