rnn神经网络算法_CNN（卷积神经网络）、RNN（循环神经网络）、DNN（深度神经网络）的内部网络结构有什么区别

⑴ 关于循环神经网络RNN,隐藏层是怎么来的

RNN的隐藏层也可以叫循环核，简单来说循环核循环的次数叫时间步，循环核的个数就是隐藏层层数。

循环核可以有两个输入（来自样本的输入x、来自上一时间步的激活值a）和两个输出（输出至下一层的激活值h、输出至本循环核下一时间步的激活值a），输入和输出的形式有很多变化，题主想了解可以上B站搜索“吴恩达深度学习”其中第五课是专门对RNN及其拓展进行的讲解，通俗易懂。

B站链接：网页链接

⑵ 循环神经网络（RNN）浅析

RNN是两种神经网络模型的缩写，一种是递归神经网络（Recursive Neural Network），一种是循环神经网络（Recurrent Neural Network）。虽然这两种神经网络有着千丝万缕的联系，但是本文主要讨论的是第二种神经网络模型——循环神经网络（Recurrent Neural Network）。

循环神经网络是指一个随着时间的推移，重复发生的结构。在自然语言处理（NLP），语音图像等多个领域均有非常广泛的应用。RNN网络和其他网络最大的不同就在于RNN能够实现某种“记忆功能”，是进行时间序列分析时最好的选择。如同人类能够凭借自己过往的记忆更好地认识这个世界一样。RNN也实现了类似于人脑的这一机制，对所处理过的信息留存有一定的记忆，而不像其他类型的神经网络并不能对处理过的信息留存记忆。

循环神经网络的原理并不十分复杂，本节主要从原理上分析RNN的结构和功能，不涉及RNN的数学推导和证明，整个网络只有简单的输入输出和网络状态参数。一个典型的RNN神经网络如图所示：

由上图可以看出：一个典型的RNN网络包含一个输入x，一个输出h和一个神经网络单元A。和普通的神经网络不同的是，RNN网络的神经网络单元A不仅仅与输入和输出存在联系，其与自身也存在一个回路。这种网络结构就揭示了RNN的实质：上一个时刻的网络状态信息将会作用于下一个时刻的网络状态。如果上图的网络结构仍不够清晰，RNN网络还能够以时间序列展开成如下形式：

等号右边是RNN的展开形式。由于RNN一般用来处理序列信息，因此下文说明时都以时间序列来举例，解释。等号右边的等价RNN网络中最初始的输入是x0，输出是h0，这代表着0时刻RNN网络的输入为x0，输出为h0，网络神经元在0时刻的状态保存在A中。当下一个时刻1到来时，此时网络神经元的状态不仅仅由1时刻的输入x1决定，也由0时刻的神经元状态决定。以后的情况都以此类推，直到时间序列的末尾t时刻。

上面的过程可以用一个简单的例子来论证：假设现在有一句话“I want to play basketball”，由于自然语言本身就是一个时间序列，较早的语言会与较后的语言存在某种联系，例如刚才的句子中“play”这个动词意味着后面一定会有一个名词，而这个名词具体是什么可能需要更遥远的语境来决定，因此一句话也可以作为RNN的输入。回到刚才的那句话，这句话中的5个单词是以时序出现的，我们现在将这五个单词编码后依次输入到RNN中。首先是单词“I”，它作为时序上第一个出现的单词被用作x0输入，拥有一个h0输出，并且改变了初始神经元A的状态。单词“want”作为时序上第二个出现的单词作为x1输入，这时RNN的输出和神经元状态将不仅仅由x1决定，也将由上一时刻的神经元状态或者说上一时刻的输入x0决定。之后的情况以此类推，直到上述句子输入到最后一个单词“basketball”。

接下来我们需要关注RNN的神经元结构：

上图依然是一个RNN神经网络的时序展开模型，中间t时刻的网络模型揭示了RNN的结构。可以看到，原始的RNN网络的内部结构非常简单。神经元A在t时刻的状态仅仅是t-1时刻神经元状态与t时刻网络输入的双曲正切函数的值，这个值不仅仅作为该时刻网络的输出，也作为该时刻网络的状态被传入到下一个时刻的网络状态中，这个过程叫做RNN的正向传播（forward propagation）。注：双曲正切函数的解析式如下：

双曲正切函数的求导如下：

双曲正切函数的图像如下所示：

这里就带来一个问题：为什么RNN网络的激活函数要选用双曲正切而不是sigmod呢？（RNN的激活函数除了双曲正切，RELU函数也用的非常多）原因在于RNN网络在求解时涉及时间序列上的大量求导运算，使用sigmod函数容易出现梯度消失，且sigmod的导数形式较为复杂。事实上，即使使用双曲正切函数，传统的RNN网络依然存在梯度消失问题，无法“记忆”长时间序列上的信息，这个bug直到LSTM上引入了单元状态后才算较好地解决。

这一节主要介绍与RNN相关的数学推导，由于RNN是一个时序模型，因此其求解过程可能和一般的神经网络不太相同。首先需要介绍一下RNN完整的结构图，上一节给出的RNN结构图省去了很多内部参数，仅仅作为一个概念模型给出。

上图表明了RNN网络的完整拓扑结构，从图中我们可以看到RNN网络中的参数情况。在这里我们只分析t时刻网络的行为与数学推导。t时刻网络迎来一个输入xt，网络此时刻的神经元状态st用如下式子表达：

t时刻的网络状态st不仅仅要输入到下一个时刻t+1的网络状态中去，还要作为该时刻的网络输出。当然，st不能直接输出，在输出之前还要再乘上一个系数V，而且为了误差逆传播时的方便通常还要对输出进行归一化处理，也就是对输出进行softmax化。因此，t时刻网络的输出ot表达为如下形式：

为了表达方便，笔者将上述两个公式做如下变换：

以上，就是RNN网络的数学表达了，接下来我们需要求解这个模型。在论述具体解法之前首先需要明确两个问题：优化目标函数是什么？待优化的量是什么？

只有在明确了这两个问题之后才能对模型进行具体的推导和求解。关于第一个问题，笔者选取模型的损失函数作为优化目标；关于第二个问题，我们从RNN的结构图中不难发现：只要我们得到了模型的U，V，W这三个参数就能完全确定模型的状态。因此该优化问题的优化变量就是RNN的这三个参数。顺便说一句，RNN模型的U，V，W三个参数是全局共享的，也就是说不同时刻的模型参数是完全一致的，这个特性使RNN得参数变得稍微少了一些。

不做过多的讨论，RNN的损失函数选用交叉熵（Cross Entropy），这是机器学习中使用最广泛的损失函数之一了，其通常的表达式如下所示：

上面式子是交叉熵的标量形式，y_i是真实的标签值，y_i*是模型给出的预测值，最外面之所以有一个累加符号是因为模型输出的一般都是一个多维的向量，只有把n维损失都加和才能得到真实的损失值。交叉熵在应用于RNN时需要做一些改变：首先，RNN的输出是向量形式，没有必要将所有维度都加在一起，直接把损失值用向量表达就可以了；其次，由于RNN模型处理的是序列问题，因此其模型损失不能只是一个时刻的损失，应该包含全部N个时刻的损失。

故RNN模型在t时刻的损失函数写成如下形式：

全部N个时刻的损失函数（全局损失）表达为如下形式：

需要说明的是：yt是t时刻输入的真实标签值，ot为模型的预测值，N代表全部N个时刻。下文中为了书写方便，将Loss简记为L。在结束本小节之前，最后补充一个softmax函数的求导公式：

由于RNN模型与时间序列有关，因此不能直接使用BP（back propagation）算法。针对RNN问题的特殊情况，提出了BPTT算法。BPTT的全称是“随时间变化的反向传播算法”（back propagation through time）。这个方法的基础仍然是常规的链式求导法则，接下来开始具体推导。虽然RNN的全局损失是与全部N个时刻有关的，但为了简单笔者在推导时只关注t时刻的损失函数。

首先求出t时刻下损失函数关于o_t*的微分：

求出损失函数关于参数V的微分：

因此，全局损失关于参数V的微分为：

求出t时刻的损失函数关于关于st*的微分：

求出t时刻的损失函数关于s_t-1*的微分：

求出t时刻损失函数关于参数U的偏微分。注意：由于是时间序列模型，因此t时刻关于U的微分与前t-1个时刻都有关，在具体计算时可以限定最远回溯到前n个时刻，但在推导时需要将前t-1个时刻全部带入：

因此，全局损失关于U的偏微分为：

求t时刻损失函数关于参数W的偏微分，和上面相同的道理，在这里仍然要计算全部前t-1时刻的情况：

因此，全局损失关于参数W的微分结果为：

至此，全局损失函数关于三个主要参数的微分都已经得到了。整理如下：

接下来进一步化简上述微分表达式，化简的主要方向为t时刻的损失函数关于ot的微分以及关于st*的微分。已知t时刻损失函数的表达式，求关于ot的微分：

softmax函数求导：

因此：

又因为：

且：

有了上面的数学推导，我们可以得到全局损失关于U，V，W三个参数的梯度公式：

由于参数U和W的微分公式不仅仅与t时刻有关，还与前面的t-1个时刻都有关，因此无法写出直接的计算公式。不过上面已经给出了t时刻的损失函数关于s_t-1的微分递推公式，想来求解这个式子也是十分简单的，在这里就不赘述了。

以上就是关于BPTT算法的全部数学推导。从最终结果可以看出三个公式的偏微分结果非常简单，在具体的优化过程中可以直接带入进行计算。对于这种优化问题来说，最常用的方法就是梯度下降法。针对本文涉及的RNN问题，可以构造出三个参数的梯度更新公式：

依靠上述梯度更新公式就能够迭代求解三个参数，直到三个参数的值发生收敛。

这是笔者第一次尝试推导RNN的数学模型，在推导过程中遇到了非常多的bug。非常感谢互联网上的一些公开资料和博客，给了我非常大的帮助和指引。接下来笔者将尝试实现一个单隐层的RNN模型用于实现一个语义预测模型。

⑶ CNN（卷积神经网络）、RNN（循环神经网络）、DNN（深度神经网络）的内部网络结构有什么区别

如下：

1、DNN：存在着一个问题——无法对时间序列上的变化进行建模。然而，样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。对了适应这种需求，就出现了另一种神经网络结构——循环神经网络RNN。

2、CNN：每层神经元的信号只能向上一层传播，样本的处理在各个时刻独立，因此又被称为前向神经网络。

3、RNN：神经元的输出可以在下一个时间戳直接作用到自身，即第i层神经元在m时刻的输入，除了（i-1）层神经元在该时刻的输出外，还包括其自身在（m-1）时刻的输出！

介绍

神经网络技术起源于上世纪五、六十年代，当时叫感知机（perceptron），拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层，在输出层得到分类结果。早期感知机的推动者是Rosenblatt。

在实际应用中，所谓的深度神经网络DNN，往往融合了多种已知的结构，包括卷积层或是LSTM单元。

⑷ 循环神经网络（RNN）简介

循环神经网络英文名称为 ( Recurrent Neural Network, RNN )，其通过使用带自反馈的神经元，能够处理任意长度的时序数据。

给定输入时序序列

式中，表示一段时序数据，为时间长度

以一段英文段落为例，其时序数据可以表示为：

若是一段视频，将其每一帧通过CNN网络处理得到相应的编码向量

循环神经网络通过以下公式更新隐藏层的活性值

循环神经网络图示

RNN的基本模型如下图所示，为便于理解，图中将RNN的模型展开，按照时序方向对其前向传播流程进行介绍

RNN的基本模型

利用数学表达式整个过程可以变得更加清晰，RNN的前向传播公式如下：

将上述过程整合到一个RNN cell中，可以表示为如下图所示的过程：

RNN的前向传播示意图

缺陷:

没有利用到模型后续的信息，可以通过双向RNN网络进行优化

RNN主要有两种计算梯度的方式：随时间反向传播（BPTT）和实时循环学习法（RTRL）算法

本文中主要介绍随时间反向传播的方法（ BackPropagation Through Time ）

RNN的损失函数与任务有关，对于同步的序列对序列任务，其loss可以用交叉熵公式表示

然后通过BPTT算法便可以进行梯度的反向传播计算

梯度爆炸的解决方法：梯度修剪

梯度消失的解决方法：增加长程依赖 LSTM,GRU

GRU的基本思路：增加相关门（Relate Gate）和更新门（Update Gate），进而使得RNN单元具有记忆能力

首先从数学角度对GRU的前向传播过程进行介绍，具体公式如下：

公式中各变量的含义：

将上述数学公式转化为图像，可得

GRU Cell的前向传播流程

LSTM意为长短时记忆网络 （Long Short-Term Memory Network，LSTM） ，可以有效地解决简单神经网络的梯度消失和爆炸问题

在LSTM中，与GRU主要有两点不同

同样，先从数学公式入手，对LSTM的前向传播过程进行了解

基于数学公式的过程，可将LSTM CELL的前向传播过程总结为（图片借用于nndl）：

LSTM Cell的前向传播示意图

从上图中可以看出，LSTM在前向传播的过程中传输了两个状态：内部状态以及外部状态，在整个传播过程中 外部状态（隐状态） 每个时刻都会被重写，因此可以看作一种 短时记忆 ，而 内部状态 可以在某个时刻捕捉一些关键信息，并将此信息保存一段时间间隔，可以看作一种 长时记忆 （长的短时记忆）

此外，在LSTM网络初始化训练的时候，需要手动将遗忘门的数值设置的大一些，否则在参数初始化的时候，遗忘门的数据会被初始化为一个很小的值，前一时刻的内部状态大部分都会丢失，这样网络很难获取到长距离的依赖信息，并且相邻时间间隔的梯度会非常小，导致 梯度弥散 问题，因此遗忘门的 偏置变量的初始值 一般很大，取 1或2

将设置为1即可，但是长度非常的大的时候会造成记忆单元的饱和，降低性能

三个门不仅依赖于和，也依赖于

将两者合并为一个门，即：

首先，我们要理解什么是深层的RNN，对于单个的RNN cell，若将其在时间维度上展开，其深度与时间维度的长度成正比，但若将一个RNN cell看作为单个从的映射函数，则单个cell实际上是很浅显的一层，因此深层循环神经网络要做的就是把多个RNN cell组合起来，换句话说，就是增加从输入到输出的路径，使得网络的深度更深。

如何增加从输入到输出的路径呢？两种途径：

堆叠循环神经网络示意图

将网络带入到实际应用场景中：假如我们要翻译一段句子

在这里，is和are实际上是由后面的Lucy和they所决定的，而这种单向的按照时序进行传播的方式没有利用到后面的信息。因此诞生了双向循环网络

双向循环神经网络示意图

双向循环神经网络实际上就是简单的双层循环神经网络，只不过第二层网络的传播方式为按时序的逆向传播，其传播公式为：

⑸ DNN、RNN、CNN分别是什么意思

DNN（深度神经网络），是深度学习的基础。

DNN可以理解为有很多隐藏层的神经网络。这个很多其实也没有什么度量标准, 多层神经网络和深度神经网络DNN其实也是指的一个东西，当然，DNN有时也叫做多层感知机（Multi-Layer perceptron,MLP）。

从DNN按不同层的位置划分，DNN内部的神经网络层可以分为三类，输入层，隐藏层和输出层,如下图示例，一般来说第一层是输出层，最后一层是输出层，而中间的层数都是隐藏层。

CNN（卷积神经网络），是一种前馈型的神经网络，目前深度学习技术领域中非常具有代表性的神经网络之一。

CNN在大型图像处理方面有出色的表现，目前已经被大范围使用到图像分类、定位等领域中。相比于其他神经网络结构，卷积神经网络需要的参数相对较少，使的其能够广泛应用。

RNN（循环神经网络），一类用于处理序列数据的神经网络，RNN最大的不同之处就是在层之间的神经元之间也建立的权连接。

从广义上来说，DNN被认为包含了CNN、RNN这些具体的变种形式。在实际应用中，深度神经网络DNN融合了多种已知的结构，包含卷积层或LSTM单元，特指全连接的神经元结构，并不包含卷积单元或时间上的关联。

⑹ CNN、RNN、DNN的一般解释

CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别？

转自知乎科言君的回答

神经网络技术起源于上世纪五、六十年代，当时叫感知机（perceptron），拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层，在输出层得到分类结果。早期感知机的推动者是Rosenblatt。（扯一个不相关的：由于计算技术的落后，当时感知器传输函数是用线拉动变阻器改变电阻的方法机械实现的，脑补一下科学家们扯着密密麻麻的导线的样子…）

但是，Rosenblatt的单层感知机有一个严重得不能再严重的问题，即它对稍复杂一些的函数都无能为力（比如最为典型的“异或”操作）。连异或都不能拟合，你还能指望这货有什么实际用途么o(╯□╰)o

随着数学的发展，这个缺点直到上世纪八十年代才被Rumelhart、Williams、Hinton、LeCun等人（反正就是一票大牛）发明的多层感知机（multilayerperceptron）克服。多层感知机，顾名思义，就是有多个隐含层的感知机（废话……）。好好，我们看一下多层感知机的结构：

图1 上下层神经元全部相连的神经网络——多层感知机

多层感知机可以摆脱早期离散传输函数的束缚，使用sigmoid或tanh等连续函数模拟神经元对激励的响应，在训练算法上则使用Werbos发明的反向传播BP算法。对，这货就是我们现在所说的神经网络 NN ——神经网络听起来不知道比感知机高端到哪里去了！这再次告诉我们起一个好听的名字对于研（zhuang）究（bi）很重要！

多层感知机解决了之前无法模拟异或逻辑的缺陷，同时更多的层数也让网络更能够刻画现实世界中的复杂情形。相信年轻如Hinton当时一定是春风得意。

多层感知机给我们带来的启示是，神经网络的层数直接决定了它对现实的刻画能力 ——利用每层更少的神经元拟合更加复杂的函数[1]。

（Bengio如是说：functions that can be compactly

represented by a depth k architecture might require an exponential number of

computational elements to be represented by a depth k − 1 architecture.）

即便大牛们早就预料到神经网络需要变得更深，但是有一个梦魇总是萦绕左右。随着神经网络层数的加深，优化函数越来越容易陷入局部最优解，并且这个“陷阱”越来越偏离真正的全局最优。利用有限数据训练的深层网络，性能还不如较浅层网络。同时，另一个不可忽略的问题是随着网络层数增加， “梯度消失”现象更加严重。具体来说，我们常常使用sigmoid作为神经元的输入输出函数。对于幅度为1的信号，在BP反向传播梯度时，每传递一层，梯度衰减为原来的0.25。层数一多，梯度指数衰减后低层基本上接受不到有效的训练信号。

2006年，Hinton利用预训练方法缓解了局部最优解问题，将隐含层推动到了7层[2]，神经网络真正意义上有了“深度”，由此揭开了深度学习的热潮。这里的“深度”并没有固定的定义——在语音识别中4层网络就能够被认为是“较深的”，而在图像识别中20层以上的网络屡见不鲜。为了克服梯度消失，ReLU、maxout等传输函数代替了sigmoid，形成了如今DNN的基本形式。单从结构上来说，全连接的 DNN 和图 1 的多层感知机是没有任何区别的。

值得一提的是，今年出现的高速公路网络（highway network）和深度残差学习（deep resial learning）进一步避免了梯度消失，网络层数达到了前所未有的一百多层（深度残差学习：152层）[3,4]！具体结构题主可自行搜索了解。如果你之前在怀疑是不是有很多方法打上了“深度学习”的噱头，这个结果真是深得让人心服口服。

图2 缩减版的深度残差学习网络，仅有34 层，终极版有152 层，自行感受一下

如图1所示，我们看到全连接 DNN 的结构里下层神经元和所有上层神经元都能够形成连接，带来的潜在问题是参数数量的膨胀。假设输入的是一幅像素为1K*1K的图像，隐含层有1M个节点，光这一层就有10^12个权重需要训练，这不仅容易过拟合，而且极容易陷入局部最优。另外，图像中有固有的局部模式（比如轮廓、边界，人的眼睛、鼻子、嘴等）可以利用，显然应该将图像处理中的概念和神经网络技术相结合。此时我们可以祭出题主所说的卷积神经网络CNN。对于CNN来说，并不是所有上下层神经元都能直接相连，而是通过“卷积核”作为中介。同一个卷积核在所有图像内是共享的，图像通过卷积操作后仍然保留原先的位置关系。两层之间的卷积传输的示意图如下：

图3 卷积神经网络隐含层（摘自Theano 教程）

通过一个例子简单说明卷积神经网络的结构。假设图3中m-1=1是输入层，我们需要识别一幅彩色图像，这幅图像具有四个通道ARGB（透明度和红绿蓝，对应了四幅相同大小的图像），假设卷积核大小为100*100，共使用100个卷积核w1到w100（从直觉来看，每个卷积核应该学习到不同的结构特征）。用w1在ARGB图像上进行卷积操作，可以得到隐含层的第一幅图像；这幅隐含层图像左上角第一个像素是四幅输入图像左上角100*100区域内像素的加权求和，以此类推。同理，算上其他卷积核，隐含层对应100幅“图像”。每幅图像对是对原始图像中不同特征的响应。按照这样的结构继续传递下去。CNN中还有max-pooling等操作进一步提高鲁棒性。

图4 一个典型的卷积神经网络结构，注意到最后一层实际上是一个全连接层（摘自Theano 教程）

在这个例子里，我们注意到输入层到隐含层的参数瞬间降低到了 100*100*100=10^6 个！这使得我们能够用已有的训练数据得到良好的模型。题主所说的适用于图像识别，正是由于 CNN 模型限制参数了个数并挖掘了局部结构的这个特点。顺着同样的思路，利用语音语谱结构中的局部信息，CNN照样能应用在语音识别中。

全连接的DNN还存在着另一个问题——无法对时间序列上的变化进行建模。然而，样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。对了适应这种需求，就出现了题主所说的另一种神经网络结构——循环神经网络RNN。

在普通的全连接网络或CNN中，每层神经元的信号只能向上一层传播，样本的处理在各个时刻独立，因此又被成为前向神经网络(Feed-forward Neural Networks)。而在 RNN 中，神经元的输出可以在下一个时间戳直接作用到自身，即第i层神经元在m时刻的输入，除了（i-1）层神经元在该时刻的输出外，还包括其自身在（m-1）时刻的输出！表示成图就是这样的：

图5 RNN 网络结构

我们可以看到在隐含层节点之间增加了互连。为了分析方便，我们常将RNN在时间上进行展开，得到如图6所示的结构：

图6 RNN 在时间上进行展开

Cool，（ t+1 ）时刻网络的最终结果O(t+1) 是该时刻输入和所有历史共同作用的结果！这就达到了对时间序列建模的目的。

不知题主是否发现，RNN可以看成一个在时间上传递的神经网络，它的深度是时间的长度！正如我们上面所说， “梯度消失”现象又要出现了，只不过这次发生在时间轴上。对于t时刻来说，它产生的梯度在时间轴上向历史传播几层之后就消失了，根本就无法影响太遥远的过去。因此，之前说“所有历史”共同作用只是理想的情况，在实际中，这种影响也就只能维持若干个时间戳。

为了解决时间上的梯度消失，机器学习领域发展出了长短时记忆单元 LSTM ，通过门的开关实现时间上记忆功能，并防止梯度消失，一个LSTM单元长这个样子：

图7 LSTM 的模样

除了题主疑惑的三种网络，和我之前提到的深度残差学习、LSTM外，深度学习还有许多其他的结构。举个例子，RNN既然能继承历史信息，是不是也能吸收点未来的信息呢？因为在序列信号分析中，如果我能预知未来，对识别一定也是有所帮助的。因此就有了双向 RNN 、双向 LSTM ，同时利用历史和未来的信息。

图8 双向RNN

事实上，不论是那种网络，他们在实际应用中常常都混合着使用，比如 CNN 和RNN 在上层输出之前往往会接上全连接层，很难说某个网络到底属于哪个类别。不难想象随着深度学习热度的延续，更灵活的组合方式、更多的网络结构将被发展出来。尽管看起来千变万化，但研究者们的出发点肯定都是为了解决特定的问题。题主如果想进行这方面的研究，不妨仔细分析一下这些结构各自的特点以及它们达成目标的手段。入门的话可以参考：

Ng写的Ufldl： UFLDL教程 - Ufldl

也可以看Theano内自带的教程，例子非常具体： Deep Learning Tutorials

欢迎大家继续推荐补充。

当然啦，如果题主只是想凑个热闹时髦一把，或者大概了解一下方便以后把妹使，这样看看也就罢了吧。

参考文献：

[1]

Bengio Y. Learning Deep

Architectures for AI[J]. Foundations & Trends® in Machine Learning, 2009,

2(1):1-127.

[2]

Hinton G E, Salakhutdinov R R.

Recing the Dimensionality of Data with Neural Networks[J]. Science, 2006,

313(5786):504-507.

[3]

He K, Zhang X, Ren S, Sun J. Deep

Resial Learning for Image Recognition. arXiv:1512.03385, 2015.

[4]

Srivastava R K, Greff K,

Schmidhuber J. Highway networks. arXiv:1505.00387, 2015.

⑺ 如何有效的区分和理解RNN循环神经网络与递归神经网络

NN建立在与FNN相同的计算单元上，以牺牲计算的功能性为代价来简化这一训练过程，其中信息从输入单元向输出单元单向流动，在这些连通模式中并不存在不定向的循环。FNN是建立在层面之上。
因此，为了创建更为强大的计算系统，我们允许RNN打破这些人为设定强加性质的规定，神经元在实际中是允许彼此相连的，两者之间区别在于：组成这些神经元相互关联的架构有所不同，我们还是加入了这些限制条件。事实上：RNN无需在层面之间构建，同时定向循环也会出现。尽管大脑的神经元确实在层面之间的连接上包含有不定向循环

⑻ 一文看懂四种基本的神经网络架构

原文链接：
http://blackblog.tech/2018/02/23/Eight-Neural-Network/

更多干货就在我的个人博客 http://blackblog.tech 欢迎关注

刚刚入门神经网络，往往会对众多的神经网络架构感到困惑，神经网络看起来复杂多样，但是这么多架构无非也就是三类，前馈神经网络，循环网络，对称连接网络，本文将介绍四种常见的神经网络，分别是CNN，RNN，DBN，GAN。通过这四种基本的神经网络架构，我们来对神经网络进行一定的了解。

神经网络是机器学习中的一种模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。
一般来说，神经网络的架构可以分为三类：

前馈神经网络：
这是实际应用中最常见的神经网络类型。第一层是输入，最后一层是输出。如果有多个隐藏层，我们称之为“深度”神经网络。他们计算出一系列改变样本相似性的变换。各层神经元的活动是前一层活动的非线性函数。

循环网络：
循环网络在他们的连接图中定向了循环，这意味着你可以按照箭头回到你开始的地方。他们可以有复杂的动态，使其很难训练。他们更具有生物真实性。
循环网络的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。
循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

对称连接网络：
对称连接网络有点像循环网络，但是单元之间的连接是对称的（它们在两个方向上权重相同）。比起循环网络，对称连接网络更容易分析。这个网络中有更多的限制，因为它们遵守能量函数定律。没有隐藏单元的对称连接网络被称为“Hopfield 网络”。有隐藏单元的对称连接的网络被称为玻尔兹曼机。

其实之前的帖子讲过一些关于感知机的内容，这里再复述一下。
首先还是这张图
这是一个M-P神经元

一个神经元有n个输入，每一个输入对应一个权值w，神经元内会对输入与权重做乘法后求和，求和的结果与偏置做差，最终将结果放入激活函数中，由激活函数给出最后的输出，输出往往是二进制的，0 状态代表抑制，1 状态代表激活。

可以把感知机看作是 n 维实例空间中的超平面决策面，对于超平面一侧的样本，感知器输出 1，对于另一侧的实例输出 0，这个决策超平面方程是 w⋅x=0。那些可以被某一个超平面分割的正反样例集合称为线性可分(linearly separable)样例集合，它们就可以使用图中的感知机表示。
与、或、非问题都是线性可分的问题，使用一个有两输入的感知机能容易地表示，而异或并不是一个线性可分的问题，所以使用单层感知机是不行的，这时候就要使用多层感知机来解决疑惑问题了。

如果我们要训练一个感知机，应该怎么办呢？
我们会从随机的权值开始，反复地应用这个感知机到每个训练样例，只要它误分类样例就修改感知机的权值。重复这个过程，直到感知机正确分类所有的样例。每一步根据感知机训练法则来修改权值，也就是修改与输入 xi 对应的权 wi，法则如下：

这里 t 是当前训练样例的目标输出，o 是感知机的输出，η 是一个正的常数称为学习速率。学习速率的作用是缓和每一步调整权的程度，它通常被设为一个小的数值（例如 0.1），而且有时会使其随着权调整次数的增加而衰减。

多层感知机，或者说是多层神经网络无非就是在输入层与输出层之间加了多个隐藏层而已，后续的CNN，DBN等神经网络只不过是将重新设计了每一层的类型。感知机可以说是神经网络的基础，后续更为复杂的神经网络都离不开最简单的感知机的模型，

谈到机器学习，我们往往还会跟上一个词语，叫做模式识别，但是真实环境中的模式识别往往会出现各种问题。比如：
图像分割：真实场景中总是掺杂着其它物体。很难判断哪些部分属于同一个对象。对象的某些部分可以隐藏在其他对象的后面。
物体光照：像素的强度被光照强烈影响。
图像变形：物体可以以各种非仿射方式变形。例如，手写也可以有一个大的圆圈或只是一个尖头。
情景支持：物体所属类别通常由它们的使用方式来定义。例如，椅子是为了让人们坐在上面而设计的，因此它们具有各种各样的物理形状。
卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值（卷积核）带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。子采样也叫做池化（pooling），通常有均值子采样（mean pooling）和最大值子采样（max pooling）两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。
卷积神经网络由三部分构成。第一部分是输入层。第二部分由n个卷积层和池化层的组合组成。第三部分由一个全连结的多层感知机分类器构成。
这里举AlexNet为例：

·输入：224×224大小的图片，3通道
·第一层卷积：11×11大小的卷积核96个，每个GPU上48个。
·第一层max-pooling：2×2的核。
·第二层卷积：5×5卷积核256个，每个GPU上128个。
·第二层max-pooling：2×2的核。
·第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。
·第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。
·第五层卷积：3×3的卷积核256个，两个GPU上个128个。
·第五层max-pooling：2×2的核。
·第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。
·第二层全连接：4096维
·Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

卷积神经网络在模式识别领域有着重要应用，当然这里只是对卷积神经网络做了最简单的讲解，卷积神经网络中仍然有很多知识，比如局部感受野，权值共享，多卷积核等内容，后续有机会再进行讲解。

传统的神经网络对于很多问题难以处理，比如你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNN能够对任何长度的序列数据进行处理。
这是一个简单的RNN的结构，可以看到隐藏层自己是可以跟自己进行连接的。

那么RNN为什么隐藏层能够看到上一刻的隐藏层的输出呢，其实我们把这个网络展开来开就很清晰了。

从上面的公式我们可以看出，循环层和全连接层的区别就是循环层多了一个权重矩阵 W。
如果反复把式2带入到式1，我们将得到：

在讲DBN之前，我们需要对DBN的基本组成单位有一定的了解，那就是RBM，受限玻尔兹曼机。
首先什么是玻尔兹曼机？
[图片上传失败...(image-d36b31-1519636788074)]
如图所示为一个玻尔兹曼机，其蓝色节点为隐层，白色节点为输入层。
玻尔兹曼机和递归神经网络相比，区别体现在以下几点：
1、递归神经网络本质是学习一个函数，因此有输入和输出层的概念，而玻尔兹曼机的用处在于学习一组数据的“内在表示”，因此其没有输出层的概念。
2、递归神经网络各节点链接为有向环，而玻尔兹曼机各节点连接成无向完全图。

而受限玻尔兹曼机是什么呢？
最简单的来说就是加入了限制，这个限制就是将完全图变成了二分图。即由一个显层和一个隐层构成，显层与隐层的神经元之间为双向全连接。

h表示隐藏层，v表示显层
在RBM中，任意两个相连的神经元之间有一个权值w表示其连接强度，每个神经元自身有一个偏置系数b（对显层神经元）和c（对隐层神经元）来表示其自身权重。
具体的公式推导在这里就不展示了

DBN是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。
DBN由多个限制玻尔兹曼机（Restricted Boltzmann Machines）层组成，一个典型的神经网络类型如图所示。这些网络被“限制”为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。

生成对抗网络其实在之前的帖子中做过讲解，这里在说明一下。
生成对抗网络的目标在于生成，我们传统的网络结构往往都是判别模型，即判断一个样本的真实性。而生成模型能够根据所提供的样本生成类似的新样本，注意这些样本是由计算机学习而来的。
GAN一般由两个网络组成，生成模型网络，判别模型网络。
生成模型 G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯分布等）的噪声 z 生成一个类似真实训练数据的样本，追求效果是越像真实样本越好；判别模型 D 是一个二分类器，估计一个样本来自于训练数据（而非生成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，否则，D 输出小概率。
举个例子：生成网络 G 好比假币制造团伙，专门制造假币，判别网络 D 好比警察，专门检测使用的货币是真币还是假币，G 的目标是想方设法生成和真币一样的货币，使得 D 判别不出来，D 的目标是想方设法检测出来 G 生成的假币。
传统的判别网络：

生成对抗网络：

下面展示一个cDCGAN的例子（前面帖子中写过的）
生成网络

判别网络

最终结果，使用MNIST作为初始样本，通过学习后生成的数字，可以看到学习的效果还是不错的。

本文非常简单的介绍了四种神经网络的架构，CNN，RNN，DBN，GAN。当然也仅仅是简单的介绍，并没有深层次讲解其内涵。这四种神经网络的架构十分常见，应用也十分广泛。当然关于神经网络的知识，不可能几篇帖子就讲解完，这里知识讲解一些基础知识，帮助大家快速入（zhuang）门（bi）。后面的帖子将对深度自动编码器，Hopfield 网络长短期记忆网络（LSTM）进行讲解。

导航:首页 > 源码编译 > rnn神经网络算法

rnn神经网络算法

与rnn神经网络算法相关的资料