神经网络算法求图_卷积神经网络算法是什么

㈠一文详解图神经网络(二)

《The Graph Neural Network Model》

图领域的应用主要可以分为两种类型 ：专注于图的应用(graph-focused) 和专注于节点的应用(node-focused) 。对于graph-focused的应用，函数和具体的节点无关，(即 )，训练时，在一个图的数据集中进行分类或回归。对于node-focused的应用，函数依赖于具体的节点，即

在一个图-节点对的集合，表示图的集合，表示节点集合，图领域问题可以表示成一个有如下数据集的监督和启空学习框架：

其中，表示集合中的第个节点，表示节点的期望目标(即标签)。节点的状态用表示，该节点的输出用表示，为 local transition function ，为 local output function ，那么和的更新方式如下：

其中，分别表示节点的特征向量、与节点相连的边的特征向量、节点邻居节点的状态向量、节点邻居节点的特征向量。分别为所有的状态、所有的输出、所有的特征向量、所有节点的特征向量的叠加起来的向量，那么上面函数可以写成如下形式：

其中，为 global transition function ，为 global output function ，分别是和的叠加形式

根据 Banach的不动点理论 ，假设是一个压缩映射函数，那么式子有唯一不动点解，而且可以通过迭代方式逼近该不动点

其中，表示在第个迭代时刻的值，对于任意初值，迭代的误差是以指数速度减小的，使用迭代的形式写出状态和输出的更新表达式为：

GNN的学习就是估计参数，使得函数能够近似估计训练集

其中，表示在图中监督学习的节点，对于graph-focused的任务，需要增加一个特殊的节点，该节点用来作为目标节点，这样， graph-focused 任务和 node-focused 任务都能统一到节点预测任务上，学习目标可以是最小化如下二次损失函数

优化算法基于随机梯度下降的策略，优化步骤按照如下几步进行：

在GNN中，函数不需要满足特定的约束，直接使用多层前馈神经网络，对于函数，则需要着重考虑，因为需要满足压缩映射的条件，而且与不动点计算相关。下面提出两种神经网络和不同的策略来满足这些需求

对于节点n nn状态的计算，将改成如下形式

相当于是对节点的每一个邻居节点使用，并将得到的值求和来作为节点的状态，由此，对上式中的函数按照如下方式实现：

其中，向量，矩阵定唤瞎义为两个前向神旁仔经网络的输出。更确切地说，令产生矩阵的网络为transition network，产生向量的网络为forcing network

其中，，，表示将维的向量整理(reshape)成的矩阵，也就是说，将transition network的输出整理成方形矩阵，然后乘以一个系数就得到，就是forcing network的输出

在这里，假定，这个可以通过设定transition function的激活函数来满足，比如设定激活函数为 tanh() 。在这种情况下，，和分别是的块矩阵形式和的堆叠形式，可得：

该式表示对于任意的参数是一个压缩映射，矩阵的 1-norm 定义为：

在这个结构中，通过多层前馈网络实现，但是，并不是所有的参数都会被使用，因为同样需要保证是一个压缩映射函数，这个可以通过惩罚项来实现

其中，惩罚项在时为，在时为0，参数定义为希望的的压缩系数

NLP新人，欢迎大家一起交流，互相学习，共同成长~~

㈡一文彻底搞懂BP算法：原理推导+数据演示+项目实战（上篇）

反向传播算法（Backpropagation Algorithm，简称BP算法）是深度学习的重要思想基础，对于初学者来说也是必须要掌握的基础知识！本文希望以一个清晰的脉络和详细的说明，来让读者彻底明白BP算法的原理和计算过程。

全文分为上下两篇，上篇主要介绍BP算法的原理（即公式的推导），介绍完原理之后，我们会将一些具体的数据带入一个简单的三层神经网络中，去完整的体验一遍BP算法的计算过程；下篇是一个项目实战，我们将带着读者一起亲手实现一个BP神经网络（不使用任何第三方的深度学习框架）来解决一个具体的问题。

图 1 所示是一个简单的三层（两个隐藏层，一个输出层）神经网络结构，假设我们使用这个神经网络来解决二分类问题，我们给这个网络一个输入样本，通过前向运算得到输出。输出值的值域为，例如的值越接近0，代表该样本是"0"类的可能性越大，反之是"1"类的可能性大。

为了便于理解后续的内容，我们需要先搞清楚前向传播的计算过程，以图1所示的内容为例：

输入的样本为：

第一层网络的参数为：

第二层网络的参数为：

第三层网络的参数为：

第一层隐藏层有三个神经元：、和。该层的输入为：

以神经元为例，则旁敏其输入为：

同理有：

假设我们选择函数作为该层的激活函数（图1中的激活函数都标了一个下标，一般情况下，同一层的激活函数都是一样的，不同层可以选择不同的激活函数），那么该层的输出为：、和。

第二层隐藏层有两个神经元：和。该层的输入为：

即第二层的输入是第一层的输出乘以第二层的权重，再加上亮困第二层的偏置。因此得到和的输入分别为：

该层的输出分别为：和。

输出层只有一个神经元：。该层的输入为：

即：

因为该网络要解决的是一个二分类问题，所以输出层的激活函数也可以使用一个Sigmoid型函数，神经网络最后的输出为：。

在1.1节里，我们已经了解了数据沿着神经网络前向传播的过程，这一节我们来介绍更重要的反向传播的计算过程。假设我们使用随机梯度下降的方式来学习神经网络的参数，损失函数定义为，其中是该样本的真实类标。使用梯度下降进行参数的学习，我们必须计算出损失函数关于神经网络中各层参数（权重和偏置）的偏导数。

假设我们要对第层隐藏层的参数和求偏导数，即求和。假设代表第层神经元的运键枝输入，即，其中为前一层神经元的输出，则根据链式法则有：

因此，我们只需要计算偏导数、和。

前面说过，第k层神经元的输入为：，因此可以得到：

上式中，代表第层神经元的权重矩阵的第行，代表第层神经元的权重矩阵的第行中的第列。

我们以1.1节中的简单神经网络为例，假设我们要计算第一层隐藏层的神经元关于权重矩阵的导数，则有：

因为偏置b是一个常数项，因此偏导数的计算也很简单：

依然以第一层隐藏层的神经元为例，则有：

偏导数又称为 误差项（error term，也称为“灵敏度”） ，一般用表示，例如是第一层神经元的误差项，其值的大小代表了第一层神经元对于最终总误差的影响大小。

根据第一节的前向计算，我们知道第层的输入与第层的输出之间的关系为：

又因为，根据链式法则，我们可以得到为：

由上式我们可以看到，第层神经元的误差项是由第层的误差项乘以第层的权重，再乘以第层激活函数的导数（梯度）得到的。这就是误差的反向传播。
现在我们已经计算出了偏导数、和，则和可分别表示为：

下面是基于随机梯度下降更新参数的反向传播算法：

单纯的公式推导看起来有些枯燥，下面我们将实际的数据带入图1所示的神经网络中，完整的计算一遍。

我们依然使用如图5所示的简单的神经网络，其中所有参数的初始值如下：

输入的样本为（假设其真实类标为"1"）：

第一层网络的参数为：

第二层网络的参数为：

第三层网络的参数为：

假设所有的激活函数均为Logistic函数：。使用均方误差函数作为损失函数：

为了方便求导，我们将损失函数简化为：

我们首先初始化神经网络的参数，计算第一层神经元：

上图中我们计算出了第一层隐藏层的第一个神经元的输入和输出，同理可以计算第二个和第三个神经元的输入和输出：

接下来是第二层隐藏层的计算，首先我们计算第二层的第一个神经元的输入z₄和输出f₄(z₄)：

同样方法可以计算该层的第二个神经元的输入和输出：

最后计算输出层的输入和输出：

首先计算输出层的误差项，我们的误差函数为，由于该样本的类标为“1”，而预测值为，因此误差为，输出层的误差项为：

接着计算第二层隐藏层的误差项，根据误差项的计算公式有：

最后是计算第一层隐藏层的误差项：

㈢急求人工神经网络的MATLAB算法~~求大虾教我

1、采用2-5-1三层BP网络结构即可实现其
MATLAB 程序如下：
clc
clear
a=rand(2,200);
x=a(1,:);
y=a(2,:);
F=x.^2+y.^2;
net=newff(minmax(a),[5,1],{'tansig' 'purelin'},'trainlm');
net.trainParam.epochs=100;
net.trainParam.lr=0.1;
net.trainparam.goal=0.001;
net=train(net,a,F)
b=rand(2,100);
x1=b(1,:);
y1=b(2,:);
F1=x1.^2+y1.^2;
ty=sim(net,b);
subplot(1,2,1)
plot(F1);
subplot(1,2,2)
plot(ty,'r')

以上程序我运行很好，。

2、神经网络的核心就是求权值W，偏置值b，很多算法都可实现，当V,M收敛后，就确定这个函数了，只是这个函数为非线性函数，非常复杂，表达困难，已经包含在训练好的神经网络了，此时，可以用这个网络进行预测和分类

记住分给我啊，这个matlab程序花了很多时间，注释懒的写了，你应该看的懂的。

㈣神经网络算法-梯度下降GradientDescent

神经网络文章索引

上一篇神经网络结构中，我们介绍了神经元的结构，激活函数以及每个神经元激活值的算法，涉及到权重、偏置值等。

上一篇结尾提到，对于28*28的黑白手写图像识别，我们需要13002个权重和偏置数值，才能让我们的神经网络最后输出正确结果。

所谓的机器学习，就是寻找这13002个数值的过程。首先这里有两点需要注意：

在负无穷到正无穷之间，如何获得一万多个数字最佳的匹配值？这比在全世界挑选1万人让TA们一起相爱还要难。

我们的做法是用计算机强大运算速度，暴力解决问题。

好了，现在，暴力不是问题，要想出奇迹的关键就在于如何找到如何 优化的规律 。

要想做优化，首先要明确目标，找到当前神经网络和期望结果之间的差距。

从下图可以看到，随机设定的神经网络最终输出的是混乱的一层（被黄色线框标出），距离最右边我们期望只点亮神经元3的情况差距很大。

我们把混乱输出层的每个神经元与期望层每个对应神经元激活值相减，然后平方，再累加在一起，这就是方差cost代价，如下图，计算得到cost是3.37。

我们用这个cost来表示当前神经网络13002个设定值和期望设定值之间的差距，当然，这个cost等于0是差距最小，也就是最接近期望设定值。——当然这只是针对数字3的1张图片来说，我们需要的是针对0~9共10个数字的数万张图片，cost都能是最小。

从下图，我们来看一下神经网络的功能。它能利用13002个设定值经过3层神经元激活值的计算，把784个像素亮度变为10个数字（我们期望这10个数字中只有一个是1，其他都是0）。

这13002个权重和偏置数字，加上激活值的算法，就是神经网络的“想法”。

我们再来看看代价函数的情况，如下图，它是利用很多很多的训练图片（已经明确了对应的数字），把13002个数字变为1个cost代价数。

写成函数形式

我们假设最简单的情况，只有1个权重和1个偏置：

x和y是任意可能的数值，我们希望知道当x和y是什么数值的时候z最小。

每一组[x,y]都对应唯一的z，我们可以假想，有无数个[x,y,z]这样的位置点，在三维空间坐标中，它们就会组成一个面（曲面或平面），如下图。

从几何意义上看，我们就是要找到凹陷最低的那个位置点的x,y的值，因为那里z也就是cost代价最低。

假设上面的xyz绘制的cost曲面是个山地，你是一个旅行者，需要行走找到最低点的位置，你会怎么办？

没错，只要一直往下走，那么就能走到所在区域的最低点。——当然，如果山后面还有更深的山谷，那么你可能找到的只是局部最低点，而并非世界最低点。

实际上，对于复杂的超多维度来说，找到世界最低点几乎是不可能任务。我们唯一能做的就是多找几个局部最低点，然后选择其中最低的那个。

同样，如果我们落脚在[x',y']，那么可以尝试对比[x'+0.1，y']，[x'-0.1，y'],[x'，y'-0.1],[x'，y'+0.1],如果[x'+0.1,y']是最低的，那么我们就走到这里，然后继续尝试对比四周点的高度。这就是梯度下降的算法。

如下图，我们沿着虚线一步一步下山找到最低点。

首先快速的从下图了解几个基本概念。
下图的弧线表示的是某个函数y=f(x)，比如抛物线方程y=x 2 。
曲线上任取两个点a,b，它们对应x和x+dx。（d是指德尔塔大写Δ，小写δ）
ab两点对应的y的差是dy。
现在直线ab看上去是曲线的割线（有ab两个交点）。
假设b点沿着曲线，越来越靠近a点，那么dx极限趋近于0，这时候dy也会越来越小趋近于0，但是！我们会意识到dy/dx永远不会是0，而最终它仍然是角∠cab的对边比邻边，也就是正切三角函数值。
实际上，这也正是曲线的切线的定义。
可以想象，我们取的a点越是靠右，那么这个切线越是竖直。
如果我们把这个切线看做表示某个一次方程，如y=mx+n这种形式，那么a点越靠右，直线越竖直，m值也就越大。
我们把m值叫做直线的斜率。

导数derivative ，一元函数y=f(x)（即因变量y只受到一个自变量x影响的函数）中任意取x，如果x增加极小趋近于0的Δx（或者写为dx),那么y相应的被增加Δy（或者写作dy），那么导数就是dy/dx，而又有dy=f(x+dx)-f(x)，所以：

从函数的曲线图上可以看到，某点的导数就是dx趋近于0时候∠cab的正切，导数反映了切线的陡峭程度，也就是y随着x变化的快慢程度。

微分differential ，简单说就是Δx和Δy，或者记作dx和dy。x称之为自变量，y称之为因变量，那么x趋近于最小的时候的值，就是x的微分（趋近0又不是0的那个神秘值），同样y的微分也是这个意思，总之是想得到又摸不到的神奇值。

斜率slope ，一元一次函数（直线方程）y=mx+n的系数m值。在这里就是a点的导数值f'(x)。

切线tangent ，某个点a的切线，就是经过a点的，以A点斜率为系数的方程y=f'(x)x+n所表示的直线。

自变量dependent variable和因变量 independent variable ，x自己的变化，引发y被动变化。

好了，我们来看 多变量微分Multivariable differential 。

上面都是一个y收到一个x的影响y=f(x)，多变量就是不止受到一个自变量的影响，我们以最简单的z=f(x,y)为例，z=x 2 +y 2 。

绿轴x的变化和红轴y的变化，都会对应蓝轴z的变化。
x从负无穷到正无穷无限种可能，y也是无限种可能，x和y复合到一起就在水平方向覆盖了全部地面，z值有高有低，就像现实世界中的海拔一样，把xy平面凸起或凹陷。（图中粉色没有画出全部曲面）

我们可以想象，这时候不能讨论A点的切线了，而应该考虑它的 切平面tangent plane （下图绿色平面）。

方向导数directional derivative ，就是曲面上过A点的任意曲线的切线（下图紫色线）组成的平面，就是切平面。

这么多紫色的方向中，哪一个方向最陡峭？对于这个z=x 2 +y 2 函数来说，明显是最接近竖直朝上的那个箭头和最接近竖直朝下的那个箭头。
和曲线一样道理，越陡峭意味着z对x、y的变化越敏感，或者说dx、dy的变化会引发更多的dz。
梯度gradient ，我们规定，能够引发因变量最快变化的那个切线正方向，就叫做曲面方程上这个点的梯度。注意梯度是个xyz表示的三维方向，例如[0，0，1]表示z轴竖直向上，[0.1,0.1,1]就往xy的正方向偏一点点。

对于只有xy两个变量的三维曲面来说，我们还可以只是考虑x+0.1,x-0.1,y+0.1,y-0.1这样的试探方法找到最低点，只要2*2=4次就可以了，周全一点也就8次。

但是对于我们手写数字识别中13002个自变量来说，那就要2 13002 次，这是不可行的。

借用多元微分，我们可以找到13002个自变量某一随机点对应的切平面（实际早已不是什么平面了，我们姑且这么说），也可以计算出其中变化最快的方向，就是梯度，数学家已经证明，不管多少个维度，沿着梯度往前走一步，都能获得最快变化后新的一个点，这个点是一个n维向量，对于我们的案例来说就是13003个新数字组成的数组[0.322,0.123,0.55,0.222,...0.233]共13003个数字。

唯一要说明的一点不同就是，为了找最低点，我们不是往上走，而是往相反的负方向，朝下走。

步长step size ，就是我们每次沿着 负梯度 往下走多远，在机器学习算法里面它叫做 学习率learning rate ，同样道理，步子迈小了走得太慢，找到最低点耗时间太久，步子太大了容易跳过最低点（注意，1万多维的复杂情况不是我们上面三维漏斗曲面那么简单可以描述的）。所以我们经常设置0.00001这样小的数字，好在很多机器学习程序都会适当的自动调整它（比如Tensorflow中的梯度下降优化GradientDescentOptimizer），实际上不会让它太慢。

同时，我们从上图中看到，计算出的负梯度是由很多数字组成的数组，每个数字代表一个维度（就像xy那样），所以我们只要在原来的位置点坐标（比如[x,y]）上分别把这个梯度（比如[0.1,-0.3])加上去就能得到新的点([x+0.1,y-0.3])。

内容小结

如果您发现文章错误，请不吝留言指正；
如果您觉得有用，请点喜欢；
如果您觉得很有用，感谢转发~

END

㈤神经网络算法

20 世纪五、六⼗年代，科学家 Frank Rosenblatt其受到 Warren McCulloch 和 Walter Pitts早期的⼯作的影响，发明了感知机（Perceptrons）。

⼀个感知器接受⼏个⼆进制输⼊，，并产⽣⼀个⼆进制输出：

如上图所示的感知机有三个输⼊：。通常可以有更多或更少输⼊。我们再引⼊权重：，衡量输入对输出的重要性。感知机的输出为0 或者 1，则由分配权重后的总和⼩于等于或者⼤于阈值决定。和权重⼀样，阈值（threshold）是⼀个实数，⼀个神经元的参数。⽤更精确的代数形式如下：

给三个因素设置权重来作出决定：

可以把这三个因素对应地⽤⼆进制变量来表⽰。例如，如果天⽓好，我们把

，如果不好，。类似地，如果你的朋友陪你去，，否则。也类似。

这三个对于可能对你来说，“电影好不好看”对你来说最重要，而天气显得不是那么的重要。所以你会这样分配权值：，然后定义阈值threshold=5。

现在，你可以使⽤感知器来给这种决策建⽴数学模型。

例如：

随着权重和阈值的变化，你可以得到不同的决策模型。很明显，感知机不是⼈做出决策使⽤的全部模型。但是这个例⼦说明了⼀个感知机如何能权衡不同的依据来决策。这看上去也可以⼤致解释⼀个感知机⽹络有时确实能够做出一些不错的决定。

现在我们队上面的结构做一点变化，令b=-threshold，即把阈值移到不等号左边，变成偏置，那么感知器的规则可以重写为:

引⼊偏置只是我们描述感知器的⼀个很⼩的变动，但是我们后⾯会看到它引导更进⼀步的符号简化。因此，我们不再⽤阈值，⽽总是使⽤偏置。

感知机是首个可以学习的人工神经网络，它的出现引起的神经网络的第一层高潮。需要指出的是，感知机只能做简单的线性分类任务，而且Minsky在1969年出版的《Perceptron》书中，证明了感知机对XOR（异或）这样的问题都无法解决。但是感知机的提出，对神经网络的发展是具有重要意义的。

通过上面的感知机的观察我们发现一个问题，每个感知机的输出只有0和1，这就意味着有时我们只是在单个感知机上稍微修改了一点点权值w或者偏置b，就可能造成最终输出完全的反转。也就是说，感知机的输出是一个阶跃函数。如下图所示，在0附近的时候，输出的变化是非常明显的，而在远离0的地方，我们可能调整好久参数也不会发生输出的变化。

这样阶跃的跳变并不是我们想要的，我们需要的是当我们队权值w或者偏置b做出微小的调整后，输出也相应的发生微小的改变芹则禅。这同时也意味值我们的输出不再只是0和1，还可以输出小数。由此我们引入了S型神经元。

S型神经元使用 S 型函数，也叫Sigmoid function函数，我们用它作为激活函数。其表达式如下：

图像如下图所示：

利⽤实际的 σ 函数，我们得到⼀个，就像上⾯说明的，平滑的感知器。 σ 函数的平滑特性，正是关键因素，⽽不是其细部形式盯明。 σ 的平滑意味着权重和偏置的微⼩变化，即 ∆w 和 ∆b，会从神经元产⽣⼀个微⼩的输出变化 ∆output。实际上，微积分告诉我们

∆output 可以很好地近似表⽰为：

上面的式子是⼀个反映权重、偏置变化嫌尘和输出变化的线性函数。这⼀线性使得我们可以通过选择权重和偏置的微⼩变化来达到输出的微⼩变化。所以当 S 型神经元和感知器本质上是相同的，但S型神经元在计算处理如何变化权重和偏置来使输出变化的时候会更加容易。

有了对S型神经元的了解，我们就可以介绍神经网络的基本结构了。具体如下：

在⽹络中最左边的称为输⼊层，其中的神经元称为输⼊神经元。最右边的，即输出层包含有输出神经元，在图中，输出层只有⼀个神经元。中间层，既然这层中的神经元既不是输⼊也不是输出，则被称为隐藏层。

这就是神经网络的基本结构，随着后面的发展神经网络的层数也随之不断增加和复杂。

我们回顾一下神经网络发展的历程。神经网络的发展历史曲折荡漾，既有被人捧上天的时刻，也有摔落在街头无人问津的时段，中间经历了数次大起大落。

从单层神经网络（感知机）开始，到包含一个隐藏层的两层神经网络，再到多层的深度神经网络，一共有三次兴起过程。详见下图。

我们希望有⼀个算法，能让我们找到权重和偏置，以⾄于⽹络的输出 y(x) 能够拟合所有的训练输⼊ x。为了量化我们如何实现这个⽬标，我们定义⼀个代价函数：

这⾥ w 表⽰所有的⽹络中权重的集合， b 是所有的偏置， n 是训练输⼊数据的个数，
a 是表⽰当输⼊为 x 时输出的向量，求和则是在总的训练输⼊ x 上进⾏的。当然，输出 a 取决于 x, w和 b，但是为了保持符号的简洁性，我没有明确地指出这种依赖关系。符号 ∥v∥ 是指向量 v 的模。我们把 C 称为⼆次代价函数；有时也称被称为均⽅误差或者 MSE。观察⼆次代价函数的形式我们可以看到 C(w, b) 是⾮负的，因为求和公式中的每⼀项都是⾮负的。此外，代价函数 C(w,b)的值相当⼩，即 C(w; b) ≈ 0，精确地说，是当对于所有的训练输⼊ x， y(x) 接近于输出 a 时。因

此如果我们的学习算法能找到合适的权重和偏置，使得 C(w; b) ≈ 0，它就能很好地⼯作。相反，当 C(w; b) 很⼤时就不怎么好了，那意味着对于⼤量地输⼊， y(x) 与输出 a 相差很⼤。因此我们的训练算法的⽬的，是最⼩化权重和偏置的代价函数 C(w; b)。换句话说，我们想要找到⼀系列能让代价尽可能⼩的权重和偏置。我们将采⽤称为梯度下降的算法来达到这个⽬的。

下面我们将代价函数简化为C(v)。它可以是任意的多元实值函数，。
注意我们⽤ v 代替了 w 和 b 以强调它可能是任意的函数，我们现在先不局限于神经⽹络的环境。

为了使问题更加简单我们先考虑两个变量的情况，想象 C 是⼀个只有两个变量和的函数，我们的目的是找到和使得C最小。

如上图所示，我们的目的就是找到局部最小值。对于这样的一个问题，一种方法就是通过微积分的方法来解决，我们可以通过计算导数来求解C的极值点。但是对于神经网络来说，我们往往面对的是非常道的权值和偏置，也就是说v的维数不只是两维，有可能是亿万维的。对于一个高维的函数C(v)求导数几乎是不可能的。

在这种情况下，有人提出了一个有趣的算法。想象一下一个小球从山顶滚下山谷的过程，我们的⽇常经验告诉我们这个球最终会滚到⾕底。我们先暂时忽略相关的物理定理，对球体的⾁眼观察是为了激发我们的想象⽽不是束缚我们的思维。因此与其陷进物理学⾥凌乱的细节，不如我们就这样问⾃⼰：如果我们扮演⼀天的上帝，能够构造⾃⼰的物理定律，能够⽀配球体可以如何滚动，那么我们将会采取什么样的运动学定律来让球体能够总是滚落到⾕底呢？

为了更精确地描述这个问题，让我们思考⼀下，当我们在和⽅向分别将球体移动⼀个很⼩的量，即 ∆ 和 ∆ 时，球体将会发⽣什么情况。微积分告诉我们 C 将会有如下变化：

也可以用向量表示为

现在我们的问题就转换为不断寻找一个小于0的∆C，使得C+∆C不断变小。

假设我们选取：

这⾥的 η 是个很⼩的正数（称为学习速率），于是

由于 ∥∇C∥2 ≥ 0，这保证了 ∆C ≤ 0，即，如果我们按照上述⽅程的规则去改变 v，那么 C
会⼀直减⼩，不会增加。

所以我们可以通过不断改变v来C的值不断下降，是小球滚到最低点。

总结⼀下，梯度下降算法⼯作的⽅式就是重复计算梯度 ∇C，然后沿着相反的⽅向移动，沿着⼭⾕“滚落”。我们可以想象它像这样：

为了使梯度下降能够正确地运⾏，我们需要选择合适的学习速率η，确保C不断减少，直到找到最小值。

知道了两个变量的函数 C 的梯度下降方法，我们可以很容易的把它推广到多维。我们假设 C 是⼀个有 m 个变量的多元函数。 ∆C 将会变为：

其中， ∇C为

∆v为：

更新规则为：

在回到神经网络中，w和b的更新规则为：

前面提到神经⽹络如何使⽤梯度下降算法来学习他们⾃⾝的权重和偏置。但是，这⾥还留下了⼀个问题：我们并没有讨论如何计算代价函数的梯度。这里就需要用到一个非常重要的算法：反向传播算法（backpropagation）。

反向传播算法的启示是数学中的链式法则。

四个方程：

输出层误差方程：

当前层误差方程：

误差方程关于偏置的关系：

误差方程关于权值的关系

算法描述：

检视这个算法，你可以看到为何它被称作反向传播。我们从最后⼀层开始向后计算误差向量δ。这看起来有点奇怪，为何要从后⾯开始。但是如果你认真思考反向传播的证明，这种反向移动其实是代价函数是⽹络输出的函数的结果。为了理解代价随前⾯层的权重和偏置变化的规律，我们需要重复作⽤链式法则，反向地获得需要的表达式。

参考链接： http://neuralnetworksanddeeplearning.com/

㈥卷积神经网络算法是什么

一维构筑、二维构筑、全卷积构筑。

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一。

卷积神经网络具有表征学习（representation learning）能力，能够按其阶层结构对输入信息进行平移不变分类（shift-invariant classification），因此也被称为“平移不变人工神经网络（Shift-Invariant Artificial Neural Networks, SIANN）”。

卷积神经网络的连接性：

卷积神经网络中卷积层间的连接被称为稀疏连接（sparse connection），即相比于前馈神经网络中的全连接，卷积层中的神经元仅与其相邻层的部分，而非全部神经元相连。具体地，卷积神经网络第l层特征图中的任意一个像素（神经元）都仅是l-1层中卷积核所定义的感受野内的像素的线性组合。

卷积神经网络的稀疏连接具有正则化的效果，提高了网络结构的稳定性和泛化能力，避免过度拟合，同时，稀疏连接减少了权重参数的总量，有利于神经网络的快速学习，和在计算时减少内存开销。

卷积神经网络中特征图同一通道内的所有像素共享一组卷积核权重系数，该性质被称为权重共享（weight sharing）。权重共享将卷积神经网络和其它包含局部连接结构的神经网络相区分，后者虽然使用了稀疏连接，但不同连接的权重是不同的。权重共享和稀疏连接一样，减少了卷积神经网络的参数总量，并具有正则化的效果。

在全连接网络视角下，卷积神经网络的稀疏连接和权重共享可以被视为两个无限强的先验（pirior），即一个隐含层神经元在其感受野之外的所有权重系数恒为0（但感受野可以在空间移动）；且在一个通道内，所有神经元的权重系数相同。

㈦神经网络BP模型

一、BP模型概述

误差逆传播(Error Back-Propagation)神经网络模型简称为BP(Back-Propagation)网络模型。

Pall Werbas博士于1974年在他的博士论文中提出了误差逆传播学习算法。完整提出并被广泛接受误差逆传播学习算法的是以Rumelhart和McCelland为首的科学家小组。他们在1986年出版“Parallel Distributed Processing，Explorations in the Microstructure of Cognition”(《并行分布信息处理》)一书中，对误差逆传播学习算法进行了详尽的分析与介绍，并对这一算法的潜在能力进行了深入探讨。

BP网络是一种具有3层或3层以上的阶层型神经网络。上、下层之间各神经元实现全连接，即下层的每一个神经元与上层的每一个神经元都实现权连接，而每一层各神经元之间无连接。网络按有教师示教的方式进行学习，当一对学习模式提供给网络后，神经元的激活值从输入层经各隐含层向输出层传播，在输出层的各神经元获得网络的输入响应。在这之后，按减小期望输出与实际输出的误差的方向，从输入层经各隐含层逐层修正各连接权，最后回到输入层，故得名“误差逆传播学习算法”。随着这种误差逆传播修正的不断进行，网络对输入模式响应的正确率也不断提高。

BP网络主要应用于以下几个方面：

1)函数逼近：用输入模式与相应的期望输出模式学习一个网络逼近一个函数；

2)模式识别：用一个特定的期望输出模式将它与输入模式联系起来；

3)分类：把输入模式以所定义的合适方式进行分类；

4)数据压缩：减少输出矢量的维数以便于传输或存储。

在人工神经网络的实际应用中，80%～90%的人工神经网络模型采用BP网络或它的变化形式，它也是前向网络的核心部分，体现了人工神经网络最精华的部分。

二、BP模型原理

下面以三层BP网络为例，说明学习和应用的原理。

1.数据定义

P对学习模式(x_p，d_p)，p=1，2，…，P；

输入模式矩阵X[N][P]=(x₁，x₂，…，x_P)；

目标模式矩阵d[M][P]=(d₁，d₂，…，d_P)。

三层BP网络结构

输入层神经元节点数S0=N，i=1，2，…，S0；

隐含层神经元节点数S1，j=1，2，…，S1；

神经元激活函数f1[S1]；

权值矩阵W1[S1][S0]；

偏差向量b1[S1]。

输出层神经元节点数S2=M，k=1，2，…，S2；

神经元激活函数f2[S2]；

权值矩阵W2[S2][S1]；

偏差向量b2[S2]。

学习参数

目标误差ϵ；

初始权更新值Δ₀；

最大权更新值Δ_max；

权更新值增大倍数η⁺；

权更新值减小倍数η^-。

2.误差函数定义

对第p个输入模式的误差的计算公式为

中国矿产资源评价新技术与评价新模型

y2_kp为BP网的计算输出。

3.BP网络学习公式推导

BP网络学习公式推导的指导思想是，对网络的权值W、偏差b修正，使误差函数沿负梯度方向下降，直到网络输出误差精度达到目标精度要求，学习结束。

各层输出计算公式

输入层

y0_i=x_i，i=1，2，…，S0；

隐含层

中国矿产资源评价新技术与评价新模型

y1_j=f1(z1_j)，

j=1，2，…，S1；

输出层

中国矿产资源评价新技术与评价新模型

y2_k=f2(z2_k)，

k=1，2，…，S2。

输出节点的误差公式

中国矿产资源评价新技术与评价新模型

对输出层节点的梯度公式推导

中国矿产资源评价新技术与评价新模型

E是多个y2_m的函数，但只有一个y2_k与w_kj有关，各y2_m间相互独立。

其中

中国矿产资源评价新技术与评价新模型

则

中国矿产资源评价新技术与评价新模型

设输出层节点误差为

δ2_k=(d_k-y2_k)·f2′(z2_k)，

则

中国矿产资源评价新技术与评价新模型

同理可得

中国矿产资源评价新技术与评价新模型

对隐含层节点的梯度公式推导

中国矿产资源评价新技术与评价新模型

E是多个y2_k的函数，针对某一个w1_ji，对应一个y1_j，它与所有的y2_k有关。因此，上式只存在对k的求和，其中

中国矿产资源评价新技术与评价新模型

则

中国矿产资源评价新技术与评价新模型

设隐含层节点误差为

中国矿产资源评价新技术与评价新模型

则

中国矿产资源评价新技术与评价新模型

同理可得

中国矿产资源评价新技术与评价新模型

4.采用弹性BP算法(RPROP)计算权值W、偏差b的修正值ΔW，Δb

1993年德国 Martin Riedmiller和Heinrich Braun 在他们的论文“A Direct Adaptive Method for Faster Backpropagation Learning：The RPROP Algorithm”中，提出Resilient Backpropagation算法——弹性BP算法(RPROP)。这种方法试图消除梯度的大小对权步的有害影响，因此，只有梯度的符号被认为表示权更新的方向。

权改变的大小仅仅由权专门的“更新值”

确定

中国矿产资源评价新技术与评价新模型

其中

表示在模式集的所有模式(批学习)上求和的梯度信息，(t)表示t时刻或第t次学习。

权更新遵循规则：如果导数是正(增加误差)，这个权由它的更新值减少。如果导数是负，更新值增加。

中国矿产资源评价新技术与评价新模型

RPROP算法是根据局部梯度信息实现权步的直接修改。对于每个权，我们引入它的

各自的更新值

，它独自确定权更新值的大小。这是基于符号相关的自适应过程，它基

于在误差函数E上的局部梯度信息，按照以下的学习规则更新

中国矿产资源评价新技术与评价新模型

其中0＜η^-＜1＜η⁺。

在每个时刻，如果目标函数的梯度改变它的符号，它表示最后的更新太大，更新值

应由权更新值减小倍数因子η^-得到减少；如果目标函数的梯度保持它的符号，更新值应由权更新值增大倍数因子η⁺得到增大。

为了减少自由地可调参数的数目，增大倍数因子η⁺和减小倍数因子η^–被设置到固定值

η⁺=1.2，

η^-=0.5，

这两个值在大量的实践中得到了很好的效果。

RPROP算法采用了两个参数：初始权更新值Δ₀和最大权更新值Δ_max

当学习开始时，所有的更新值被设置为初始值Δ₀，因为它直接确定了前面权步的大小，它应该按照权自身的初值进行选择，例如，Δ₀=0.1(默认设置)。

为了使权不至于变得太大，设置最大权更新值限制Δ_max，默认上界设置为

Δ_max=50.0。

在很多实验中，发现通过设置最大权更新值Δ_max到相当小的值，例如

Δ_max=1.0。

我们可能达到误差减小的平滑性能。

5.计算修正权值W、偏差b

第t次学习，权值W、偏差b的的修正公式

W^(t)=W^(t-1)+ΔW^(t)，

b^(t)=b^(t-1)+Δb^(t)，

其中，t为学习次数。

6.BP网络学习成功结束条件每次学习累积误差平方和

中国矿产资源评价新技术与评价新模型

每次学习平均误差

中国矿产资源评价新技术与评价新模型

当平均误差MSE＜ε，BP网络学习成功结束。

7.BP网络应用预测

在应用BP网络时，提供网络输入给输入层，应用给定的BP网络及BP网络学习得到的权值W、偏差b，网络输入经过从输入层经各隐含层向输出层的“顺传播”过程，计算出BP网的预测输出。

8.神经元激活函数f

线性函数

f(x)=x，

f′(x)=1，

f(x)的输入范围(-∞，+∞)，输出范围(-∞，+∞)。

一般用于输出层，可使网络输出任何值。

S型函数S(x)

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围(0，1)。

f′(x)=f(x)[1-f(x)]，

f′(x)的输入范围(-∞，+∞)，输出范围(0，

]。

一般用于隐含层，可使范围(-∞，+∞)的输入，变成(0，1)的网络输出，对较大的输入，放大系数较小；而对较小的输入，放大系数较大，所以可用来处理和逼近非线性的输入/输出关系。

在用于模式识别时，可用于输出层，产生逼近于0或1的二值输出。

双曲正切S型函数

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围(-1，1)。

f′(x)=1-f(x)·f(x)，

f′(x)的输入范围(-∞，+∞)，输出范围(0，1]。

一般用于隐含层，可使范围(-∞，+∞)的输入，变成(-1，1)的网络输出，对较大的输入，放大系数较小；而对较小的输入，放大系数较大，所以可用来处理和逼近非线性的输入/输出关系。

阶梯函数

类型1

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围{0，1}。

f′(x)=0。

类型2

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围{-1，1}。

f′(x)=0。

斜坡函数

类型1

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围[0，1]。

中国矿产资源评价新技术与评价新模型

f′(x)的输入范围(-∞，+∞)，输出范围{0，1}。

类型2

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围[-1，1]。

中国矿产资源评价新技术与评价新模型

f′(x)的输入范围(-∞，+∞)，输出范围{0，1}。

三、总体算法

1.三层BP网络(含输入层，隐含层，输出层)权值W、偏差b初始化总体算法

(1)输入参数X[N][P]，S₀，S₁，f₁[S₁]，S₂，f₂[S₂]；

(2)计算输入模式X[N][P]各个变量的最大值，最小值矩阵 X_max[N]，X_min[N]；

(3)隐含层的权值W₁，偏差b₁初始化。

情形1：隐含层激活函数f( )都是双曲正切S型函数

1)计算输入模式X[N][P]的每个变量的范围向量X_rng[N]；

2)计算输入模式X的每个变量的范围均值向量X_mid[N]；

3)计算W，b的幅度因子W_mag；

4)产生[-1，1]之间均匀分布的S₀×1维随机数矩阵R_and[S₁]；

5)产生均值为0，方差为1的正态分布的S₁×S₀维随机数矩阵Randnr[S₁][S₀]，随机数范围大致在[-1，1]；

6)计算W[S₁][S₀]，b[S₁]；

7)计算隐含层的初始化权值W₁[S₁][S₀]；

8)计算隐含层的初始化偏差b₁[S₁]；

9))输出W₁[S₁][S₀]，b₁[S₁]。

情形2：隐含层激活函数f( )都是S型函数

1)计算输入模式X[N][P]的每个变量的范围向量X_rng[N]；

2)计算输入模式X的每个变量的范围均值向量X_mid[N]；

3)计算W，b的幅度因子W_mag；

4)产生[-1，1]之间均匀分布的S₀×1维随机数矩阵R_and[S₁]；

5)产生均值为0，方差为1的正态分布的S₁×S₀维随机数矩阵R_andnr[S₁][S₀]，随机数范围大致在[-1，1]；

6)计算W[S₁][S₀]，b[S₁]；

7)计算隐含层的初始化权值W₁[S₁][S₀]；

8)计算隐含层的初始化偏差b₁[S₁]；

9)输出W₁[S₁][S₀]，b₁[S₁]。

情形3：隐含层激活函数f( )为其他函数的情形

1)计算输入模式X[N][P]的每个变量的范围向量X_rng[N]；

2)计算输入模式X的每个变量的范围均值向量X_mid[N]；

3)计算W，b的幅度因子W_mag；

4)产生[-1，1]之间均匀分布的S₀×1维随机数矩阵R_and[S₁]；

5)产生均值为0，方差为1的正态分布的S₁×S₀维随机数矩阵R_andnr[S₁][S₀]，随机数范围大致在[-1，1]；

6)计算W[S₁][S₀]，b[S₁]；

7)计算隐含层的初始化权值W₁[S₁][S₀]；

8)计算隐含层的初始化偏差b₁[S₁]；

9)输出W₁[S₁][S₀]，b₁[S₁]。

(4)输出层的权值W₂，偏差b₂初始化

1)产生[-1，1]之间均匀分布的S₂×S₁维随机数矩阵W₂[S₂][S₁]；

2)产生[-1，1]之间均匀分布的S₂×1维随机数矩阵b₂[S₂]；

3)输出W₂[S₂][S₁]，b₂[S₂]。

2.应用弹性BP算法(RPROP)学习三层BP网络(含输入层，隐含层，输出层)权值W、偏差b总体算法

函数：Train3BP_RPROP(S₀，X，P，S₁，W₁，b₁，f₁，S₂，W₂，b₂，f₂，d，TP)

(1)输入参数

P对模式(x_p，d_p)，p=1，2，…，P；

三层BP网络结构；

学习参数。

(2)学习初始化

；

2)各层W，b的梯度值

，

初始化为零矩阵。

(3)由输入模式X求第一次学习各层输出y₀，y₁，y₂及第一次学习平均误差MSE

(4)进入学习循环

epoch=1

(5)判断每次学习误差是否达到目标误差要求

如果MSE＜ϵ，

则，跳出epoch循环，

转到(12)。

(6)保存第epoch-1次学习产生的各层W，b的梯度值

，

(7)求第epoch次学习各层W，b的梯度值

，

1)求各层误差反向传播值δ；

2)求第p次各层W，b的梯度值

，

；

3)求p=1，2，…，P次模式产生的W，b的梯度值

，

的累加。

(8)如果epoch=1，则将第epoch-1次学习的各层W，b的梯度值

，

设为第epoch次学习产生的各层W，b的梯度值

，

。

(9)求各层W，b的更新

1)求权更新值Δ_ij更新；

2)求W，b的权更新值

，

；

3)求第epoch次学习修正后的各层W，b。

(10)用修正后各层W、b，由X求第epoch次学习各层输出y₀，y₁，y₂及第epoch次学习误差MSE

(11)epoch=epoch+1，

如果epoch≤MAX_EPOCH，转到(5)；

否则，转到(12)。

(12)输出处理

1)如果MSE＜ε，

则学习达到目标误差要求，输出W₁，b₁，W₂，b₂。

2)如果MSE≥ε，

则学习没有达到目标误差要求，再次学习。

(13)结束

3.三层BP网络(含输入层，隐含层，输出层)预测总体算法

首先应用Train3lBP_RPROP( )学习三层BP网络(含输入层，隐含层，输出层)权值W、偏差b，然后应用三层BP网络(含输入层，隐含层，输出层)预测。

函数：Simu3lBP( )。

1)输入参数：

P个需预测的输入数据向量x_p，p=1，2，…，P；

三层BP网络结构；

学习得到的各层权值W、偏差b。

2)计算P个需预测的输入数据向量x_p(p=1，2，…，P)的网络输出 y₂[S₂][P]，输出预测结果y₂[S₂][P]。

四、总体算法流程图

BP网络总体算法流程图见附图2。

五、数据流图

BP网数据流图见附图1。

六、实例

实例一全国铜矿化探异常数据BP 模型分类

1.全国铜矿化探异常数据准备

在全国铜矿化探数据上用稳健统计学方法选取铜异常下限值33.1，生成全国铜矿化探异常数据。

2.模型数据准备

根据全国铜矿化探异常数据，选取7类33个矿点的化探数据作为模型数据。这7类分别是岩浆岩型铜矿、斑岩型铜矿、矽卡岩型、海相火山型铜矿、陆相火山型铜矿、受变质型铜矿、海相沉积型铜矿，另添加了一类没有铜异常的模型(表8-1)。

3.测试数据准备

全国化探数据作为测试数据集。

4.BP网络结构

隐层数2，输入层到输出层向量维数分别为14，9、5、1。学习率设置为0.9，系统误差1e-5。没有动量项。

表8-1 模型数据表

续表

5.计算结果图

如图8-2、图8-3。

图8-2

图8-3 全国铜矿矿床类型BP模型分类示意图

实例二全国金矿矿石量品位数据BP 模型分类

1.模型数据准备

根据全国金矿储量品位数据，选取4类34个矿床数据作为模型数据，这4类分别是绿岩型金矿、与中酸性浸入岩有关的热液型金矿、微细浸染型型金矿、火山热液型金矿(表8-2)。

2.测试数据准备

模型样本点和部分金矿点金属量、矿石量、品位数据作为测试数据集。

3.BP网络结构

输入层为三维，隐层1层，隐层为三维，输出层为四维，学习率设置为0.8，系统误差1e-4，迭代次数5000。

表8-2 模型数据

4.计算结果

结果见表8-3、8-4。

表8-3 训练学习结果

表8-4 预测结果(部分)

续表

㈧推荐系统论文阅读（十)-基于图神经网络的序列推荐算法

论文:

论文地址： https://arxiv.org/abs/1811.00855

论文题目:《Session-based Recommendation with Graph Neural Networks》SR-GNN

github: https://github.com/CRIPAC-DIG/SR-GNN

基于会话的推荐一般是将序列会话建模，将整个session进行编码，变成一个隐向量，然后利用这个隐向量进行下一个点击预测。但是这种方法没有考虑到item直接复杂的转换(transitions)关系，也就是item之间在点击的session中除了时间顺序外还有复杂的有向图内的节点指向关系，所以之前的方法不足以很好的对点击序列进行建模。

现有基于会话的推荐，方法主要集中于循环神经网络和马尔可夫链，论文提出了现有方法的两个缺点：

1）当一个session中用户的行为数量十分有限时，这些方法难以获取准确的用户行为表示。如当使用RNN模型时，用户行为的表示即最后一个单元的输出，论文认为只有这样并非十分准确。

2）根据先前的工作发现，物品之间的转移模式在会话推荐中是十分重要的特征，但RNN和马尔可夫过程只对相邻的两个物品的单向转移关系进行建模，而忽略了会话中其他的物品。

为了克服上述缺陷，本文提出了用图神经网络对方法对用户对session进行建模：

下面具体介绍怎么进行图序列推荐

V = {v1,v2...vm}为全部的item，S = { }为一个session里面按时间顺序的点击物品，论文的目标是预测用户下一个要点击的物品vs,n+1，模型的任务是输出所有item的预测概率，并选择top-k进行推荐。

我们为每一个Session构建一个子图，并获得它对应的出度和入度矩阵。

假设一个点击序列是v1->v2->v4->v3，那么它得到的子图如下图中红色部分所示：

另一个例子，一个点击序列是v1->v2->v3->v2->v4，那么它得到的子图如下：

同时，我们会为每一个子图构建一个出度和入度矩阵，并对出度和入度矩阵的每一行进行归一化，如我们序列v1->v2->v3->v2->v4对应的矩阵如下：

这个矩阵里面的值是怎么计算的呢？下面讲一下：

看左边的出度矩阵，第一行为 0 1 0 0 ，代表着v1->v2，因为v1，只有一个指向的item，所以为1；看第二行，0 0 1/2 1/2，因为v2有指向v3和v4的边，所以进行归一化后每一个值都变成了1/2。入度矩阵的计算方法也是一样的，就不再说了。

本文采用的是GRU单元进行序列建模，将图信息嵌入到神经网络中，让GRU充分学习到item之间的关系，传统的GRU只能学到相邻的两个物品之间的关系，加入图信息后就能学到整个session子图的信息。

计算公式如下：

为了刚好的理解这个计算过程，我们还是使用之前那个例子：v1->v2->v3->v2->v4来一步步分析输入到输出的过程。

（1）是t时刻，会话s中第i个点击对应的输入，是n✖️2n的矩阵，也就是会话子图的完整矩阵，而是其中一行，即物品vi所对应的那行，大小为1✖️2n，n代表序列中不同物品的数量。

如果按照例子来看，如果i取2，那么为 [0 0 1/2 1/2 1/2 0 1/2 0]

进一步的，可以把 :拆解为[ , ]

（2）可以理解为序列中第i个物品，在训练过程中对应的嵌入向量，这个向量随着模型的训练不断变化，可以理解为隐藏层的状态，是一个d维向量。

(3) H是d*2d的权重向量，也可以看作是一个分块的矩阵，可以理解为H=[Hin|Hout]，每一块都是d*d的向量。

那么我们来看看计算过程：

1）[ ..., ] ，结果是d * n的矩阵，转置之后是n*d的矩阵，计作

2） : H相当于[ ]，即拆开之后相乘再拼接，因此结果是一个1 * 2d的向量。

上面就是完整的第i个点击的输入的计算过程，可以看到，在进入GRU计算之前，通过跟As,i矩阵相乘，把图信息嵌入到了神经网络中取，加深了神经网络学习到的item之间的交互信息。

此外，就是GRU的计算过程了，跟原始的GRU不一样的地方在于输入从xt变成了嵌入了图信息的as,i。

通样也有更新门和重置门，计算方法跟原始GRU一模一样。

这里的其实就是相当于原始gru中的，只不过在SR-GNN里面，进行一轮运算的时候i是没有变化，相当于每个物品单独进去GRU进行计算，得到自己的向量，也就是说在GRU的计算过程中，是不断变化的，看一下源码更易于理解：

hidden就是公式里面的 ,在gru的每一个step计算中都会进行更新，这里我有个疑问，如果所有item的hidden都更新的话，那么应该是整个序列中所有的item并行进入GRU中进行计算，每一个step都得到自己的vector，当每个item的vector更新后，下一个step就重新根据新的计算，接着计算下一个step。

计算过程大概就是下面这样：

这里有四个GRU并行计算，没次更新自己的hidden状态，输入则考虑所有的hidden和图信息。

从上面的图看来，每一个item都要进行T个step得到自己的item-vec，所以经过T个step后，我们就得到了序列中所有item的向量，即：

图中用蓝色框框画出来的向量，有了这些向量后，我们怎么得到预测结果呢？这就引入了下一个问题。

观察上面的模型结构，我们看到attention，没错，我们认为一个session中的这些item-vec并不都对预测结果产生影响，有些item对结果影响很大，有些影响很小，所以我们进行了加权求和。同时，论文认为session对最后一个item-vec，s1=vn是重要的，所以单独拿出来：

公式(6)就是简单的attention操作，其实从公式上来看就是计算每个vi跟最后一个向量vn的权值，然后进行加权求和。

在最后的输出层，使用sh和每个物品的embedding进行内积计算，这里vi应该是item的embedding层出来的向量，而不是后面一直更新的hidden：

最后通过一个softmax得到最终每个物品的点击概率：

损失函数为交叉熵损失函数：

从数据上来看，SR-GNN超过了经典的GRU4REC，这也说明了图信息的嵌入能带来更好的推荐效果。

本论文很巧妙的将图信息嵌入的神经网络中，更高地让GRU学习到每个item之间的关系，不再局限于相邻的物品之间进行学习。近年来，图神经网络的思想和方法屡屡被用在推荐系统中，学好图神经网络应该是推荐系统的下一个热潮。

导航:首页 > 源码编译 > 神经网络算法求图

神经网络算法求图

与神经网络算法求图相关的资料