神经网络梯度下降算法_神经网络算法中参数的设置或者调整有什么方法可以采用

⑴ 如何通过人工神经网络实现图像识别

人工神经网络（Artificial Neural Networks）（简称ANN）系统从20 世纪40 年代末诞生至今仅短短半个多世纪，但由于他具有信息的分布存储、并行处理以及自学习能力等优点，已经在信息处理、模式识别、智能控制及系统建模等领域得到越来越广泛的应用。尤其是基于误差反向传播（Error Back Propagation）算法的多层前馈网络（Multiple-Layer Feedforward Network）(简称BP 网络)，可以以任意精度逼近任意的连续函数，所以广泛应用于非线性建模、函数逼近、模式分类等方面。

目标识别是模式识别领域的一项传统的课题，这是因为目标识别不是一个孤立的问题，而是模式识别领域中大多数课题都会遇到的基本问题，并且在不同的课题中，由于具体的条件不同，解决的方法也不尽相同，因而目标识别的研究仍具有理论和实践意义。这里讨论的是将要识别的目标物体用成像头(红外或可见光等)摄入后形成的图像信号序列送入计算机，用神经网络识别图像的问题。

一、BP 神经网络

BP 网络是采用Widrow-Hoff 学习算法和非线性可微转移函数的多层网络。一个典型的BP 网络采用的是梯度下降算法，也就是Widrow-Hoff 算法所规定的。backpropagation 就是指的为非线性多层网络计算梯度的方法。一个典型的BP 网络结构如图所示。

六、总结

从上述的试验中已经可以看出，采用神经网络识别是切实可行的，给出的例子只是简单的数字识别实验，要想在网络模式下识别复杂的目标图像则需要降低网络规模，增加识别能力，原理是一样的。

⑵ 对于非连续目标在深度神经网络的优化过程中哪种梯度下降方法最好

还有很多，一步正割算法，拟牛顿算法，量化共轭梯度法，弹性梯度下降法等等。具体可以在MATLAB的help文件训练函数中查看，路径是：Neural Network Toolbox>Functions>Training Functions，可以看到各种算法的函数及详细介绍

⑶ 非连续目标在深度神经网络的优化过程中，哪种梯度下降方法最好

⑷ Matlab神经网络原理中可以用于寻找最优解的算法有哪些

若果对你有帮助，请点赞。
神经网络的结构（例如2输入3隐节点1输出）建好后，一般就要求神经网络里的权值和阈值。现在一般求解权值和阈值，都是采用梯度下降之类的搜索算法（梯度下降法、牛顿法、列文伯格-马跨特法、狗腿法等等），这些算法会先初始化一个解，在这个解的基础上，确定一个搜索方向和一个移动步长（各种法算确定方向和步长的方法不同，也就使各种算法适用于解决不同的问题），使初始解根据这个方向和步长移动后，能使目标函数的输出（在神经网络中就是预测误差）下降。然后将它更新为新的解，再继续寻找下一步的移动方向的步长，这样不断的迭代下去，目标函数（神经网络中的预测误差）也不断下降，最终就能找到一个解，使得目标函数（预测误差）比较小。
而在寻解过程中，步长太大，就会搜索得不仔细，可能跨过了优秀的解，而步长太小，又会使寻解过程进行得太慢。因此，步长设置适当非常重要。
学习率对原步长（在梯度下降法中就是梯度的长度）作调整，如果学习率lr = 0.1,那么梯度下降法中每次调整的步长就是0.1*梯度，
而在matlab神经网络工具箱里的lr,代表的是初始学习率。因为matlab工具箱为了在寻解不同阶段更智能的选择合适的步长，使用的是可变学习率，它会根据上一次解的调整对目标函数带来的效果来对学习率作调整，再根据学习率决定步长。
机制如下：
if newE2/E2 > maxE_inc %若果误差上升大于阈值
lr = lr * lr_dec; %则降低学习率
else
if newE2 < E2 %若果误差减少
lr = lr * lr_inc;%则增加学习率
end
详细的可以看《神经网络之家》nnetinfo里的《[重要]写自己的BP神经网络(traingd)》一文，里面是matlab神经网络工具箱梯度下降法的简化代码

⑸ 神经网络利用哪种算法将损失函数的值降到最低

用的是梯度下降算法，用偏微分找出超平面下降最快的方向，使损失函数快速下降。

⑹ 神经网络算法中，参数的设置或者调整，有什么方法可以采用

⑺ 神经网络算法-梯度下降GradientDescent

神经网络文章索引

上一篇神经网络结构中，我们介绍了神经元的结构，激活函数以及每个神经元激活值的算法，涉及到权重、偏置值等。

上一篇结尾提到，对于28*28的黑白手写图像识别，我们需要13002个权重和偏置数值，才能让我们的神经网络最后输出正确结果。

所谓的机器学习，就是寻找这13002个数值的过程。首先这里有两点需要注意：

在负无穷到正无穷之间，如何获得一万多个数字最佳的匹配值？这比在全世界挑选1万人让TA们一起相爱还要难。

我们的做法是用计算机强大运算速度，暴力解决问题。

好了，现在，暴力不是问题，要想出奇迹的关键就在于如何找到如何 优化的规律 。

要想做优化，首先要明确目标，找到当前神经网络和期望结果之间的差距。

从下图可以看到，随机设定的神经网络最终输出的是混乱的一层（被黄色线框标出），距离最右边我们期望只点亮神经元3的情况差距很大。

我们把混乱输出层的每个神经元与期望层每个对应神经元激活值相减，然后平方，再累加在一起，这就是方差cost代价，如下图，计算得到cost是3.37。

我们用这个cost来表示当前神经网络13002个设定值和期望设定值之间的差距，当然，这个cost等于0是差距最小，也就是最接近期望设定值。——当然这只是针对数字3的1张图片来说，我们需要的是针对0~9共10个数字的数万张图片，cost都能是最小。

从下图，我们来看一下神经网络的功能。它能利用13002个设定值经过3层神经元激活值的计算，把784个像素亮度变为10个数字（我们期望这10个数字中只有一个是1，其他都是0）。

这13002个权重和偏置数字，加上激活值的算法，就是神经网络的“想法”。

我们再来看看代价函数的情况，如下图，它是利用很多很多的训练图片（已经明确了对应的数字），把13002个数字变为1个cost代价数。

写成函数形式

我们假设最简单的情况，只有1个权重和1个偏置：

x和y是任意可能的数值，我们希望知道当x和y是什么数值的时候z最小。

每一组[x,y]都对应唯一的z，我们可以假想，有无数个[x,y,z]这样的位置点，在三维空间坐标中，它们就会组成一个面（曲面或平面），如下图。

从几何意义上看，我们就是要找到凹陷最低的那个位置点的x,y的值，因为那里z也就是cost代价最低。

假设上面的xyz绘制的cost曲面是个山地，你是一个旅行者，需要行走找到最低点的位置，你会怎么办？

没错，只要一直往下走，那么就能走到所在区域的最低点。——当然，如果山后面还有更深的山谷，那么你可能找到的只是局部最低点，而并非世界最低点。

实际上，对于复杂的超多维度来说，找到世界最低点几乎是不可能任务。我们唯一能做的就是多找几个局部最低点，然后选择其中最低的那个。

同样，如果我们落脚在[x',y']，那么可以尝试对比[x'+0.1，y']，[x'-0.1，y'],[x'，y'-0.1],[x'，y'+0.1],如果[x'+0.1,y']是最低的，那么我们就走到这里，然后继续尝试对比四周点的高度。这就是梯度下降的算法。

如下图，我们沿着虚线一步一步下山找到最低点。

首先快速的从下图了解几个基本概念。
下图的弧线表示的是某个函数y=f(x)，比如抛物线方程y=x 2 。
曲线上任取两个点a,b，它们对应x和x+dx。（d是指德尔塔大写Δ，小写δ）
ab两点对应的y的差是dy。
现在直线ab看上去是曲线的割线（有ab两个交点）。
假设b点沿着曲线，越来越靠近a点，那么dx极限趋近于0，这时候dy也会越来越小趋近于0，但是！我们会意识到dy/dx永远不会是0，而最终它仍然是角∠cab的对边比邻边，也就是正切三角函数值。
实际上，这也正是曲线的切线的定义。
可以想象，我们取的a点越是靠右，那么这个切线越是竖直。
如果我们把这个切线看做表示某个一次方程，如y=mx+n这种形式，那么a点越靠右，直线越竖直，m值也就越大。
我们把m值叫做直线的斜率。

导数derivative ，一元函数y=f(x)（即因变量y只受到一个自变量x影响的函数）中任意取x，如果x增加极小趋近于0的Δx（或者写为dx),那么y相应的被增加Δy（或者写作dy），那么导数就是dy/dx，而又有dy=f(x+dx)-f(x)，所以：

从函数的曲线图上可以看到，某点的导数就是dx趋近于0时候∠cab的正切，导数反映了切线的陡峭程度，也就是y随着x变化的快慢程度。

微分differential ，简单说就是Δx和Δy，或者记作dx和dy。x称之为自变量，y称之为因变量，那么x趋近于最小的时候的值，就是x的微分（趋近0又不是0的那个神秘值），同样y的微分也是这个意思，总之是想得到又摸不到的神奇值。

斜率slope ，一元一次函数（直线方程）y=mx+n的系数m值。在这里就是a点的导数值f'(x)。

切线tangent ，某个点a的切线，就是经过a点的，以A点斜率为系数的方程y=f'(x)x+n所表示的直线。

自变量dependent variable和因变量 independent variable ，x自己的变化，引发y被动变化。

好了，我们来看 多变量微分Multivariable differential 。

上面都是一个y收到一个x的影响y=f(x)，多变量就是不止受到一个自变量的影响，我们以最简单的z=f(x,y)为例，z=x 2 +y 2 。

绿轴x的变化和红轴y的变化，都会对应蓝轴z的变化。
x从负无穷到正无穷无限种可能，y也是无限种可能，x和y复合到一起就在水平方向覆盖了全部地面，z值有高有低，就像现实世界中的海拔一样，把xy平面凸起或凹陷。（图中粉色没有画出全部曲面）

我们可以想象，这时候不能讨论A点的切线了，而应该考虑它的 切平面tangent plane （下图绿色平面）。

方向导数directional derivative ，就是曲面上过A点的任意曲线的切线（下图紫色线）组成的平面，就是切平面。

这么多紫色的方向中，哪一个方向最陡峭？对于这个z=x 2 +y 2 函数来说，明显是最接近竖直朝上的那个箭头和最接近竖直朝下的那个箭头。
和曲线一样道理，越陡峭意味着z对x、y的变化越敏感，或者说dx、dy的变化会引发更多的dz。
梯度gradient ，我们规定，能够引发因变量最快变化的那个切线正方向，就叫做曲面方程上这个点的梯度。注意梯度是个xyz表示的三维方向，例如[0，0，1]表示z轴竖直向上，[0.1,0.1,1]就往xy的正方向偏一点点。

对于只有xy两个变量的三维曲面来说，我们还可以只是考虑x+0.1,x-0.1,y+0.1,y-0.1这样的试探方法找到最低点，只要2*2=4次就可以了，周全一点也就8次。

但是对于我们手写数字识别中13002个自变量来说，那就要2 13002 次，这是不可行的。

借用多元微分，我们可以找到13002个自变量某一随机点对应的切平面（实际早已不是什么平面了，我们姑且这么说），也可以计算出其中变化最快的方向，就是梯度，数学家已经证明，不管多少个维度，沿着梯度往前走一步，都能获得最快变化后新的一个点，这个点是一个n维向量，对于我们的案例来说就是13003个新数字组成的数组[0.322,0.123,0.55,0.222,...0.233]共13003个数字。

唯一要说明的一点不同就是，为了找最低点，我们不是往上走，而是往相反的负方向，朝下走。

步长step size ，就是我们每次沿着 负梯度 往下走多远，在机器学习算法里面它叫做 学习率learning rate ，同样道理，步子迈小了走得太慢，找到最低点耗时间太久，步子太大了容易跳过最低点（注意，1万多维的复杂情况不是我们上面三维漏斗曲面那么简单可以描述的）。所以我们经常设置0.00001这样小的数字，好在很多机器学习程序都会适当的自动调整它（比如Tensorflow中的梯度下降优化GradientDescentOptimizer），实际上不会让它太慢。

同时，我们从上图中看到，计算出的负梯度是由很多数字组成的数组，每个数字代表一个维度（就像xy那样），所以我们只要在原来的位置点坐标（比如[x,y]）上分别把这个梯度（比如[0.1,-0.3])加上去就能得到新的点([x+0.1,y-0.3])。

内容小结

如果您发现文章错误，请不吝留言指正；
如果您觉得有用，请点喜欢；
如果您觉得很有用，感谢转发~

END

⑻ 神经网络中训练函数（基本梯度下降法、BP算法）和优化算法（SDG，ADAM）有什么关系

traingdx 有动量和自适应lr的梯度下降法 trainlm Levenberg - Marquardt方法 traind 梯度下降法

⑼ 神经网络中rprop是什么算法

对于bp神经网络来说没有固定的标准可以得到最好的bp网络，设计好后只能手动修改参数然后选择最好的。下边是个分类的例子

clc
clear
close all

%---------------------------------------------------
% 产生训练样本与测试样本，每一列为一个样本

P1 = [rand(3,5),rand(3,5)+1,rand(3,5)+2];
T1 = [repmat([1;0;0],1,5),repmat([0;1;0],1,5),repmat([0;0;1],1,5)];

P2 = [rand(3,5),rand(3,5)+1,rand(3,5)+2];
T2 = [repmat([1;0;0],1,5),repmat([0;1;0],1,5),repmat([0;0;1],1,5)];

%---------------------------------------------------
% 归一化

[PN1,minp,maxp] = premnmx(P1);
PN2 = tramnmx(P2,minp,maxp);

%---------------------------------------------------
% 设置网络参数

NodeNum = 10; % 隐层节点数
TypeNum = 3; % 输出维数

TF1 = 'tansig';TF2 = 'purelin'; % 判别函数(缺省值)
%TF1 = 'tansig';TF2 = 'logsig';
%TF1 = 'logsig';TF2 = 'purelin';
%TF1 = 'tansig';TF2 = 'tansig';
%TF1 = 'logsig';TF2 = 'logsig';
%TF1 = 'purelin';TF2 = 'purelin';

net = newff(minmax(PN1),[NodeNum TypeNum],{TF1 TF2});

%---------------------------------------------------
% 指定训练参数

% net.trainFcn = 'traingd'; % 梯度下降算法
% net.trainFcn = 'traingdm'; % 动量梯度下降算法
%
% net.trainFcn = 'traingda'; % 变学习率梯度下降算法
% net.trainFcn = 'traingdx'; % 变学习率动量梯度下降算法
%
% (大型网络的首选算法 - 模式识别)
% net.trainFcn = 'trainrp'; % RPROP(弹性bp)算法,内存需求最小
%
% 共轭梯度算法
% net.trainFcn = 'traincgf'; % Fletcher-Reeves修正算法
% net.trainFcn = 'traincgp'; % Polak-Ribiere修正算法,内存需求比Fletcher-Reeves修正算法略大
% net.trainFcn = 'traincgb'; % Powell-Beal复位算法,内存需求比Polak-Ribiere修正算法略大
% (大型网络的首选算法 - 函数拟合,模式识别)
% net.trainFcn = 'trainscg'; % Scaled Conjugate Gradient算法,内存需求与Fletcher-Reeves修正算法相同,计算量比上面三种算法都小很多
%
% net.trainFcn = 'trainbfg'; % Quasi-Newton Algorithms - BFGS Algorithm,计算量和内存需求均比共轭梯度算法大,但收敛比较快
% net.trainFcn = 'trainoss'; % One Step Secant Algorithm,计算量和内存需求均比BFGS算法小,比共轭梯度算法略大
%
% (中小型网络的首选算法 - 函数拟合,模式识别)
net.trainFcn = 'trainlm'; % Levenberg-Marquardt算法,内存需求最大,收敛速度最快
%
% net.trainFcn = 'trainbr'; % 贝叶斯正则化算法
%
% 有代表性的五种算法为:'traingdx','trainrp','trainscg','trainoss', 'trainlm'

%---------------------%

net.trainParam.show = 1; % 训练显示间隔
net.trainParam.lr = 0.3; % 学习步长 - traingd,traingdm
net.trainParam.mc = 0.95; % 动量项系数 - traingdm,traingdx
net.trainParam.mem_rec = 10; % 分块计算Hessian矩阵(仅对Levenberg-Marquardt算法有效)
net.trainParam.epochs = 1000; % 最大训练次数
net.trainParam.goal = 1e-8; % 最小均方误差
net.trainParam.min_grad = 1e-20; % 最小梯度
net.trainParam.time = inf; % 最大训练时间

%---------------------------------------------------
% 训练与测试

net = train(net,PN1,T1); % 训练

%---------------------------------------------------
% 测试

Y1 = sim(net,PN1); % 训练样本实际输出
Y2 = sim(net,PN2); % 测试样本实际输出

Y1 = full(compet(Y1)); % 竞争输出
Y2 = full(compet(Y2));

%---------------------------------------------------
% 结果统计

Result = ~sum(abs(T1-Y1)) % 正确分类显示为1
Percent1 = sum(Result)/length(Result) % 训练样本正确分类率

Result = ~sum(abs(T2-Y2)) % 正确分类显示为1
Percent2 = sum(Result)/length(Result) % 测试样本正确分类率

导航:首页 > 源码编译 > 神经网络梯度下降算法

神经网络梯度下降算法

与神经网络梯度下降算法相关的资料