多变量优化算法_进化算法的差分算法

1. 常用优化器算法归纳介绍

优化器是神经网络训练过程中，进行梯度下降以寻找最优解的优化方法。不同方法通过不同方式（如附加动量项，学习率自适应变化等）侧重于解决不同的问题，但最终大都是为了加快训练速度。

这里就介绍几种常见的优化器，包括其原理、数学公式、核心思想及其性能；

核心思想： 即针对每次输入的训练数据，计算输出预测与真值的Loss的梯度；

从表达式来看，网络中参数的更新，是不断向着最小化Loss函数的方向移动的：

优点:
简单易懂，即对于相应的最优解（这里认为是Loss的最小函数），每次变量更新都是沿着局部梯度下降最快的方向，从而最小化损失函数。

缺点:

不同于标准梯度下降法（Gradient Descent）一次计算所有数据样本的Loss并计算相应的梯度，批量梯度下降法（BGD, Batch Gradient Descent）每次只取一个小批次的数据及其真实标签进行训练，称这个批次为mini-batch；

优点：

缺点：
随机梯度下降法的 batch size 选择不当可能导致模型难以收敛；由于这种方法是在一次更新中，就对整个数据集计算梯度，所以计算起来非常慢，遇到很大量的数据集也会非常棘手，而且不能投入新数据实时更新模型。

我们会事先定义一个迭代次数 epoch，首先计算梯度向量 params_grad，然后沿着梯度的方向更新参数 params，learning rate 决定了我们每一步迈多大。

Batch gradient descent 对于凸函数可以收敛到全局极小值，对于非凸函数可以收敛到局部极小值。

和 BGD 的一次用所有数据计算梯度相比，SGD 每次更新时对每个样本进行梯度更新，对于很大的数据集来说，可能会有相似的样本，这样 BGD 在计算梯度时会出现冗余，而 SGD 一次只进行一次更新，就没有冗余，而且比较快，并且可以新增样本。

即训练时，每次只从一批训练样本中随机选取一个样本进行梯度下降；对随机梯度下降来说，只需要一次关注一个训练样本，一点点把参数朝着全局最小值的方向进行修改了。

整体数据集是个循环，其中对每个样本进行一次参数更新

缺点：

梯度下降速度比较慢，而且每次梯度更新时往往只专注与局部最优点，而不会恰好指向全局最优点；

单样本梯度更新时会引入许多噪声（跟训练目标无关的特征也会被归为该样本分类的特征）；

SGD 因为更新比较频繁，会造成 cost function 有严重的震荡。

BGD 可以收敛到局部极小值，当然 SGD 的震荡可能会跳到更好的局部极小值处。

当我们稍微减小 learning rate，SGD 和 BGD 的收敛性是一样的。

优点：

当处理大量数据时，比如SSD或者faster-rcnn等目标检测模型，每个样本都有大量候选框参与训练，这时使用随机梯度下降法能够加快梯度的计算。

随机梯度下降是通过每个样本来迭代更新一次，如果样本量很大的情况，那么可能只用其中部分的样本，就已经将迭代到最优解了，对比上面的批量梯度下降，迭代一次需要用到十几万训练样本，一次迭代不可能最优，如果迭代10次的话就需要遍历训练样本10次。缺点是SGD的噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。所以虽然训练速度快，但是准确度下降，并不是全局最优。虽然包含一定的随机性，但是从期望上来看，它是等于正确的导数的。

梯度更新规则：

MBGD 每一次利用一小批样本，即 n 个样本进行计算，这样它可以降低参数更新时的方差，收敛更稳定，另一方面可以充分地利用深度学习库中高度优化的矩阵操作来进行更有效的梯度计算。

和 SGD 的区别是每一次循环不是作用于每个样本，而是具有 n 个样本的批次。

超参数设定值: n 一般取值在 50～256

缺点：（两大缺点）

鞍点就是：一个光滑函数的鞍点邻域的曲线，曲面，或超曲面，都位于这点的切线的不同边。例如这个二维图形，像个马鞍：在x-轴方向往上曲，在y-轴方向往下曲，鞍点就是（0，0）。

为了应对上面的两点挑战就有了下面这些算法

核心思想：

不使用动量优化时，每次训练的梯度下降方向，都是按照当前批次训练数据计算的，可能并不能代表整个数据集，并且会有许多噪声，下降曲线波动较大：

添加动量项之后，能够有效减小波动，从而加快训练速度：

当我们将一个小球从山上滚下来时，没有阻力的话，它的动量会越来越大，但是如果遇到了阻力，速度就会变小。
加入的这一项，可以使得梯度方向不变的维度上速度变快，梯度方向有所改变的维度上的更新速度变慢，这样就可以加快收敛并减小震荡。

优点：

通过动量更新，参数向量会在有持续梯度的方向上增加速度；
使梯度下降时的折返情况减轻，从而加快训练速度；

缺点：

如果数据集分类复杂，会导致和时刻梯度向量方向相差较大；在进行向量求和时，得到的会非常小，反而使训练速度大大下降甚至模型难以收敛。

这种情况相当于小球从山上滚下来时是在盲目地沿着坡滚，如果它能具备一些先知，例如快要上坡时，就知道需要减速了的话，适应性会更好。

目前为止，我们可以做到，在更新梯度时顺应 loss function 的梯度来调整速度，并且对 SGD 进行加速。

核心思想：

自适应学习率优化算法针对于机器学习模型的学习率，采用不同的策略来调整训练过程中的学习率，从而大大提高训练速度。

这个算法就可以对低频的参数做较大的更新，对高频的做较小的更新，也因此，对于稀疏的数据它的表现很好，很好地提高了 SGD 的鲁棒性，例如识别 Youtube 视频里面的猫，训练 GloVe word embeddings，因为它们都是需要在低频的特征上有更大的更新。

Adagrad 的优点是减少了学习率的手动调节

式中，表示第个分类，表示第迭代同时也表示分类累计出现的次数。表示初始的学习率取值（一般为0.01）

AdaGrad的核心思想： 缩放每个参数反比于其所有梯度历史平均值总和的平方根。具有代价函数最大梯度的参数相应地有较大的学习率，而具有小梯度的参数又较小的学习率。

缺点：

它的缺点是分母会不断积累，这样学习率就会收缩并最终会变得非常小。

这个算法是对 Adagrad 的改进，

和 Adagrad 相比，就是分母的换成了过去的梯度平方的衰减平均值，指数衰减平均值

这个分母相当于梯度的均方根 root mean squared (RMS)，在数据统计分析中，将所有值平方求和，求其均值，再开平方，就得到均方根值，所以可以用 RMS 简写：

其中的计算公式如下，时刻的依赖于前一时刻的平均和当前的梯度：

梯度更新规则:

此外，还将学习率换成了 RMS[Δθ]，这样的话，我们甚至都不需要提前设定学习率了：

超参数设定值: 一般设定为 0.9

RMSprop 是 Geoff Hinton 提出的一种自适应学习率方法。

RMSprop 和 Adadelta 都是为了解决 Adagrad 学习率急剧下降问题的，

梯度更新规则:

RMSprop 与 Adadelta 的第一种形式相同：（使用的是指数加权平均，旨在消除梯度下降中的摆动，与Momentum的效果一样，某一维度的导数比较大，则指数加权平均就大，某一维度的导数比较小，则其指数加权平均就小，这样就保证了各维度导数都在一个量级，进而减少了摆动。允许使用一个更大的学习率η）

超参数设定值:

Hinton 建议设定为 0.9, 学习率为 0.001。

这个算法是另一种计算每个参数的自适应学习率的方法。相当于 RMSprop + Momentum

除了像 Adadelta 和 RMSprop 一样存储了过去梯度的平方 vt 的指数衰减平均值，也像 momentum 一样保持了过去梯度 mt 的指数衰减平均值：

如果和被初始化为 0 向量，那它们就会向 0 偏置，所以做了偏差校正，通过计算偏差校正后的和来抵消这些偏差：

梯度更新规则:

超参数设定值:
建议

示例一

示例二

示例三

上面情况都可以看出，Adagrad, Adadelta, RMSprop 几乎很快就找到了正确的方向并前进，收敛速度也相当快，而其它方法要么很慢，要么走了很多弯路才找到。

由图可知自适应学习率方法即 Adagrad, Adadelta, RMSprop, Adam 在这种情景下会更合适而且收敛性更好。

如果数据是稀疏的，就用自适用方法，即 Adagrad, Adadelta, RMSprop, Adam。

RMSprop, Adadelta, Adam 在很多情况下的效果是相似的。

Adam 就是在 RMSprop 的基础上加了 bias-correction 和 momentum，

随着梯度变的稀疏，Adam 比 RMSprop 效果会好。

整体来讲，Adam 是最好的选择。

很多论文里都会用 SGD，没有 momentum 等。SGD 虽然能达到极小值，但是比其它算法用的时间长，而且可能会被困在鞍点。

如果需要更快的收敛，或者是训练更深更复杂的神经网络，需要用一种自适应的算法。

各种优化器Optimizer原理：从SGD到AdamOptimizer

深度学习——优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

2. 想知道优化算法是什么

优化算法是通过改善计算方式来最小化或最大化损失函数E(x)。模型内部有些参数是用来计算测试集中目标值Y的真实值和预测值的偏差程度的，基于这些参数就形成了损失函数E(x)，比如说，权重(W)和偏差(b)就是这样的内部参数，一般用于计算输出值，在训练神经网络模型时起到主要作用。

优化算法分的分类

一阶优化算法是使用各参数的梯度值来最小化或最大化损失函数E(x），最常用的一阶优化算法是梯度下降。函数梯度导数dy/dx的多变量表达式，用来表示y相对于x的瞬时变化率。

二阶优化算法是使用了二阶导数也叫做Hessian方法来最小化或最大化损失函数，由于二阶导数的计算成本很高，所以这种方法并没有广泛使用。

3. 优化算法有哪些

你好，优化算法有很多，关键是针对不同的优化问题，例如可行解变量的取值（连续还是离散）、目标函数和约束条件的复杂程度（线性还是非线性）等，应用不同的算法。
对于连续和线性等较简单的问题，可以选择一些经典算法，例如梯度、Hessian
矩阵、拉格朗日乘数、单纯形法、梯度下降法等；而对于更复杂的问题，则可考虑用一些智能优化算法，例如你所提到的遗传算法和蚁群算法，此外还包括模拟退火、禁忌搜索、粒子群算法等。
这是我对优化算法的初步认识，供你参考。有兴趣的话，可以看一下维基网络。

4. 怎么分析用于多目标优化算法的目标变量之间是否有冲突

会说不可以用其他算法了,遗传算法最精华就在于fitness,要是多目标优化也是把多个目标融合在一起变成一个目标然后再结合实际目标意义(越大越优,越小越...

5. matlab进行多变量二次多项式单目标优化

采用粒子群算法，可得出优化最小值和最大值

优化最小值： 0.8806

6. 优化算法是什么

智能优化算法是一种启发式优化算法，包括遗传算法、蚁群算法、禁忌搜索算法、模拟退火算法、粒子群算法等。·智能优化算法一般是针对具体问题设计相关的算法，理论要求弱，技术性强。一般，我们会把智能算法与最优化算法进行比较，相比之下，智能算法速度快，应用性强。

群体智能优化算法是一类基于概率的随机搜索进化算法，各个算法之间存在结构、研究内容、计算方法等具有较大的相似性。

各个群体智能算法之间最大不同在于算法更新规则上，有基于模拟群居生物运动长更新的（如PSO，AFSA与SFLA），也有根据某种算法机理设置更新规则（如ACO）。

(6)多变量优化算法扩展阅读：

优化算法有很多，关键是针对不同的优化问题，例如可行解变量的取值（连续还是离散）、目标函数和约束条件的复杂程度（线性还是非线性）等，应用不同的算法。对于连续和线性等较简单的问题，可以选择一些经典算法，例如梯度、Hessian 矩阵、拉格朗日乘数、单纯形法、梯度下降法等；而对于更复杂的问题，则可考虑用一些智能优化算法。

7. 多设计变量优化问题用什么优化算法好（除了遗传算法）

粒子群算法，模拟退火算法都还不错哦

8. 如何用遗传算法实现多变量的最优化问题

是不是像求函数最值那样子？建议你了解一下遗传算法的实数编码，这个对于求函数最值很方便，不用像二进制那样需要转换。

简单介绍一下思路：
最重要的是确定适应度函数，只要确定这个函数就很容易了，就用你不会编程，直接调用matlab的工具箱就行了。

1st.设置种群规模，并初始化种群p，并计算各个个体的适应度。
例如，20个个体，每个个体包含5个变量，x1,x2,x3,x4,x5.
如果你用matlab来编程的话，这个可以很容易实现，会用到random('unif',a,b)这个函数吧。
例如x1的取值范围是[0,1],那么x1=random('unif',0,1).

2nd.采用轮盘赌选出可以产生后代的父本,p_parents。
额，轮盘赌的实质就是适应度大的被选出的概率大。这个不难，但说起来比较长，你可以自己去看一下。

3rd.杂交过程的思路随机将p_parents中的个体随机两两配对，然后随机产生一个1到n的数（n为变量的个数），设为i,交换每对父本中i之后的变量值。交换以后的p_parents成为后代p_offspring.
这里变起来有点点复杂，不过只要耐心一点，编好配对过程和交换过程。

4th.变异过程，这个比较简单，不过需要自己把握的较好。
基本的思路是设置一个概率，例如0.05，然后产生一个随机数如果随机数比0.05小那么这个变量值就要产生微小的增加或减少。
这个变异过程要历遍p_offspring所有的变量喔。

5th.将p和p_offspring合并起来，然后选出适应度大的，重新构成一个如原始种群规模相等的种群。

9. 进化算法的差分算法

差分进化算法(Differential Evolution, DE)是一种新兴的进化计算技术，或称为差分演化算法、微分进化算法、微分演化算法、差异演化算法。它是由Storn等人于1995年提出的，最初的设想是用于解决切比雪夫多项式问题，后来发现DE也是解决复杂优化问题的有效技术。DE与人工生命，特别是进化算法有着极为特殊的联系。
差分进化算法是基于群体智能理论的优化算法，通过群体内个体间的合作与竞争产生的群体智能指导优化搜索。但相比于进化算法，DE保留了基于种群的全局搜索策略，采用实数编码基于差分的简单变异操作和一对一的竞争生存策略，降低了遗传操作的复杂性。同时，DE特有的记忆能力使其可以动态跟踪当前的搜索情况，以调整其搜索策略，具有较强的全局收敛能力和鲁棒性，且不需要借助问题的特征信息，适于求解一些利用常规的数学规划方法所无法求解的复杂环境中的优化问题。
差分进化算法是一种基于群体进化的算法，具有记忆个体最优解和种群内信息共享的特点，即通过种群内个体间的合作与竞争来实现对优化问题的求解，其本质是一种基于实数编码的具有保优思想的贪婪遗传算法。
DE是一种用于优化问题的启发式算法。本质上说，它是一种基于实数编码的具有保优思想的贪婪遗传算法。同遗传算法一样，DE包含变异和交叉操作，但同时相较于遗传算法的选择操作，DE采用一对一的淘汰机制来更新种群。由于DE在连续域优化问题的优势已获得广泛应用，并引发进化算法研究领域的热潮。
DE由Storn 以及Price提出，算法的原理采用对个体进行方向扰动，以达到对个体的函数值进行下降的目的，同其他进化算法一样，DE不利用目标函数的梯度信息，因此对目标的可导性甚至连续性没有要求，适用性很强。同时，算法与粒子群优化有相通之处，但因为DE在一定程度上考虑了多变量间的相关性，因此相较于粒子群优化在变量耦合问题上有很大的优势。算法的实现参考实现代码部分。

10. MATLAB基础问题

命令fminunc().

单独写个.M文件，把约束条件写进去，在约束区有个“Nonlinear constraint function” @+"约束文件名"

例子：
求解如附件图片所示的有约束非线规划问题，分三个步骤
1.建立名为myobjfunc的m文件如下
function RES = myobjfunc(x)

RES=(x(3)*(1/(2*(x(3)^2 + x(5))*(x(4)^2 + x(3) + x(1)*x(2))^(1/2)) ...
- (2*x(3)*(x(4)^2 + x(3) + x(1)*x(2))^(1/2))/(x(3)^2 + x(5))^2))...
/(2*((x(4)^2 + x(3) + x(1)*x(2))^(1/2)/(x(3)^2 + x(5)) + 1)^(1/2)) ...
+ x(4)^2/(2*((x(4)^2 + x(3) + x(1)*x(2))^(1/2)/(x(3)^2 + x(5)) + 1)^(1/2)...
*(x(3)^2 + x(5))*(x(4)^2 + x(3) + x(1)*x(2))^(1/2)) ...
- (x(5)*(x(4)^2 + x(3) + x(1)*x(2))^(1/2))/(2....
*((x(4)^2 + x(3) + x(1)*x(2))^(1/2)/(x(3)^2 + x(5)) + 1)...
^(1/2)*(x(3)^2 + x(5))^2) + (x(1)*x(2))/(2*((x(4)^2 + x(3) + x(1)*x(2))...
^(1/2)/(x(3)^2 + x(5)) + 1)^(1/2)*(x(3)^2 + x(5))...
*(x(4)^2 + x(3) + x(1)*x(2))^(1/2));

2. 建立名为mymodelcons的m文件如下
function [C,CEQ]=mymodelcons(x)
C(1)=x(1)+x(2)^2-10;
C(2)=1-x(1)-x(2)^2;
CEQ=[];

3.在matlab命令窗口中输入以下命令并执行
lb=[0.5 0.5 0.5 1 1];
ub=[5 5 5 3 4];
[X,Y,FLAG]=fmincon(@myobjfunc,[1 1 1 1 1],[],[],[],[],lb,ub,@mymodelcons)

结果为
Active inequalities (to within options.TolCon = 1e-006):
lower upper ineqlin ineqnonlin
5 1 1
4
X = 5.0000 2.2361 1.2359 3.0000 1.0000.

==================================================
在天涯回答上有类似的问题的两个解答供参考
http://wenda.tianya.cn/wenda/thread?tid=29980be1cb2bb991

参考解答一
--------------------------------------------------
fun=@(x)sqrt(x(1)^2+x(2)^2)+sqrt(x(1)^2+(x(2)-52)^2)+sqrt(x(1)^2+(x(2)-139.5)^2)+sqrt(x(1)^2+(x(2)-228)^2)+sqrt(x(1)^2+(x(2)-288)^2)+sqrt((x(1)-65)^2+x(2)^2)+sqrt((x(1)-84)^2+x(2)^2)+sqrt((x(1)-110)^2+(x(2)-288)^2)+sqrt((x(1)-110)^2+(x(2)-217)^2)+sqrt((x(1)-110)^2+(x(2)-93)^2)+sqrt((x(1)-110)^2+x(2)^2)+sqrt((x(1)-65)^2+x(2)^2);
lb=[0;0];
ub=[110;228];
options=optimset('PlotFcns',{@optimplotx,@optimplotfirstorderopt,@optimplotstepsize,@optimplotfval});
[x,fval]=fmincon(fun,rand(2,1),[],[],[],[],lb,ub,[],options)

Optimization terminated: magnitude of directional derivative in search
direction less than 2*options.TolFun and maximum constraint violation
is less than options.TolCon.
No active inequalities.

x =

55.3467
74.3034

fval = 1.3748e+003

参考解答二
-------------------------------------------
（一）非线性一元函数的最小值
Matlab函数为fminbnd()，其使用格式为：
X=fminbnd(fun,x1,x2)
[X,fval,exitflag,output]= fminbnd(fun,x1,x2)

其中：fun为目标函数，x1，x2为变量的边界约束，即x1≤x≤x2，X为返回的满足fun取得最小值的x的值，而fval则为此时的目标函数值。 exitflag>0表示计算收敛，exitflag=0表示超过了最大的迭代次数，exitflag<0表示计算不收敛，返回值 output有3个分量，其中iterations是优化过程中迭代次数，funcCount是代入函数值的次数，algorithm是优化所采用的算法。

例1：求函数在区间的最小值和相应的值。
解决此问题的Matlab程序为：
clear
fun='(x^5+x^3+x^2-1)/(exp(x^2)+sin(-x))'
ezplot(fun,[-2,2])
[X,fval,exitflag,output]= fminbnd(fun,-2,2)
结果为：
X = 0.2176
fval =-1.1312
exitflag = 1
output = iterations: 13
funcCount: 13
algorithm: 'golden section search, parabolic interpolation'

（二）无约束非线性多变量优化问题
这里我们介绍两个命令：fminsearch()和fminunc()，前者适合处理阶次低但是间断点多的函数，后者则对于高阶连续的函数比较有效。
命令fminsearch()的格式为：
X= fminsearch(fun,X0)
[X,fval,exitflag,output]= fminsearch(fun,X0,options)

该命令求解目标函数fun的最小值和相应的x值，X0为x的初始值，fval为返回的函数值，exitflag=1表示优化结果收敛，exitflag=0 表示超过了最大迭代次数。返回值output有3个分量，其中iterations是优化过程中的迭代次数，funcCount是代入函数值的次数，algorithm是优化所采用的算法。options是一个结构，里面有控制优化过程的各种参数，参考optimset()命令来设置，一般情况下我们不必改动它，即使用缺省设置就可以了。

例2：求函数的最小值以及最小值点。
完成该计算的Matlab程序如下：
clear
fun1='sin(x)+cos(y)'
fun2='sin(x(1))+cos(x(2))'
ezmesh(fun1)
[X,fval]=fminsearch(fun2,[0,0])
X = -1.5708 3.1416
fval = -2.0000

其中语句ezmesh()是为了画出函数的图形，注意这里fun1和fun2的不同，考虑如果用相同的是否可行。

命令fminunc()的格式为：
X=fminunc(fun,X0)
[X,fval,exitflag,output,grad,hessian]=fminunc(fun,X0,options)
命令fminunc()通过计算寻找多变量目标函数fun的最小值，X0为优化的初始值，X为返回的变量的值，grad返回解点的梯度，hessian返回解点的汉森矩阵。其它参数的意义和命令fminsearch()相同。

例3：求函数的最小值。
解：Matlab程序为
clear
fun='exp(x(1))*(2*x(1)^2+3*x(2)^2+2*x(1)*x(2)+3*x(2)+1)';
x0=[0,0];
options=optimset('largescale','off','display','iter','tolx',1e-8,'tolfun',1e-8);
[x,fval,exitflag,output,grad,hessian]=fminunc(fun,x0,options)

运行结果为：
Iteration
Func-count
f(x)
Step-size
Directional derivative

1
2
1
0.2
-10

2
8
0.369471
0.134277
-0.020 .

导航:首页 > 源码编译 > 多变量优化算法

多变量优化算法

与多变量优化算法相关的资料