优化算法系列_算法效率与分析

㈠混沌优化算法可以求解全局最优解吗

非线性最优化问题的一种混合解法

摘要：把BFGS方法与混沌优化方法相结合，基于混沌变量提出一种求解具有变量边界约束非线性最优化问题的混合优化方法。混合算法兼顾了混沌优化全局搜索能力强和BFGS方法收敛速度快的优点，成为一种求解非凸优化问题全局最优的有效方法。算例表明，当混沌搜索的次数达到一定数量时，混合优化方法可以保证算法收敛到全局最优解，且计算效率比混沌优化方法有很大提高。

关键词：混合法；BFGS方法；混沌优化方法；全局最优

1 引言
在系统工程、控制工程、统计学、反问题优化求解等领域中，很多问题是具有非凸性的。对此普通的优化技术只能求出局部最优解，因为这些确定性算法总是解得最近的一个极值点[1]，只有能够给出很好的初始点才有可能得出所需要的全局最优解。为此，实际应用中通过在多个初始点上使用传统数值优化方法来求取全局解的方法仍然被人们所采用，但是这种处理方法求得全局解的概率不高，可靠性低，建立尽可能大概率的求解全局解算法仍然是一个重要问题。近年来基于梯度法的全局最优化方法已经有所研究[2]，基于随机搜索技术的遗传算法和模拟退火算法等在全局优化问题中的应用也得到越来越大的重视[3-4]。本文则基于混沌优化和BFGS方法，提出一种求解具有简单界约束最优化问题(1)的混合算法。
混沌是存在于非线性系统中的一种较为普遍的现象。混沌运动宏观上无序无律，具有内随机性、非周期性和局部不稳定性，微观上有序有律，并不是完全的随机运动，具有无穷嵌套的自相似几何结构、存在普适性规律，并不是杂乱无章的。利用混沌变量的随机性、遍历性和规律性特点可以进行优化搜索[5]，且混沌优化方法容易跳出局部最优点。但是某些状态需要很长时间才能达到，如果最优值在这些状态时，计算时间势必很长[5]。可以说混沌优化具有全局搜索能力，其局部搜索能力稍显不足，文[5]采用二次载波技术，文[6]考虑逐渐缩小寻优变量的搜索空间都是为了弥补这一弱点。而本文则采用混沌搜索与BFGS方法进行优化求解，一方面采用混沌搜索帮助BFGS方法跳出局部最优，另一方面利用BFGS增强解附近的超线性收敛速度和搜索能力，以提高搜索最优的效率。
2 混沌－BFGS混合优化方法
2.1 BFGS方法
作为求解无约束最优化问题的拟牛顿方法类最有代表性的算法之一，BFGS方法处理凸非线性规划问题，以其完善的数学理论基础、采用不精确线性搜索时的超线性收敛性和处理实际问题有效性，受到人们的重视[7-9]。拟牛顿方法使用了二阶导数信息，但是并不直接计算函数的Hesse矩阵，而是采用一阶梯度信息来构造一系列的正定矩阵来逼近Hesse矩阵。BFGS方法求解无约束优化问题min()的主要步骤如下：
(1) 给变量赋初值x0，变量维数n和BFGS方法收敛精度ε，令B0=I（单位阵），k=0，计算在点x0的梯度g0。
(2) 取sk=-Bk-1gk，沿sk作一维搜索，确定最优步长αk，，得新点xk+1=xk+αksk，计算xk+1点的梯度gk+1。
(3) 若||gk+1||≤ε，则令，，BFGS搜索结束，转步骤3；否则执行(4)。
(4) 计算Bk+1：
(2)
(3)
(5) k=k+1，转(2)。
2.2 混沌优化方法
利用混沌搜索求解问题(1)时，先建立待求变量与混沌变量的一一对应关系，本文采用。然后,由Logistic映射式(4)产生个轨迹不同的混沌变量（）进行优化搜索，式(4)中=4。已经证明，=4是“单片”混沌，在[0,1]之间历遍。
(4)
(1)给定最大混沌变量运动次数M；给赋初值，计算和；置，。
(2) 。
(3) 。
(4) 若k<M，
若，令，；
若，和保持不变；
然后令k=k+1，，转(2)。
若k>M，则，，混沌搜索结束。
2.3 混合优化方法
混沌方法和BFGS方法混合求解连续对象的全局极小值优化问题(1)的步骤如下：
step1 设置混沌搜索的最大次数M，迭代步数iter=0，变量赋初值x0，。
step2 以为始点BFGS搜索，得当前BFGS方法最优解及=。
step3 若，取=；若，取；若，取，是相对于,较小的数。
step 4 以为始点进行混沌搜索M次，得混沌搜索后的最优解及=。
step5 若<，iter=iter+1，，转step2；否则执行step6。
step6 改变混沌搜索轨迹，再次进行混沌搜索，即给加微小扰动，执行step 4，得搜索结果和。若<，iter=iter+1，，转step2；否则计算结束，输出、。
对全局极大值问题，max ，可以转化为求解全局极小问题min 。
混合算法中混沌搜索的作用是大范围宏观搜索，使得算法具有全局寻优性能。而BFGS搜索的作用是局部地、细致地进行优化搜索，处理的是小范围搜索问题和搜索加速问题。
3 算例

图 1 函数-特性示意图图 2 函数特性示意图
采用如下两个非常复杂的、常用于测试遗传算法性能的函数测试本文算法：

函数称为Camel 函数，该函数有6个局部极小点(1.607105, 0.568651)、(-1.607105, -0.568651)、(1.703607, -0.796084)、(-1.703607, 0.796084)、(-0.0898,0.7126)和(0.0898,-0.7126)，其中(-0.0898,0.7126)和(0.0898,-0.7126)为两个全局最小点，最小值为-1.031628。函数称为 Schaffer's函数，该函数有无数个极大值，其中只有（0，0）为全局最大点，最大值为1。此函数的最大峰值周围有一圈脊，它们的取值均为0.990283，因此很容易停留在此局部极大点。文献[10]采用该函数对该文提出的基于移动和人工选择的改进遗传算法（GAMAS）其性能进行了考察，运行50次，40％的情况下该函数的唯一全局最优点能够找到。而采用本文混合算法，由计算机内部随机函数自动随机生产100个不同的初始点，由这些初始点出发，一般混合算法迭代2－4次即能够收敛。M取不同数值时对函数、的计算结果分别如表1和表2所示，表中计算时间是指在奔腾133微机上计算时间。
由表2可见，当M=1500时，本文方法搜索到最优解的概率即达到40％，而此时计算量比文献[10]小。同样由混合算法的100个起始点，采用文献[5]的算法对函数优化计算100次，以作为收敛标准，混沌搜索50000次，计算结果为67次搜索到最优解，概率为67%，平均计算时间为1.2369s。而即使保证混合算法100次全收敛到最优解所花费的平均计算时间也只为0.2142s（表1），可见混合算法优于文献[5]的方法。
表1 M取不同数值时函数的计算结果
_____________________________________________________________________
M 搜索到全局最优点的次数搜索到最优的概率平均计算时间
(-0.0898,0.7126) (0.0898,-0.7126)
_____________________________________________________________________________________________
1000 44 39 83% 0.1214s
3000 53 45 98% 0.1955s
5000 53 47 100% 0.2142s
________________________________________________________________________________________________

表2 M取不同数值时函数的计算结果
___________________________________________________________
M 搜索到全局最优点的次数搜索到最优的概率平均计算时间
____________________________________________________________________________________
1500 40 40% 0.1406s
5000 73 73% 0.2505s
10000 88 88% 0.4197s
50000 100 100% 1.6856s
____________________________________________________________________________________

4 计算结果分析
由表1和表2可见，混合算法全局寻优能力随M的增加而增大，当M达到某一足够大的数值Mu后，搜索到全局最优的概率可以达到100％。
从理论上说，Mu趋向无穷大时，才能使混沌变量遍历所有状态，才能真正以概率1搜索到最优点。但是，本文混沌运动M次的作用是帮助BFGS方法跳出局部最优点，达到比当前局部最优函数值更小的另一局部最优附近的某一点处，并不是要混沌变量遍历所有状态。由混沌运动遍历特性可知，对于某一具体问题，Mu达到某一具体有限数值时，混沌变量的遍历性可以得到较好模拟，这一点是可以满足的，实际算例也证实了这一点。
由于函数性态、复杂性不同，对于不同函数，如这里的测试函数、，数值Mu的大小是有差别的。对于同一函数，搜索区间增大，在相同混沌运动次数下，即使始点相同，总体而言会降低其搜索到全局最优的概率,要保证算法仍然以概率1收敛到全局最优，必然引起Mu 增大。跟踪计算中间结果证实，当M足够大时，混合算法的确具有跳出局部最优点，继续向全局最优进行搜索的能力；并且混合算法的计算时间主要花费在为使混合算法具有全局搜索能力而进行混沌搜索上。
5 结语
利用混沌变量的运动特点进行优化，具有非常强的跳出局部最优解的能力，该方法与BFGS方法结合使用，在可以接受的计算量下能够计算得到问题的最优解。实际上，混沌优化可以和一般的下降类算法结合使用，并非局限于本文采用的BFGS方法。采用的Logistic映射产生混沌变量序列，只是产生混沌变量的有效方式之一。
混沌运动与随机运动是不同的。混沌是确定性系统中由于内禀随机性而产生的一种复杂的、貌似无规的运动。混沌并不是无序和紊乱，更像是没有周期的秩序。与随机运动相比较，混沌运动可以在各态历经的假设下，应用统计的数字特征来描述。并且，混沌运动不重复地经过同一状态，采用混沌变量进行优化比采用随机变量进行优化具有优势。
混沌优化与下降类方法结合使用是有潜力的一种全局优化途径，是求解具有变量界约束优化问题的可靠方法。如何进一步提高搜索效率，以及如何把混沌优化有效应用于复杂约束优化问题是值得进一步研究的课题。
本文算法全局收敛性的严格数学证明正在进行之中。
参考文献
[1]胡山鹰，陈丙珍，何小荣，沈静珠．非线性规划问题全局优化的模拟退火法[J]．清华大学学报，37(6)，1997，5-9．
[2]C A Floudas, A Aggarwal, A R Ciric． Global optimum search for nonconvex NLP and MINLP problems[J]. Comput Chem Engng． 1989， 13(10)， 1117~1132．
[3]康立山，谢云，尤矢勇等．非数值并行算法（第一册）――模拟退火算法[M]．北京：科学出版社，1998．
[4]刘勇，康立山，陈琉屏．非数值并行算法（第二册）――遗传算法[M]．北京：科学出版社，1998．
[5]李兵，蒋慰孙．混沌优化方法及其应用[J]．控制理论与应用，14(4)，1997，613-615．
[6]张彤，王宏伟，王子才．变尺度混沌优化方法及其应用[J]．控制与决策，14(3)，1999，285-287．
[7]席少霖．非线性最优化方法[M]．北京：高等教育出版社，1992．
[8]席少霖，赵凤志．最优化计算方法[M]．上海：上海科学技术出版社，1983．
[9]Press W H, Tenkolsky S A, Vetterling W T, Flannery B P．Numerical Recipes in C, The Art of Scientific Computing[M]． Second edition， Cambridge University Press， 1992．
[10]J C Ports．The development and evaluation of an improved genetic algorithm based on migration and artificial selection[J]．IEEE Trans. Syst. Man and Cybern.．1994, 24(1)，73-85．
A Hybrid Approach for Nonlinear Optimization
Abstract：Combined BFGS method with chaos optimization method, a hybrid approach was proposed to solve nonlinear optimization problems with boundary restraints of variables. The hybrid method is an effective approach to solve nonconvex optimization problems, as it given both attentions to the inherent virtue to locate global optimum of chaos optimization method and the advantage of high convergence speed of BFGS method. Numerical examples illustrate that the present method possesses both good capability to search global optima and far higher convergence speed than that of chaos optimization method.

㈡多目标优化算法中用到的测试函数DTLZ2，具体数学表达式是什么！！！3ks

如图。………。…………....

㈢做网站优化你知道百度的算法都有什么吗

网络绿萝算法：我一直不相信网络绿萝算法竟然可以算出来你的链接是否购买的，但是实际网络却做到了，其中主要原理还是根据一个网站对另一个网站的链接判断，是否有反向链接、链接个数来进行判断。

网络石榴算法：石榴算法主要打击的对象为低质量页面，其中网络蜘蛛主要是根据网站html代码来抓取的，并且搜索引擎根据文章的标签(包含排版)、重复读来进行判断网站的质量。

网络星火计划：星火计划的原计划是为了打击抄袭者，其星火计划的原理非常简单了，也就是判断重复读来决定网站是否抄袭，同时网络蜘蛛也肯定了自己的抓取程序，目前正在往每一个网站时刻爬取靠拢。

网络惊雷算法：网络惊雷算法严厉打击通过刷点击，提升网站搜索排序的作弊行为；以此保证搜索用户体验，促进搜索内容生态良性发展。

网络冰桶算法：网络移动搜索将针对低质站点及页面进行一系列调整，我们称之为冰桶算法。影响范围：强行弹窗app下载、用户登录、大面积广告等影响用户正常浏览体验的页面，尤其以必须下载app才能正常使用的站点为代表。从整个移动互联网生态环境看，越来越多的网站进行此类强推，这已经严重影响了正常用户的浏览体验。

网络蓝天算法：蓝天算法，是网络搜索引擎针对新闻源站点售卖软文、目录等严重违反新闻源规则，并影响用户搜索体验行为，于2016年11月正式启用的一种搜索引擎算法规则，其目的是严厉打击新闻源售卖软文、目录行为，还用户一片搜索蓝天。
网络天网算法：天网算法主要是针对网页搜索发现部分站点存在盗取用户隐私的行为进行打击。主要表现为网页嵌恶意代码（多为JS代码），用于盗取网民的QQ号、手机号。
网络飓风算法：网络搜索于近日推出飓风算法，旨在严厉打击以恶劣采集为内容主要来源的网站，同时网络搜索将从索引库中彻底清除恶劣采集链接，给优质原创内容提供更多展示机会，促进搜索生态良性发展。

飓风算法会例行产出惩罚数据，同时会根据情况随时调整迭代，体现了网络搜索对恶劣采集的零容忍。优质原创站点如发现站点索引量大幅减少且流量大幅下滑现象，可在反馈中心进行反馈。

网络清风算法：网络搜索将于9月底推出清风算法，旨在严惩网站通过网页标题作弊，欺骗用户并获得点击的行为；从而保证搜索用户体验，促进搜索生态良性发展。

㈣高层建筑结构优化算法有哪几种

高层建筑结构优化算法：
①优化准则法一从直观的力学原理出发，选定使结构达到最优的准则，然后根据这些准则选取适当的迭代格式，寻求结构的最优解。
②数学规划法一从解极值问题的数学原理出发，运用数学规划方法求得一系列设计参数的最优解。
结构优化设计：
在给定约束条件下，按某种目标(如重量最轻、成本最低、刚度最大等)求出最好的设计方案，曾称为结构最佳设计或结构最优设计，相对于“结构分析”而言，又称“结构综合”；如以结构的重量最小为目标，则称为最小重量设计。

㈤求解原始问题和对偶问题常用的优化算法有哪些

1. 支持向量机的目的是什么？
对于用于分类的支持向量机来说，给定一个包含正例和反例（正样本点和负样本点）的样本集合，支持向量机的目的是寻找一个超平面来对样本进行分割，把样本中的正例和反例用超平面分开，但是不是简单地分看，其原则是使正例和反例之间的间隔最大。
超平面是什么呢？简单地说，超平面就是平面中的直线在高维空间中的推广。那么，对于三维空间，超平面就是平面了。对于更高维的空间，我们只能用公式来表达，而缺少直观的图形了。总之，在n维空间中的超平面是n-1维的。
超平面的公式为。公式中的w为可以调整的系数向量，b为bias。注意我们的表达习惯，所有的向量都是列向量，所以在第一项的内积中向量w需要进行转置。
现在考虑样本集合{xi，di}，xi是输入的特征，di是样本对应的分类。现在规定当样本xi属于第一类时，di为1，当xi属于第二类时，di为-1。
那么，线性可分的意思就是一个超平面可以把两类样本完全地分割开来。用公式表达就是：

你现在可能会问，那么如果不是线性可分的情况应该怎么办呢？事实是这些会在后面处理到。在这里我们首先讨论线性可分的情况，然后将其拓展到线性不可分的情况.
现在假设对于线性可分的样本集，我们有了一个分割超平面，现在我们想通过调整w0和b0让它分割的正样本和负样本保持最大的间隔，这样我们就获得了最优的超平面。实际上在操作过程中，我们最大化的是离超平面最近的点到超平面的距离。也就是说，我们要让超平面尽量远离最近的点。从图中可见超平面到正样本最近点的距离和超平面到负样本最近点的距离是相等的。这是个巧合么？
假设我们已经找到了一个超平面，它离正样本最近点的距离大于离负样本最近点的距离，那么这个离超平面最近的点就是负样本中的最近点。而考虑到我们的目标，我们还会调整超平面的位置使它还可以增大一些，即使这样会牺牲离正样本最近点的距离。所以调整到最后的结果肯定是超平面离两侧最近点的距离是等距的。

为了更形象地表现正负样本的间隔，我们可以在分割超平面的两侧再定义两个超平面H1和H2（如图中虚线所示），这两个超平面分别通过正样本和负样本中离分割超平面最近的样本点（图中加了外圈）。从以上分析可以知道，超平面H1和H2离分割超平面是等距的。
我们定义超平面H1和H2上面的点叫做支持向量。正负样本的间隔可以定义为超平面H1和H2之间的间隔，它是分割超平面距最近正样本点距离和最近负样本点距离之和。
从图中可以看出，支持向量对于分割超平面的位置是起到关键作用的。在优化分割超平面位置之后，支持向量也显露出来，而支持向量之后的样本点则对分类并不关键。为什么这样说呢？因为即使把支持向量以外的样本点全部删除，再找到最优的分割超平面，这个超平面的位置跟原先的分割超平面的位置也是一样的。总结起来就是：
支持向量包含着重构分割超平面所需要的全部信息！
2. 样本点到超平面距离的表示
如何求一点到超平面的距离呢？
现在我们来看看系数向量w0是什么含义？回忆一下，w0实际上是超平面的法向量！
那么，对于任意一个样本点x，它可以表示为：

其中xp是x在超平面上的投影，r是x到超平面的几何距离（几何间隔）。
设，
现在由定义有g(xp)为0，则有。
现在我们开看，g(x)实际上度量了样本点x到超平面的距离，在||w0||恒定的情况下，g(x)绝对值的大小反映了几何间隔r的大小。我们给g(x)起个名字叫做函数间隔。注意几何间隔r和函数间隔g(x)都是有正负号的，代表着处于超平面的不同侧。

3. 最大化间隔
我们已经知道了函数间隔和几何间隔的表示，现在回到正题，我们需要最大化支持向量到分割超平面的距离，当然在最开始我们不知道哪些向量是支持向量。
我们的目的是最大化支持向量到分割超平面的几何间隔r，而不是最大化函数间隔g(x)，为什么呢？因为超平面方程的系数可以同比例增大或者减小，而不改变超平面本身。所以||w0||是不固定的，这就会影响函数间隔g(x)的大小。
所以我们需要最大化的是几何间隔r，这等价于我们固定||w0||，然后最大化函数间隔g(x)。但是实际上我们不会这么做，通常的处理方法是固定函数间隔g(x)的绝对值为1，然后最小化||w0||。也就是说我们把支持向量到分割超平面的函数间隔g(x)的绝对值设定为1，然后最小化||w0||。

4. 正式的表述
现在我们可以正式地表述这个问题了。我们需要最小化||w0||，也就是最小化超平面权重向量w0的欧几里得范数。但是有没有限定条件呢？还记得上一节最后一句话么？
“也就是说我们把支持向量到分割超平面的函数间隔g(x)设定为1，然后最小化||w0||”
所以最小化||w0||是有限定条件的，如何表述限制条件呢？我们把支持向量对应的g(x)定为+1或者-1（取决于支持向量处于分割超平面的哪一侧，也就是说是正样本还是负样本），也就表明了对于所有的正样本点来说，g(x)是>=+1的，而对于负样本来说，g(x)是<=-1的。
回想g(x)的定义：
，
我们可以把限制条件写下来：

现在我们可以把上面的问题写的更简练：
目标函数：

限制：

1/2是为了以后计算方便所加的，N是样本点的个数。
现在我们的第一个任务结束了，我们把要寻找最优的分割超平面的问题转化为带有一系列不等式约束的优化问题。这个最优化问题被称作原问题。我们不会直接解它，而是把它转化为对偶问题进行解决。至于如何将其转化为对偶问题，这是以后几节的内容。
等式约束极小的最优性条件
对支持向量机的求解都是将上节说的原问题转化为对偶问题进行求解的，这些内容都是最优化课程中的内容。
回忆上节的内容，我们的目标是寻找函数在若干约束条件下的最小值。在上节的原问题中，约束条件是包含不等式的，本节先考虑简单的问题，即考虑只包含等式约束的最优化问题：
（1）
其中f(x)被称作目标函数，而下面是一系列的等式约束。回想一下，当没有任何约束存在的时候，应该怎样寻找最优点呢？事实上x*是最优点的必要条件是：

而如果函数f(x)是凸函数的话，这个条件也是充分条件。
插入一个说明，如果函数f(x)是一个实值函数，x是一个n维向量，那么f(x)对向量x的导数被定义为：

回到目前的问题，当我们寻找约束存在时的最优点的时候，约束的存在虽然减小了需要搜寻的范围，但是却使问题变得更加复杂。为了使问题变得易于处理，我们的方法是把目标函数和约束全部融入一个新的函数，即拉格朗日函数，再通过这个函数来寻找最优点。
为了形象化地分析这个问题，我们考虑目标函数是三变量的函数并且只有一个约束的情况：
（2）
从几何上来看，上面的问题（2）就是从曲面上来寻找函数的最小值。假设问题（2）的最优解是。我们现在做曲面Ω上任一条通过点x的光滑曲线l：（由于曲线l是在曲面Ω上的，所以自然有）。
令最优点对应的t为t*。因为x*是曲面Ω上的最优点，所以x*也是曲线l上的最优点，所以t*是一元函数的最优点，所以在这一点它的导数是0。通过链式法则我们得到：

这个式子说明了在x*这一点，函数的梯度向量和曲线l在x*处的切线是垂直的。由于曲线l是任意的，所以梯度向量和曲面Ω是垂直的。
回忆高等数学的结论，的方向就是曲面Ω的法线方向，所以和必然在同一直线的方向上，所以必定存在一个常数μ*，有。
我们可以把它写成更加精炼的形式。如果我们构造二元函数，上面的结论就可以表达为必定存在着常数μ*，使。
我们把构造的函数称作拉格朗日函数，而其中的μ称作拉格朗日乘子。

关于只有等式约束的拉格朗日函数的引入，也可以参考维基网络中的两个变量函数的例子。
以上是一个特殊情形的分析，并且只包含了一个约束。那么包含等式约束的一般情况，也就是问题（1）来说，我们同样可以构造拉格朗日函数，不过由于包括多个等式约束，表达稍微不同：
。
也就是说，每一个等式约束都对应着一个拉格朗日乘子。那么x*是最优点的必要条件就是，存在相应的拉格朗日乘子μ*，使得以下两个式子成立：
（实际上就是原问题（1）的约束条件换了种写法）
这两个式子就是最优点的必要条件，当然如果函数是凸函数的话，这两个式子也是充分条件。
现在我们的目标达到了，也就是把目标函数和一系列的等值约束融合到了一个函数（拉格朗日函数）里面，这样只需要解（3）和（4）这两个式子就可以找到最优点，其优点是不言而喻的。而在下一节中我们将会讨论包含不等式约束的最优化问题。
寻找最优值的下界
我们首先要引入包含不等式约束的优化问题，标准形式如下：
（1）
f(x)是目标函数，而后面分别是一系列的不等式约束和等式约束。
我们首先明确几个概念：
可行点（可行解）：所有满足约束的点x。
可行域：所有可行点组成的点集，记为R。正式写出来就是：

最优点（最优解）：满足约束（也就是处于可行域之内）并且使目标函数达到最小的点，记为x*。
最优值：如果找到了x*，p* = f(x*) 就是最优值。
明确了这些概念以后我们就接着说下面的内容了。
与上节所说的只包含等式约束的情况类似，我们定义拉格朗日函数如下：

我们来看看，这与上节的拉格朗日函数有什么不同？多了一系列的不等式约束对应的项，所以也多了一系列的拉格朗日乘子。在这里需要强调的是，所有的λi必须是大于等于0的（也即是不等式约束对应的乘子要求大于等于0，我们记为λ≥0，意思是每个都λi≥0）。至于为什么要这样要求，后面自然可以看出来。
接下来我们定义一个重要的函数，我们定义拉格郎日对偶函数（the Lagrange al function）如下：
（2）
所以拉格朗日对偶函数就是把看成x的函数所找到的最小值。找到这个最小值有什么意义呢？
我们先把结论写下来，这个结论十分重要，是本节论述的目的：
对偶函数产生了原问题（1）最优值p*的一个下界，也就是说，对于任意的λ≥0和任意的μ来说，有：
（3）
那么如何证明（3）呢？
这个证明步骤十分简洁。假设x*是原问题（1）中的最优解，也就是f(x*) = p*。

最后两行的推导是考虑到x*是在可行域R内的，所以肯定有，当然前提是λ≥0，这也就是为什么在一开始要做这个规定的原因了。
我们如何理解这个不等式（3）呢？下面给出两个直观的解释：
解释一：线性逼近的解释

我们首先重写问题（1），就是把问题（1）换个更加紧凑的方式来表达，首先我们定义示性函数：

同样我们也可以定义另外一个示性函数：

有了这两个示性函数的帮助，现在我们可以把问题（1）重新写成一个没有约束的形式：
（4）
我们来看看这个优化问题（4）和问题（1）是等价的么？我们可以把（4）的后面两大项看做是对违反约束条件的x的惩罚函数。起的作用是对违反不等式约束的x进行“无限的”惩罚，也就一旦，惩罚就等于无穷大。而起的作用是对违反等式约束的x进行惩罚，一旦，惩罚就为无穷大。这样对（4）中目标函数的优化跟对（1）中目标函数在约束条件下的优化就是同一回事，是不是？也就是说，（1）和（4）这两个问题是等价的问题，但是在（4）中约束被融合到目标函数中来了。

现在我们再回头看看（2），也就是拉格朗日对偶函数，它也是个优化问题，我们对比它所优化的函数和（4）中所优化的函数，把它们重写在一起：
（2）中的目标函数
（4）中的目标函数
可见在问题（2）和问题（4）中，我们优化的目标函数区别在于惩罚项不同，（4）中的惩罚项是无限的，就是说一旦违反约束，就施加无穷大的惩罚；而在（2）中我们的惩罚项是线性的，就是说随着gi(x)和hi(x)的不同，惩罚项是线性变化的。所以（2）和（4）中需要优化的目标函数有很大的不同，用（2）来逼近（4）是很不准确的。但是我们可以看出，对于任意的u，任意的λ≥0和任意的μ来说都有：
（我们把λ限制为大于等于0了）
所以在任意点，（2）中的目标函数的值都是小于（4）中的目标函数的值，所以（2）中找到的最优值肯定是小于（4）中找到的最优值的。再结合前面说的（1）和（4）是等价的问题，所以不等式（3）是成立的。

解释二：交换max和min的次序
我们首先可以看出：

为什么会有这个结果呢？当x满足约束的时候，也就是对所有的i来说有并且，如果我们想通过调整λ和μ让变大怎么办呢？只有让λ全部为0（注意λ只能大于等于0），这样就消去了小于0的项，至于，无论μ怎么变都是没有影响的。所以当x属于可行域的时候上式的结果是f(x)。如果x违反了约束呢？在做sup运算的时候只需要对满足和的项对应的乘子定为+∞，而把其他的项对应的乘子设为0，就可以让整个式子的结果变为无穷大。
所以我们可以看出来，在问题（1）中的带约束的优化问题和直接优化是一回事，也就是说：

现在我们把inf和sup两个运算符调换次序，显然有：

我们重写（2）式：
（2）
可以看出结论了，也就是λ≥0时（3）式成立：
（3）
好了，费了半天的劲我们说明了一个问题，就是不等式（3）是怎么来的。
总结一下，不等式（3）用文字叙述就是：
如果我们把拉格朗日函数看做是x的函数，然后取下确界（注意：是在整个定义域里取下确界，而不是仅仅在可行域里取值，也就是说取下确界时对x是没有约束的），那么得到的结果就是原优化问题（1）的最优值的一个下界。

至于我们得到这个结果有什么用，下节再说。
对偶问题
回忆上一节，对如下的原问题：
（1）
我们定义了拉格朗日对偶函数：

然后我们证明了：，其中p*是原问题的最优值。
也就是说我们找到了原问题最优值的一个下界。既然我们找到了一个下界，显然我们要找到它最好的下界。什么是最好的下界的？显然就是所有下界当中最大的那一个。所以我们要把最大化，当然我们还要记得我们需要限制。我们把要优化的函数和约束条件正式写下来就是：
（2）
与原问题（1）相对应，我们把上面的问题（2）称作拉格朗日对偶问题（Lagrange al problem）。显然，对偶问题的最优值d*就是我们可以获得的p*的最优下界，也就是所有下界中离p*最近的一个，它们的关系是：
（3）
我们把这个不等式叫做弱对偶性质（Weak Duality）。
顺其自然，我们可以引出一个重要的概念，对偶间隙，其定义为，用文字叙述就是原问题的最优值与通过拉个郎日对偶函数获得的其最好（最大）的下界之差。由不等式（3）可以看出，对偶间隙肯定是大于等于0的。
那么有没有可能在某种情况下，对偶间隙消失了呢？也就是说对偶问题的最优值与原问题的最优值相等了呢？
我们将要叙述一下Slater条件：
Slater条件：
存在x满足：
Slater条件即是说存在x，使不等式约束中的“小于等于号”要严格取到“小于号”。
可以证明，对于凸优化问题（关于凸优化问题，请参考维基网络），如果Slater条件满足了，则：

这种情况称为强对偶性质（Strong Duality）。
下面的问题是，如果对偶间隙消失了，会发生什么有趣的现象呢？
如果对偶间隙消失了，也就是说，如果对偶问题存在着最优点λ*,μ*并且使其对应的最优值等于p*，这时会发生什么情况呢？还记得上一节我们证明的过程么：
（4）
在对偶间隙消失的情况下，中间所有的不等号都要变成等号：
（5）
注意，（5）中的λ和μ都加了星号，表示它们是对偶问题的最优点。（5）中有两个重要的等号，已经加了标记。
我们能得出什么结论？
1 .我们先来看等号1：
它说明了原问题的最优点x*是使取得最小值的点。
2. 我们再来看等号2：
它说明了：

由于我们限制了每一个λi≥0，所以上式中每一项都是非正的。这样我们又可以得出结论：
(6)
等式（6）被称作是互补性条件，我们可以把它换种写法：

或者写成它的等价形式（逆否命题）：

也就是说，只要一个不为0，另一个就必为0！
互补性条件有着重要的意义。它说明了当时，x*是处于可行域的内部的，这时不等式约束并不起作用，此时；而的点肯定是可行域边界的点（）。也就是说只有积极约束才有不为0的对偶变量。而这在支持向量机中有着重要的意义。回想在第一节我们最后的结论，支持向量机寻找最大间隔超平面可以归结为一个优化问题：
目标函数：

限制：

那么哪些不等式约束对应着不为0的对偶变量呢？显然，只有当时，这个约束对应的对偶变量才可能不为0，而意味着什么？意味着这个约束对应的样本点xi是支持向量！也就是说：
只有支持向量才对应不为0的拉格朗日乘子！

㈥为什么说Transformer的注意力机制是相对廉价的注意力机制相对更对于RNN系列及CNN系列算法有何优势

QA形式对自然语言处理中注意力机制（Attention）进行总结，并对Transformer进行深入解析。

二、Transformer（Attention Is All You Need）详解
1、Transformer的整体架构是怎样的？由哪些部分组成？
2、Transformer Encoder 与 Transformer Decoder 有哪些不同？
3、Encoder-Decoder attention 与self-attention mechanism有哪些不同？
4、multi-head self-attention mechanism具体的计算过程是怎样的？
5、Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的？有什么变化？

一、Attention机制剖析

1、为什么要引入Attention机制？

根据通用近似定理，前馈网络和循环网络都有很强的能力。但为什么还要引入注意力机制呢？

计算能力的限制：当要记住很多“信息“，模型就要变得更复杂，然而目前计算能力依然是限制神经网络发展的瓶颈。
优化算法的限制：虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单一些，有效缓解模型复杂度和表达能力之间的矛盾；但是，如循环神经网络中的长距离以来问题，信息“记忆”能力并不高。

可以借助人脑处理信息过载的方式，例如Attention机制可以提高神经网络处理信息的能力。

2、Attention机制有哪些？（怎么分类？）

当用神经网络来处理大量的输入信息时，也可以借鉴人脑的注意力机制，只选择一些关键的信息输入进行处理，来提高神经网络的效率。按照认知神经学中的注意力，可以总体上分为两类：

聚焦式（focus）注意力：自上而下的有意识的注意力，主动注意——是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力；
显着性（saliency-based）注意力：自下而上的有意识的注意力，被动注意——基于显着性的注意力是由外界刺激驱动的注意，不需要主动干预，也和任务无关；可以将max-pooling和门控（gating）机制来近似地看作是自下而上的基于显着性的注意力机制。

在人工神经网络中，注意力机制一般就特指聚焦式注意力。

3、Attention机制的计算流程是怎样的？

Attention机制的实质：寻址（addressing）

Attention机制的实质其实就是一个寻址（addressing）的过程，如上图所示：给定一个和任务相关的查询Query向量q，通过计算与Key的注意力分布并附加在Value上，从而计算Attention Value，这个过程实际上是Attention机制缓解神经网络模型复杂度的体现：不需要将所有的N个输入信息都输入到神经网络进行计算，只需要从X中选择一些和任务相关的信息输入给神经网络。

注意力机制可以分为三步：一是信息输入；二是计算注意力分布α；三是根据注意力分布α 来计算输入信息的加权平均。

step1-信息输入：用X= [x1, · · · , xN ]表示N 个输入信息；

step2-注意力分布计算：令Key=Value=X，则可以给出注意力分布

我们将称之为注意力分布（概率分布），为注意力打分机制，有几种打分机制：

step3-信息加权平均：注意力分布可以解释为在上下文查询q时，第i个信息受关注的程度，采用一种“软性”的信息选择机制对输入信息X进行编码为：

这种编码方式为软性注意力机制（soft Attention），软性注意力机制有两种：普通模式（Key=Value=X）和键值对模式（Key！=Value）。

软性注意力机制（soft Attention）

4、Attention机制的变种有哪些？

与普通的Attention机制（上图左）相比，Attention机制有哪些变种呢？

变种1-硬性注意力：之前提到的注意力是软性注意力，其选择的信息是所有输入信息在注意力分布下的期望。还有一种注意力是只关注到某一个位置上的信息，叫做硬性注意力（hard attention）。硬性注意力有两种实现方式：（1）一种是选取最高概率的输入信息；（2）另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。硬性注意力模型的缺点：
硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。因此最终的损失函数与注意力分布之间的函数关系不可导，因此无法使用在反向传播算法进行训练。为了使用反向传播算法，一般使用软性注意力来代替硬性注意力。硬性注意力需要通过强化学习来进行训练。——《神经网络与深度学习》
变种2-键值对注意力：即上图右边的键值对模式，此时Key！=Value，注意力函数变为：

变种3-多头注意力：多头注意力（multi-head attention）是利用多个查询Q = [q1, · · · , qM]，来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分，然后再进行拼接：

5、一种强大的Attention机制：为什么自注意力模型（self-Attention model）在长距离序列中如此强大？

（1）卷积或循环神经网络难道不能处理长距离序列吗？

当使用神经网络来处理一个变长的向量序列时，我们通常可以使用卷积网络或循环网络进行编码来得到一个相同长度的输出向量序列，如图所示：

基于卷积网络和循环网络的变长序列编码

从上图可以看出，无论卷积还是循环神经网络其实都是对变长序列的一种“局部编码”：卷积神经网络显然是基于N-gram的局部编码；而对于循环神经网络，由于梯度消失等问题也只能建立短距离依赖。

（2）要解决这种短距离依赖的“局部编码”问题，从而对输入序列建立长距离依赖关系，有哪些办法呢？

如果要建立输入序列之间的长距离依赖关系，可以使用以下两种方法：一种方法是增加网络的层数，通过一个深层网络来获取远距离的信息交互，另一种方法是使用全连接网络。 ——《神经网络与深度学习》
全连接模型和自注意力模型：实线表示为可学习的权重，虚线表示动态生成的权重。

由上图可以看出，全连接网络虽然是一种非常直接的建模远距离依赖的模型，但是无法处理变长的输入序列。不同的输入长度，其连接权重的大小也是不同的。

这时我们就可以利用注意力机制来“动态”地生成不同连接的权重，这就是自注意力模型（self-attention model）。由于自注意力模型的权重是动态生成的，因此可以处理变长的信息序列。

总体来说，为什么自注意力模型（self-Attention model）如此强大：利用注意力机制来“动态”地生成不同连接的权重，从而处理变长的信息序列。

（3）自注意力模型（self-Attention model）具体的计算流程是怎样的呢?

同样，给出信息输入：用X = [x1, · · · , xN ]表示N 个输入信息；通过线性变换得到为查询向量序列，键向量序列和值向量序列：

上面的公式可以看出，self-Attention中的Q是对自身（self）输入的变换，而在传统的Attention中，Q来自于外部。

self-Attention计算过程剖解（来自《细讲 | Attention Is All You Need 》）

注意力计算公式为：

自注意力模型（self-Attention model）中，通常使用缩放点积来作为注意力打分函数，输出向量序列可以写为：

二、Transformer（Attention Is All You Need）详解

从Transformer这篇论文的题目可以看出，Transformer的核心就是Attention，这也就是为什么本文会在剖析玩Attention机制之后会引出Transformer，如果对上面的Attention机制特别是自注意力模型（self-Attention model）理解后，Transformer就很容易理解了。

1、Transformer的整体架构是怎样的？由哪些部分组成？

Transformer模型架构

Transformer其实这就是一个Seq2Seq模型，左边一个encoder把输入读进去，右边一个decoder得到输出：

Seq2Seq模型

Transformer=Transformer Encoder+Transformer Decoder

（1）Transformer Encoder（N=6层，每层包括2个sub-layers）：

Transformer Encoder
sub-layer-1：multi-head self-attention mechanism，用来进行self-attention。
sub-layer-2：Position-wise Feed-forward Networks，简单的全连接网络，对每个position的向量分别进行相同的操作，包括两个线性变换和一个ReLU激活输出（输入输出层的维度都为512，中间层为2048）：

每个sub-layer都使用了残差网络：

（2）Transformer Decoder（N=6层，每层包括3个sub-layers）：

Transformer Decoder
sub-layer-1：Masked multi-head self-attention mechanism，用来进行self-attention，与Encoder不同：由于是序列生成过程，所以在时刻 i 的时候，大于 i 的时刻都没有结果，只有小于 i 的时刻有结果，因此需要做Mask。
sub-layer-2：Position-wise Feed-forward Networks，同Encoder。
sub-layer-3：Encoder-Decoder attention计算。

2、Transformer Encoder 与 Transformer Decoder 有哪些不同？

（1）multi-head self-attention mechanism不同，Encoder中不需要使用Masked，而Decoder中需要使用Masked；

（2）Decoder中多了一层Encoder-Decoder attention，这与 self-attention mechanism不同。

3、Encoder-Decoder attention 与self-attention mechanism有哪些不同？

它们都是用了 multi-head计算，不过Encoder-Decoder attention采用传统的attention机制，其中的Query是self-attention mechanism已经计算出的上一时间i处的编码值，Key和Value都是Encoder的输出，这与self-attention mechanism不同。代码中具体体现：

## Multihead Attention ( self-attention)

self.dec = multihead_attention(queries=self.dec,

keys=self.dec,

num_units=hp.hidden_units,

num_heads=hp.num_heads,

dropout_rate=hp.dropout_rate,

is_training=is_training,

causality=True,

scope="self_attention")

## Multihead Attention ( Encoder-Decoder attention)

self.dec = multihead_attention(queries=self.dec,

keys=self.enc,

num_units=hp.hidden_units,

num_heads=hp.num_heads,

dropout_rate=hp.dropout_rate,

is_training=is_training,

causality=False,

scope="vanilla_attention")

4、multi-head self-attention mechanism具体的计算过程是怎样的？

multi-head self-attention mechanism计算过程

Transformer中的Attention机制由Scaled Dot-Proct Attention和Multi-Head Attention组成，上图给出了整体流程。下面具体介绍各个环节：

Expand：实际上是经过线性变换，生成Q、K、V三个向量；
Split heads: 进行分头操作，在原文中将原来每个位置512维度分成8个head，每个head维度变为64；
Self Attention：对每个head进行Self Attention，具体过程和第一部分介绍的一致；
Concat heads：对进行完Self Attention每个head进行拼接；

上述过程公式为：

5、Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的？有什么变化？

GPT中训练的是单向语言模型，其实就是直接应用Transformer Decoder；
Bert中训练的是双向语言模型，应用了Transformer Encoder部分，不过在Encoder基础上还做了Masked操作；

BERT Transformer 使用双向self-attention，而GPT Transformer 使用受限制的self-attention，其中每个token只能处理其左侧的上下文。双向 Transformer 通常被称为“Transformer encoder”，而左侧上下文被称为“Transformer decoder”，decoder是不能获要预测的信息的。

㈦ pso的优化求解

PSO算法被广泛应用于各种优化问题，并且已经成为优化领域中的一个有效算法。除了普通函数优化之外，还包括如下方面。
混合整数非线性规划
很多求解整数规划的算法是在采用实数域的算法进行优化后，再将结果取整作为整数规划的近似解。这种做法常常导致不满足约束或远离最优解。谭瑛提出一种在整数空间中直接进行进化计算的PSO算法。刘钊针对混合整数非线性规划中可行解产生代价较高的问题，建立了保证都是合法解的备用微粒库，并提出微粒迁移策略，帮助微粒跳出局部最优。
噪声和动态环境
动态系统的状态会经常改变，甚至可能会连续变化。许多实际系统都会涉及到动态环境。例如，由于顾客的优先级、意外的设备维护等导致的变化，调度系统中大多数计算时间都被用来进行重新调度。在实际应用中，这些系统状态的变化就需要经常进行重新优化。
最初使用微粒群算法跟踪动态系统的工作由Carlisle提出，通过周期性地重置所有微粒的记忆来跟踪动态系统。Eberhart也采用类似想法；之后Hu提出一种自适应PSO算法，能够自动跟踪动态系统中的不同变化，并在抛物线benchmark函数上对不同的环境检测和响应技术进行了实验，其中使用的检测方法是监控种群中最优微粒的行为。后来Carlisle使用搜索空间中的一个随机点来确定环境是否发生变化，但是这需要集中控制，与PSO算法的分布式处理模型不符。为此Cui提出TDPSO算法，让最优历史位置的适应值随着时间减小，从而不再需要集中控制。Blackwell在微粒的更新公式中添加了一项惩罚项，来保持微粒处于一个扩展的群中，以应对快速变化的动态环境，该方法中不需要检测最优点是否发生变化。
Parsopoulos等的试验表明，基本PSO算法就可以有效而稳定地在噪声环境中工作，且在很多情况下，噪声的存在还可以帮助PSO算法避免陷入局部最优。Parsopoulos还通过试验研究了UPSO算法在动态环境中的性能。Pugh提出一种抗噪声的PSO算法。Pan将假设检验和最优计算预算分配（OCBA）技术引入微粒群算法，提出PSOOHT算法，来解决噪声环境下的函数优化问题。
上述工作的研究对象都是简单的动态系统，所采用的实验函数是简单的单模函数，并且所涉及的变化都是简单环境下的均匀变化（即固定步长）。而事实上，实际的动态系统经常是非线性的，并在复杂的多模搜索空间中非均匀变化。Li采用四个PSO模型，对一系列不同的动态环境进行了对比研究。
上述方法均是针对仅跟踪单个最优点的情况，

㈧算法效率与分析

算法效率与分析
数据结构作为程序设计的基础，其对算法效率的影响必然是不可忽视的。本文就如何合理选择数据结构来优化算法这一问题，对选择数据结构的原则和方法进行了一些探讨。首先对数据逻辑结构的重要性进行了分析，提出了选择逻辑结构的两个基本原则；接着又比较了顺序和链式两种存储结构的优点和缺点，并讨论了选择数据存储结构的方法；最后本文从选择数据结构的的另一角度出发，进一步探讨了如何将多种数据结构进行结合的方法。在讨论方法的同时，本文还结合实际，选用了一些较具有代表性的信息学竞赛试题举例进行了分析
【正文】一、引论
“数据结构＋算法＝程序”，这就说明程序设计的实质就是对确定的问题选择一种合适的数据结构，加上设计一种好的算法。由此可见，数据结构在程序设计中有着十分重要的地位。
数据结构是相互之间存在一种或多种特定关系的数据元素的集合。因为这其中的“关系”，指的是数据元素之间的逻辑关系，因此数据结构又称为数据的逻辑结构。而相对于逻辑结构这个比较抽象的概念，我们将数据结构在计算机中的表示又称为数据的存储结构。
建立问题的数学模型，进而设计问题的算法，直至编出程序并进行调试通过，这就是我们解决信息学问题的一般步骤。我们要建立问题的数学模型，必须首先找出问题中各对象之间的关系，也就是确定所使用的逻辑结构；同时，设计算法和程序实现的过程，必须确定如何实现对各个对象的操作，而操作的方法是决定于数据所采用的存储结构的。因此，数据逻辑结构和存储结构的好坏，将直接影响到程序的效率。

二、选择合理的逻辑结构

在程序设计中，逻辑结构的选用就是要分析题目中的数据元素之间的关系，并根据这些特定关系来选用合适的逻辑结构以实现对问题的数学描述，进一步解决问题。逻辑结构实际上是用数学的方法来描述问题中所涉及的操作对象及对象之间的关系，将操作对象抽象为数学元素，将对象之间的复杂关系用数学语言描述出来。
根据数据元素之间关系的不同特性，通常有以下四种基本逻辑结构：集合、线性结构、树形结构、图状（网状）结构。这四种结构中，除了集合中的数据元素之间只有“同属于一个集合”的关系外，其它三种结构数据元素之间分别为“一对一”、“一对多”、“多对多”的关系。
因此，在选择逻辑结构之前，我们应首先把题目中的操作对象和对象之间的关系分析清楚，然后再根据这些关系的特点来合理的选用逻辑结构。尤其是在某些复杂的问题中，数据之间的关系相当复杂，且选用不同逻辑结构都可以解决这一问题，但选用不同逻辑结构实现的算法效率大不一样。
对于这一类问题，我们应采用怎样的标准对逻辑结构进行选择呢？
下文将探讨选择合理逻辑结构应充分考虑的两个因素。

一、充分利用“可直接使用”的信息。
首先，我们这里所讲的“信息”，指的是元素与元素之间的关系。
对于待处理的信息，大致可分为“可直接使用”和“不可直接使用”两类。对于“可直接使用”的信息，我们使用时十分方便，只需直接拿来就可以了。而对于“不可直接使用”的这一类，我们也可以通过某些间接的方式，使之成为可以使用的信息，但其中转化的过程显然是比较浪费时间的。
由此可见，我们所需要的是尽量多的“可直接使用”的信息。这样的信息越多，算法的效率就会越高。
对于不同的逻辑结构，其包含的信息是不同的，算法对信息的利用也会出现不同的复杂程度。因此，要使算法能够充分利用“可直接使用”的信息，而避免算法在信息由“不可直接使用”向“可直接使用”的转化过程中浪费过多的时间，我们必然需要采用一种合理的逻辑结构，使其包含更多“可直接使用”的信息。
〖问题一〗 IOI99的《隐藏的码字》。
〖问题描述〗
问题中给出了一些码字和一个文本，要求编程找出文本中包含这些码字的所有项目，并将找出的项目组成一个最优的“答案”，使得答案中各项目所包含的码字长度总和最大。每一个项目包括一个码字，以及该码字在文本中的一个覆盖序列（如’abcadc’就是码字’abac’的一个覆盖序列），并且覆盖序列的长度不超过1000。同时，“答案”要求其中每个项目的覆盖序列互相没有重叠。
〖问题分析〗
对于此题，一种较容易得出的基本算法是：对覆盖序列在文本中的终止位置进行循环，再判断包含了哪些码字，找出所有项目，并最后使用动态规划的方法将项目组成最优的“答案”。
算法的其它方面我们暂且不做考虑，而先对问题所采用的逻辑结构进行选择。
如果我们采用线性的逻辑结构（如循环队列），那么我们在判断是否包含某个码字t时，所用的方法为：初始时用指针p指向终止位置，接着通过p的不断前移，依次找出码字t从尾到头的各个字母。例如码字为“ABDCAB”，而文本图1-1，终止位置为最右边的箭头符号，每个箭头代表依次找到的码字的各个字母。
指针p的移动方向
A B D C A B

C D A C B D C A D C D B A D C C B A D

图1-1

由于题目规定码字的覆盖序列长度不超过1000，所以进行这样的一次是否包含的判断，其复杂度为O(1000)。
由于码字t中相邻两字母在文本中的位置，并非只有相邻(如图1-1中的’D’和’C’)这一种关系，中间还可能间隔了许多的字母(如图1-1中’C’和’A’就间隔了2个字母)，而线性结构中拥有的信息，仅仅只存在于相邻的两元素之间。通过这样简单的信息来寻找码字的某一个字母，其效率显然不高。
如果我们建立一个有向图，其中顶点i(即文本的第i位)用52条弧分别连接’a’..’z’,’A’..’Z’这52个字母在i位以前最后出现的位置（如图1-2的连接方式），我们要寻找码字中某个字母的前一个字母，就可以直接利用已连接的边，而不需用枚举的方法。我们也可以把问题看为：从有向图的一个顶点出发，寻找一条长度为length(t)-1的路径，并且路径中经过的顶点，按照码字t中的字母有序。

C D A C B D C A D C D B A D C C B A D

图1-2
通过计算，用图进行记录在空间上完全可以承受(记录1000个点×52条弧×4字节的长整型=200k左右)。在时间上，由于可以充分利用第i位和第i+1位弧的连接方式变化不大这一点(如图1-2所示，第i位和第i+1位只有一条弧的指向发生了变化，即第i+1位将其中一条弧指向了第i位)，所以要对图中的弧进行记录，只需对弧的指向进行整体赋值，并改变其中的某一条弧即可。
因此，我们通过采用图的逻辑结构，使得寻找字母的效率大大提高，其判断的复杂度为O(length(t))，最坏为O(100)，比原来方法的判断效率提高了10倍。
（附程序codes.pas）

对于这个例子，虽然用线性的数据结构也可以解决，但由于判断的特殊性，每次需要的信息并不能从相邻的元素中找到，而线性结构中只有相邻元素之间存在关系的这一点，就成为了一个很明显的缺点。因此，问题一线性结构中的信息，就属于“不可直接使用”的信息。相对而言，图的结构就正好满足了我们的需要，将所有可能产生关系的点都用弧连接起来，使我们可以利用弧的关系，高效地进行判断寻找的过程。虽然图的结构更加复杂，但却将“不可直接使用”的信息，转化成为了“可直接使用”的信息，算法效率的提高，自然在情理之中。。
二、不记录“无用”信息。
从问题一中我们看到，由于图结构的信息量大，所以其中的信息基本上都是“可用”的。但是，这并不表示我们就一定要使用图的结构。在某些情况下，图结构中的“可用”信息，是有些多余的。
信息都“可用”自然是好事，但倘若其中“无用”（不需要）的信息太多，就只会增加我们思考分析和处理问题时的复杂程度，反而不利于我们解决问题了。
〖问题二〗湖南省1997年组队赛的《乘船问题》
〖问题描述〗
有N个人需要乘船，而每船最多只能载两人，且必须同名或同姓。求最少需要多少条船。
〖问题分析〗
看到这道题，很多人都会想到图的数据结构：将N个人看作无向图的N个点，凡同名或同姓的人之间都连上边。
要满足用船最少的条件，就是需要尽量多的两人共乘一条船，表现在图中就是要用最少的边完成对所有顶点的覆盖。这就正好对应了图论的典型问题：求最小边的覆盖。所用的算法为“求任意图最大匹配”的算法。
使用“求任意图最大匹配”的算法比较复杂(要用到扩展交错树，对花的收缩等等)，效率也不是很高。因此，我们必须寻找一个更简单高效的方法。
首先，由于图中任两个连通分量都是相对独立的，也就是说任一条匹配边的两顶点，都只属于同一个连通分量。因此，我们可以对每个连通分量分别进行处理，而不会影响最终的结果。
同时，我们还可以对需要船只s的下限进行估计：
对于一个包含Pi个顶点的连通分量，其最小覆盖边数显然为[Pi/2]。若图中共有L个连通分量，则s=∑[Pi/2](1<=i<=L)。
然后，我们通过多次尝试，可得出一个猜想：
实际需要的覆盖边数完全等于我们求出的下限∑[Pi/2](1<=i<=L)。
要用图的结构对上述猜想进行证明，可参照以下两步进行：
1．连通分量中若不存在度为1的点，就必然存在回路。
2．从图中删去度为1的点及其相邻的点，或删去回路中的任何一边，连通分量依然连通，即连通分量必然存在非桥边。
由于图的方法不是这里的重点，所以具体证明不做详述。而由采用图的数据结构得出的算法为：每次输出一条非桥的边，并从图中将边的两顶点删去。此算法的时间复杂度为O(n3)。（寻找一条非桥边的复杂度为O(n2)，寻找覆盖边操作的复杂度为O(n)）
由于受到图结构的限制，时间复杂度已经无法降低，所以如果我们要继续对算法进行优化，只有考虑使用另一种逻辑结构。这里，我想到了使用二叉树的结构，具体说就是将图中的连通分量都转化为二叉树，用二叉树来解决问题。
首先，我们以连通分量中任一个顶点作为树根，然后我们来确定建树的方法。
1．找出与根结点i同姓的点j（j不在二叉树中）作为i的左儿子，再以j为树根建立子树。
2．找出与根结点i同名的点k（k不在二叉树中）作为i的右儿子，再以k为树根建立子树。
如图2-1-1中的连通分量，我们通过上面的建树方法，可以使其成为图2-1-2中的二叉树的结构(以结点1为根)。（两点间用实线表示同姓，虚线表示同名）

图2-1-2

图2-1-1
接着，我就来证明这棵树一定包含了连通分量中的所有顶点。
【引理2.1】
若二叉树T中包含了某个结点p，那么连通分量中所有与p同姓的点一定都在T中。
证明：
为了论证的方便，我们约定：s表示与p同姓的顶点集合；lc[p,0]表示结点p，lc[p,i](i>0)表示lc[p,i-1]的左儿子，显然lc[p,i]与p是同姓的。
假设存在某个点q，满足qs且qT。由于s是有限集合，因而必然存在某个lc[p,k]无左儿子。则我们可以令lc[p,k+1]=q，所以qT，与假设qT相矛盾。
所以假设不成立，原命题得证。

由引理2.1的证明方法，我们同理可证引理2.2。
【引理2.2】
若二叉树T中包含了某个结点p，那么连通分量中所有与p同名的点一定都在T中。

有了上面的两个引理，我们就不难得出下面的定理了。
【定理一】
以连通分量中的任一点p作为根结点的二叉树，必然能够包含连通分量中的所有顶点。
证明：
由引理2.1和引理2.2，所有与p同姓或同名的点都一定在二叉树中，即连通分量中所有与p有边相连的点都在二叉树中。由连通分量中任两点间都存在路径的特性，该连通分量中的所有点都在二叉树中。

在证明二叉树中包含了连通分量的所有顶点后，我们接着就需要证明我们的猜想，也就是下面的定理：
【定理二】包含m个结点的二叉树Tm，只需要船的数量为boat[m]=[m/2](mN)。
证明：
(i) 当m=1,m=2,m=3时命题显然成立。

图2-2-1

图2-2-2

图2-2-3
(ii) 假设当m<k(k>3)时命题成立，那么当m=k时，我们首先从树中找到一个层次最深的结点，并假设这个结点的父亲为p。那么，此时有且只有以下三种情况（结点中带有阴影的是p结点）：
(1) 如图2-2-1，p只有一个儿子。此时删去p和p唯一的儿子，Tk就成为了Tk-2，则boat[k]=boat[k-2]+1=[(k-2)/2]+1=[k/2]。
(2) 如图2-2-2，p有两个儿子，并且p是其父亲的左儿子。此时可删去p和p的右儿子，并可将p的左儿子放到p的位置上。同样地，Tk成为了Tk-2，boat[k]=boat[k-2]+1=[k/2]。
(3) 如图2-2-3，p有两个儿子，并且p是其父亲的右儿子。此时可删去p和p的左儿子，并可将p的右儿子放到p的位置上。情况与(2)十分相似，易得此时得boat[k]=boat[k-2]+1=[k/2]。
综合(1)、(2)、(3)，当m=k时，boat[k]=[k/2]。
最后，综合(i)、(ii)，对于一切mN，boat[m]=[m/2]。

由上述证明，我们将问题中数据的图结构转化为树结构后，可以得出求一棵二叉树的乘船方案的算法：
proc try(father:integer;var root:integer;var rest:byte);
{输出root为树根的子树的乘船方案，father=0表示root是其父亲的左儿子，
father=1表示root是其父亲的右儿子，rest表示输出子树的乘船方案后，
是否还剩下一个根结点未乘船}
begin
visit[root]:=true; {标记root已访问}
找到一个与root同姓且未访问的结点j;
if j<>n+1 then try(0,j,lrest);
找到一个与root同姓且未访问的结点k;
if k<>n+1 then try(1,k,rrest);
if (lrest=1) xor (rrest=1) then begin {判断root是否只有一个儿子，情况一}
if lrest=1 then print(lrest,root) else print(rrest,root);
rest:=0;
end
else if (lrest=1) and (rrest=1) then begin {判断root是否有两个儿子}
if father=0 then begin
print(rrest,root);root:=j; {情况二}
end
else begin
print(lrest,root);root:=k; {情况三}
end;
rest:=1;
end
else rest:=1;
end;

这只是输出一棵二叉树的乘船方案的算法，要输出所有人的乘船方案，我们还需再加一层循环，用于寻找各棵二叉树的根结点，但由于每个点都只会访问一次，寻找其左右儿子各需进行一次循环，所以算法的时间复杂度为O(n2)。（附程序boat.pas）

最后，我们对两种结构得出不同时间复杂度算法的原因进行分析。其中最关键的一点就是因为二叉树虽然结构相对较简单，但已经包含了几乎全部都“有用”的信息。由我们寻找乘船方案的算法可知，二叉树中的所有边不仅都发挥了作用，而且没有重复的使用，可见信息的利用率也是相当之高的。
既然采用树结构已经足够，图结构中的一些信息就显然就成为了“无用”的信息。这些多余的“无用”信息，使我们在分析问题时难于发现规律，也很难找到高效的算法进行解决。这正如迷宫中的墙一样，越多越难走。“无用”的信息，只会干扰问题的规律性，使我们更难找出解决问题的方法。

小结
我们对数据的逻辑结构进行选择，是构造数学模型一大关键，而算法又是用来解决数学模型的。要使算法效率高，首先必须选好数据的逻辑结构。上面已经提出了选择逻辑结构的两个条件（思考方向），总之目的是提高信息的利用效果。利用“可直接使用”的信息，由于中间不需其它操作，利用的效率自然很高；不不记录“无用”的信息，就会使我们更加专心地研究分析“有用”的信息，对信息的使用也必然会更加优化。
总之，在解决问题的过程中，选择合理的逻辑结构是相当重要的环
三、选择合理的存储结构
数据的存储结构，分为顺序存储结构和链式存储结构。顺序存储结构的特点是借助元素在存储器中的相对位置来表示数据元素之间的逻辑关系；链式存储结构则是借助指示元素存储地址的指针表示数据元素之间的逻辑关系。
因为两种存储结构的不同，导致这两种存储结构在具体使用时也分别存在着优点和缺点。
这里有一个较简单的例子：我们需要记录一个n×n的矩阵，矩阵中包含的非0元素为m个。
此时，我们若采用顺序存储结构，就会使用一个n×n的二维数组，将所有数据元素全部记录下来；若采用链式存储结构，则需要使用一个包含m个结点的链表，记录所有非0的m个数据元素。由这样两种不同的记录方式，我们可以通过对数据的不同操作来分析它们的优点和缺点。
1．随机访问矩阵中任意元素。由于顺序结构在物理位置上是相邻的，所以可以很容易地获得任意元素的存储地址，其复杂度为O(1)；对于链式结构，由于不具备物理位置相邻的特点，所以首先必须对整个链表进行一次遍历，寻找需进行访问的元素的存储地址，其复杂度为O(m)。此时使用顺序结构显然效率更高。
2．对所有数据进行遍历。两种存储结构对于这种操作的复杂度是显而易见的，顺序结构的复杂度为O(n2)，链式结构为O(m)。由于在一般情况下m要远小于n2，所以此时链式结构的效率要高上许多。
除上述两种操作外，对于其它的操作，这两种结构都不存在很明显的优点和缺点，如对链表进行删除或插入操作，在顺序结构中可表示为改变相应位置的数据元素。
既然两种存储结构对于不同的操作，其效率存在较大的差异，那么我们在确定存储结构时，必须仔细分析算法中操作的需要，合理地选择一种能够“扬长避短”的存储结构。

一、合理采用顺序存储结构。
我们在平常做题时，大多都是使用顺序存储结构对数据进行存储。究其原因，一方面是出于顺序结构操作方便的考虑，另一方面是在程序实现的过程中，使用顺序结构相对于链式结构更便于对程序进行调试和查找错误。因此，大多数人习惯上认为，能够使用顺序结构进行存储的问题，最“好”采用顺序存储结构。
其实，这个所谓的“好”只是一个相对的标准，是建立在以下两个前提条件之下的：
1．链式结构存储的结点与顺序结构存储的结点数目相差不大。这种情况下，由于存储的结点数目比较接近，使用链式结构完全不能体现出记录结点少的优点，并且可能会由于指针操作较慢而降低算法的效率。更有甚者，由于指针自身占用的空间较大，且结点数目较多，因而算法对空间的要求可能根本无法得到满足。
2．并非算法效率的瓶颈所在。由于不是算法最费时间的地方，这里是否进行改进，显然是不会对整个算法构成太大影响的，若使用链式结构反而会显得操作过于繁琐。

二、必要时采用链式存储结构。
上面我对使用顺序存储结构的条件进行了分析，最后就只剩下何时应该采用链式存储结构的问题了。
由于链式结构中指针操作确实较繁琐，并且速度也较慢，调试也不方便，因而大家一般都不太愿意用链式的存储结构。但是，这只是一般的观点，当链式结构确实对算法有很大改进时，我们还是不得不进行考虑的。
〖问题三〗 IOI99的《地下城市》。
〖问题描述〗
已知一个城市的地图，但未给出你的初始位置。你需要通过一系列的移动和探索，以确定初始时所在的位置。题目的限制是：
1．不能移动到有墙的方格。
2．只能探索当前所在位置四个方向上的相邻方格。
在这两个限制条件下，要求我们的探索次数（不包括移动）尽可能的少。
〖问题分析〗
由于存储结构要由算法的需要确定，因此我们首先来确定问题的算法。
经过对问题的分析，我们得出解题的基本思想：先假设所有无墙的方格都可能是初始位置，再通过探索一步步地缩小初始位置的范围，最终得到真正的初始位置。同时，为提高算法效率，我们还用到了分治的思想，使我们每一次探索都尽量多的缩小初始位置的范围(使程序尽量减少对运气的依赖)。
接着，我们来确定此题的存储结构。
由于这道题的地图是一个二维的矩阵，所以一般来讲，采用顺序存储结构理所当然。但是，顺序存储结构在这道题中暴露了很大的缺点。我们所进行的最多的操作，一是对初始位置的范围进行筛选，二是判断要选择哪个位置进行探索。而这两种操作，所需要用到的数据，只是庞大地图中很少的一部分。如果采用顺序存储结构(如图3-1中阴影部分表示已标记)，无论你需要用到多少数据，始终都要完全的遍历整个地图。

4
3
2
1
1 2 3 4
图3-1

head

图3-2
然而，如果我们采用的是链式存储结构(如图3-2的链表)，那么我们需要多少数据，就只会遍历多少数据，这样不仅充分发挥了链式存储结构的优点，而且由于不需单独对某一个数据进行提取，每次都是对所有数据进行判断，从而避免了链式结构的最大缺点。
我们使用链式存储结构，虽然没有降低问题的时间复杂度(链式存储结构在最坏情况下的存储量与顺序存储结构的存储量几乎相同)，但由于体现了前文所述选择存储结构时扬长避短的原则，因而算法的效率也大为提高。（程序对不同数据的运行时间见表3-3）
测试数据编号使用顺序存储结构的程序使用链式存储结构的程序
1 0.06s 0.02s
2 1.73s 0.07s
3 1.14s 0.06s
4 3.86s 0.14s
5 32.84s 0.21s
6 141.16s 0.23s
7 0.91s 0.12s
8 6.92s 0.29s
9 6.10s 0.23s
10 17.41s 0.20s

表3-3
（附使用链式存储结构的程序under.pas）
我们选择链式的存储结构，虽然操作上可能稍复杂一些，但由于改进了算法的瓶颈，算法的效率自然也今非昔比。由此可见，必要时选择链式结构这一方法，其效果是不容忽视的。
小结
合理选择逻辑结构，由于牵涉建立数学模型的问题，可能大家都会比较注意。但是对存储结构的选择，由于不会对算法复杂度构成影响，所以比较容易忽视。那么，这种不能降低算法复杂度的方法是否需要重视呢？
大家都知道，剪枝作为一种常用的优化算法的方法，被广泛地使用，但剪枝同样是无法改变算法的复杂度的。因此，作用与剪枝相似的存储结构的合理选择，也是同样很值得重视的。
总之，我们在设计算法的过程中，必须充分考虑存储结构所带来的不同影响，选择最合理的存储结构。

四、多种数据结构相结合

上文所探讨的，都是如何对数据结构进行选择，其中包含了逻辑结构的选择和存储结构的选择，是一种具有较大普遍性的算法优化方法。对于多数的问题，我们都可以通过选择一种合理的逻辑结构和存储结构以达到优化算法的目的。
但是，有些问题却往往不如人愿，要对这类问题的数据结构进行选择，常常会顾此失彼，有时甚至根本就不存在某一种合适的数据结构。此时，我们是无法选择出某一种合适的数据结构的，以上的方法就有些不太适用了。
为解决数据结构难以选择的问题，我们可以采用将多种数据结构进行结合的方法。通过多种数据结构相结合，达到取长补短的作用，使不同的数据结构在算法中发挥出各自的优势。
这只是我们将多种数据结构进行结合的总思想，具体如何进行结合，我们可以先看下面的例子。
我们可以采用映射的方法，将线性结构中的元素与堆中间的结点一一对应起来，若线性的数组中的元素发生变化，堆中相应的结点也接着变化，堆中的结点发生变化，数组中相应的元素也跟着变化。
将两种结构进行结合后，无论是第一步还是第二步，我们都不需对所有元素进行遍历，只需进行常数次复杂度为O(log2n)的堆化操作。这样，整个时间复杂度就成为了O(nlog2n)，算法效率无疑得到了很大提高。

五、总结
我们平常使用数据结构，往往只将其作为建立模型和算法实现的工具，而没有考虑这种工具对程序效率所产生的影响。信息学问题随着难度的不断增大，对算法时空效率的要求也越来越高，而算法的时空效率，在很大程度上都受到了数据结构的制约。

㈨ SEO百度排名最近都推出哪些算法

影响网络SEO自然排名算法的因素有特别多，像点击率访问率，访问深度以及关键词布局等一系列因素都会影响网络 SEO自然排名，那么有哪些方法可以优化排名呢？下面就来介绍一些优化SEO排名的技巧。
一、首先要明确有哪些关键词
通常情况下需要查看关键词的PC指数，一般来说，PC指数越高，优化的难度越大。所以首先要明确想要刷的一些关键词，然后直接网络，紧接着在里面输入需要进行优化的官网网址，然后就可以查看一系列需要的信息，当然也包括网站里面一些关键词的相关的指数，从而根据关键词的指数来进行准备和调整优化方案。
二、计算出每个关键词指数对应的日均流量
举个例子来说，如果你的关键词指数是100，如果对应的需要的流量为10%到20%，那么计算下来的日均流量就在10到20个IP。
三、寻找更多的人来帮助自己提升排名
这个方法说白了也就类似于网站的推广，当网站的推广达到了一定的程度，来自全国各地的不同IP的人来搜索你的关键词并且进入网站，这样网站的访问量就会大大提升，排名也会因为访问量的增多而升高。
四、提高访问深度和停留时间
有的人可能认为访问量多就能够有更好的SEO排名，但是事实上并不是这样子的。一般来说，访问深度和层次越深越好，也就是说，每个网页浏览的时间不能够低于五分钟，并且可以在网页浏览的时候进行深层次的网页浏览，也就是说，可以点进去网页内部的一些链接，这样才能够大大的提升网页排名。因此在设计网页内容的时候一定要有独到之处，首先是关键词一点能够吸引人，能够对人们产生一种主导作用，其次网页的设置和排版也要有一定的新颖之处，这样才能够让人没有读下去的兴趣。
五、采用先易后难的优化模式
在关键词SEO排名优化的过程中，最好从指数比较低的关键词开始优化，因为指数低的优化起来比较容易，这样就会比较节省时间，指数高的关键词，如果流量不稳定，其实很快刷上去了，他也会很快掉下来。因此保险起见最好从指数低的关键词开始进行优化。
六、定时更新内容
说来说去一个网站最吸引人的地方应该就是她的内容了，所以坚持每天稳定的增加几个链接，或者说更新一下原创内容，当然，关键词这些基础是指也要做好，所以说流量虽然是比较重要的，但是一定要保持内容的原创和优质性，这样才能够吸引更多的读者，从而增加流量。
当然除了上面介绍的这些SEO排名优化技巧之外，还有一个最大的技巧，就是贵在坚持。很多人觉得这是一个比较繁琐的工作，可能做了几天就没有兴趣了，甚至觉得见效比较慢，所以逐渐的打退堂鼓。但是任何事情都需要一个循序渐进的过程，只要坚持做，相信就一定会有更好的效果。

导航:首页 > 源码编译 > 优化算法系列

优化算法系列

与优化算法系列相关的资料