mapem算法_智能算法有哪些

㈠人工智能是学习什么

1、学习并掌握一些数学知识

高等数学是基础中的基础，一切理工科都需要这个打底，数据挖掘、人工智能、模式识别此类跟数据打交道的又尤其需要多元微积分运算基础。

线性代数很重要，一般来说线性模型是你最先要考虑的模型，加上很可能要处理多维数据，你需要用线性代数来简洁清晰的描述问题，为分析求解奠定基础。

概率论、数理统计、随机过程更是少不了，涉及数据的问题，不确定性几乎是不可避免的，引入随机变量顺理成章，相关理论、方法、模型非常丰富。很多机器学习的算法都是建立在概率论和统计学的基础上的，比如贝叶斯分类器、高斯隐马尔可夫链。

再就是优化理论与算法，除非你的问题是像二元一次方程求根那样有现成的公式，否则你将不得不面对各种看起来无解但是要解的问题，优化将是你的GPS为你指路。

以上这些知识打底，就可以开拔了，针对具体应用再补充相关的知识与理论，比如说一些我觉得有帮助的是数值计算、图论、拓扑，更理论一点的还有实/复分析、测度论，偏工程类一点的还有信号处理、数据结构。

2、掌握经典机器学习理论和算法

如果有时间可以为自己建立一个机器学习的知识图谱，并争取掌握每一个经典的机器学习理论和算法，我简单地总结如下：

1) 回归算法：常见的回归算法包括最小二乘法（OrdinaryLeast Square），逻辑回归（Logistic Regression），逐步式回归（Stepwise Regression），多元自适应回归样条（MultivariateAdaptive Regression Splines）以及本地散点平滑估计（Locally Estimated Scatterplot Smoothing）；

2) 基于实例的算法：常见的算法包括 k-Nearest Neighbor(KNN), 学习矢量量化（Learning Vector Quantization， LVQ），以及自组织映射算法（Self-Organizing Map ， SOM）；

3) 基于正则化方法：常见的算法包括：Ridge Regression， Least Absolute Shrinkage and Selection Operator（LASSO），以及弹性网络（Elastic Net）；

4) 决策树学习：常见的算法包括：分类及回归树（ClassificationAnd Regression Tree， CART）， ID3 (Iterative Dichotomiser 3)， C4.5， Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 随机森林（Random Forest），多元自适应回归样条（MARS）以及梯度推进机（Gradient Boosting Machine， GBM）；

5) 基于贝叶斯方法：常见算法包括：朴素贝叶斯算法，平均单依赖估计（AveragedOne-Dependence Estimators， AODE），以及Bayesian Belief Network（BBN）；

6) 基于核的算法：常见的算法包括支持向量机（SupportVector Machine， SVM），径向基函数（Radial Basis Function ，RBF)，以及线性判别分析（Linear Discriminate Analysis ，LDA)等；

7) 聚类算法：常见的聚类算法包括 k-Means算法以及期望最大化算法（Expectation Maximization， EM）；

8) 基于关联规则学习：常见算法包括 Apriori算法和Eclat算法等；

9) 人工神经网络：重要的人工神经网络算法包括：感知器神经网络（PerceptronNeural Network）, 反向传递（Back Propagation）， Hopfield网络，自组织映射（Self-OrganizingMap, SOM）。学习矢量量化（Learning Vector Quantization， LVQ）；

10) 深度学习：常见的深度学习算法包括：受限波尔兹曼机（RestrictedBoltzmann Machine， RBN）， Deep Belief Networks（DBN），卷积网络（Convolutional Network）, 堆栈式自动编码器（Stacked Auto-encoders）；

11) 降低维度的算法：常见的算法包括主成份分析（PrincipleComponent Analysis， PCA），偏最小二乘回归（Partial Least Square Regression，PLS）， Sammon映射，多维尺度（Multi-Dimensional Scaling, MDS）, 投影追踪（ProjectionPursuit）等；

12) 集成算法：常见的算法包括：Boosting， Bootstrapped Aggregation（Bagging），AdaBoost，堆叠泛化（Stacked Generalization， Blending），梯度推进机（GradientBoosting Machine, GBM），随机森林（Random Forest）。

3、掌握一种编程工具，比如Python
一方面Python是脚本语言，简便，拿个记事本就能写，写完拿控制台就能跑；另外，Python非常高效，效率比java、r、matlab高。matlab虽然包也多，但是效率是这四个里面最低的。

4、了解行业最新动态和研究成果，比如各大牛的经典论文、博客、读书笔记、微博微信等媒体资讯。

5、买一个GPU，找一个开源框架，自己多动手训练深度神经网络，多动手写写代码，多做一些与人工智能相关的项目。

6、选择自己感兴趣或者工作相关的一个领域深入下去
人工智能有很多方向，比如NLP、语音识别、计算机视觉等等，生命有限，必须得选一个方向深入的钻研下去，这样才能成为人工智能领域的大牛，有所成就。

根据网络给的定义，人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的还能的理论、方法、技术及应用系统的一门新的技术科学。
网络关于人工智能的定义详解中说道：人工智能是计算机的一个分支，二十世纪七十年代以来被称为世界三大尖端技术之一（空间技术、能源技术、人工智能）。也被认为是二十一世纪三大尖端技术（基因工程、纳米科学、人工智能）之一。这是因为近三十年来它获得了迅速的发展，在很多学科领域都获得了广泛应用，并取得了丰硕的成果，人工智能已逐步成为一个独立的分支，无论在理论和实践上都已自成一个系统。
综上，从定义上讲，人工智能是一项技术。

㈡大数据都需要学什么

首先我们要了解Java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。

大数据

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据基础。

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapRece是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapRece、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapRece处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

㈢智能算法有哪些

（1）人工神经网络（Artificial Neural Network）类：反向传播（Backpropagation）、波尔兹曼机（Boltzmann Machine）、卷积神经网络（Convolutional Neural Network）、Hopfield网络（hopfield Network）、多层感知器（Multilyer Perceptron）、径向基函数网络（Radial Basis Function Network，RBFN）、受限波尔兹曼机（Restricted Boltzmann Machine）、回归神经网络（Recurrent Neural Network，RNN）、自组织映射（Self-organizing Map，SOM）、尖峰神经网络（Spiking Neural Network）等。
（2）贝叶斯类（Bayesin）：朴素贝叶斯（Naive Bayes）、高斯贝叶斯（Gaussian Naive Bayes）、多项朴素贝叶斯（Multinomial Naive Bayes）、平均-依赖性评估（Averaged One-Dependence Estimators，AODE）
贝叶斯信念网络（Bayesian Belief Network，BBN）、贝叶斯网络（Bayesian Network，BN）等。
（3）决策树（Decision Tree）类：分类和回归树（Classification and Regression Tree，CART）、迭代Dichotomiser3（Iterative Dichotomiser 3， ID3）,C4.5算法（C4.5 Algorithm）、C5.0算法（C5.0 Algorithm）、卡方自动交互检测（Chi-squared Automatic Interaction Detection，CHAID）、决策残端（Decision Stump）、ID3算法（ID3 Algorithm）、随机森林（Random Forest）、SLIQ（Supervised Learning in Quest）等。
（4）线性分类器（Linear Classifier）类：Fisher的线性判别（Fisher’s Linear Discriminant）
线性回归（Linear Regression）、逻辑回归（Logistic Regression）、多项逻辑回归（Multionmial Logistic Regression）、朴素贝叶斯分类器（Naive Bayes Classifier）、感知（Perception）、支持向量机（Support Vector Machine）等。
常见的无监督学习类算法包括：
（1）人工神经网络（Artificial Neural Network）类：生成对抗网络（Generative Adversarial Networks，GAN），前馈神经网络（Feedforward Neural Network）、逻辑学习机（Logic Learning Machine）、自组织映射（Self-organizing Map）等。
（2）关联规则学习（Association Rule Learning）类：先验算法（Apriori Algorithm）、Eclat算法（Eclat Algorithm）、FP-Growth算法等。
（3）分层聚类算法（Hierarchical Clustering）：单连锁聚类（Single-linkage Clustering），概念聚类（Conceptual Clustering）等。
（4）聚类分析（Cluster analysis）：BIRCH算法、DBSCAN算法，期望最大化（Expectation-maximization，EM）、模糊聚类（Fuzzy Clustering）、K-means算法、K均值聚类（K-means Clustering）、K-medians聚类、均值漂移算法（Mean-shift）、OPTICS算法等。

㈣做文本挖掘是否需要了解自然语言处理

当然需要。
既然是“文本挖掘”，自然语言处理最基本的功能点肯定都要做：
新词发现、分词、词性标注、分类、自动提取标签、实体自动发现和识别。
最基本的这些功能点做了之后，可以用统计方法完成简单文本挖掘应用，统计方法比如：
TF/IDF、Map/Rece、贝叶斯。
再深入一些，就需要：
聚类（层次聚类、SVM、VSM）、情感趋势分析。
再想提高：
语法分析、句式判断。
但一般做到NLP最基本功能点+统计方法即可搞定一般的互联网应用。

㈤最大似然估计单调增怎么办

极大似然估计与最大似然估计原创
2012-04-10 09:04:52

deepfuture

码龄11年

关注
1、极大似然估计是一种目前仍然得到广泛应用的方法。它是建立在极大似然原理的基础上的一个统计方法，极大似然原理的直观想法是：一个随机试验如有若干个可能的结果A，B，C，…。若在一次试验中，结果A出现，则一般认为试验条件对A出现有利，也即A出现的概率很大。

可以这么理解，在多次试验中，试验条件X使众多试验结果的A结果发生的概率很大，我们计算这个试验条件的相关参数。你还可以更广泛地理解，在X发生的前提下，A发生的概率很大，我们知道A发生的概率，需要求出X发生的相关参数

极大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

2、求极大似然函数估计值的一般步骤：

（1）写出似然函数；

（2）对似然函数取对数，并整理；

（3）求导数；

（4）解似然方程

极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。

当然极大似然估计只是一种粗略的数学期望，要知道它的误差大小还要做区间估计。

3、

最大似然估计法的基本思想
最大似然估计法的思想很简单：在已经得到试验结果的情况下，我们应该寻找使这个结果出现的可能性最大的那个作为真的估计。
我们分两种情进行分析：
1．离散型总体
设为离散型随机变量，其概率分布的形式为，则样本的概率分布为，在固定时，上式表示取值的概率；当固定时，它是的函数，我们把它记为并称为似然函数。似然函数的值的大小意味着该样本值出现的可能性的大小。既然已经得到了样本值，那它出现的可能性应该是大的，即似然函数的值应该是大的。因而我们选择使达到最大值的那个作为真的估计。

㈥未来24个月，机器学习领域将可能有哪些重大突破

近日，卡内基梅隆大学（CMU）计算机学院院长Andrew W. Moore和副院长Philip L. Lehman来到微软亚洲研究院，与研究员们分享了过去两年中人工智能领域的一些技术突破，并从业界和学界两个角度，探讨了他们对于人工智能接下来发展方向的看法。

今天，我们就在这里与大家分享此次演讲~以下为Andrew W. Moore演讲的精简版文字整理。

2005到2015年间，我们见证了数据科学在学术界和商业界的发展，学会了如何正确地使用分布式计算、GPU，如何很快的建立抽象模型等等。仿佛AI完全转化成了机器学习，每个人都在处理数据、基于数据为复杂的世界建模……

大约2014年，许多人开始意识到这些工作还远远不够，它们仅能实现改变世界蓝图的一半，而另一半则是被我们视为数据科学最顶层的决策系统。上世纪90年代，我们对所建立的系统都十分乐观。但渐渐地，我们发现，这些系统在应用到实际生活中时并没有效果，比如在优化城市交通数据时，一个完美的优化算法并没有帮助，因为那时我们没有任何关于城市交通的数据。所以现在，我们严肃认真地考虑重新回到基于数据科学的大规模优化和决策上。

而在大学里，我们会思考更多的可能性。有些教授认为自主性（autonomy）是最重要的，是AI的真正目标，对此观点我们十分尊重。它在很多方面，比如深空探索或需要快速决策的情况下，都将有重要的应用。当然，自主性不是AI最终唯一的目标。它还包括其他方面，例如增强人类（augmented humans）等等，在我看来这和微软的核心任务，如何更好地帮助人类工作、生活，有着很大的重合度。我们需要帮助人类更好地工作、生活，同时也需要自主性。

在数据科学方面，我们需要关注三个部分。首先是人工智能的基础建设，包括大型优化策略，它需要我们擅长大规模线性规划问题和随机梯度下降等问题。其次，是自主性（autonomy），最后是增强人类（augmented humans）。

Andrew W. Moore是卡内基梅隆大学（CMU）计算机学院的第十五位院长。他的研究领域主要有统计机器学习、人工智能、机器人技术以及大数据统计计算。他曾在机器人控制、制造、强化学习、天体物理算法、电子商务领域都有所建树。他的数据挖掘教程下载量已达100多万。他建立了Auton Lab研究组，该研究组设计了有效的关于大型统计操作的新方法，并在多种情况下都实现了几个数量级的加速效果。Auton研究组的成员与许多科学家、政府机构、技术公司都有着密切的合作，旨在不断寻求在计算、统计数据挖掘、机器学习和人工智能领域中最函待解决的问题。2006年，Andrew加入谷歌，参与Google Pittsburgh的建立。同时，他也参与了包括Google Sky和Android SkyMap的相关事宜。2014年8月，Andrew重返卡内基梅隆大学（CMU），继续担任计算机学院院长。

㈦怎么用机器学习模型做时间序列预测

SVM理论是在统计学习理论的基础上发展起来的,由于统计学习理论和SVM方法对有限样本情况下模式识别中的一些根本性的问题进行了系统的理论研究,很大程度上解决了以往的机器学习中模型的选择与过学习问题、非线性和维数灾难、局部极小点问题等。应用SVM进行回归预测的步骤具体如下:
1)实验规模的选取,决定训练集的数量、测试集的数量,以及两者的比例;2)预测参数的选取;3)对实验数据进行规范化处理;4)核函数的确定;5)核函数参数的确定。其中参数的选择对SVM的性能来说是十分重要的,对于本文的核函数使用RBF核函数,对于RBF核函数,SVM参数包括折衷参数C、核宽度C和不敏感参数E。目前SVM方法的参数、核函数的参数选择,在国际上都还没有形成统一的模式,也就是说最优SVM算法参数选择还只能是凭借经验、实验对比、大范围的搜寻和交叉检验等进行寻优。实际应用中经常为了方便,主观设定一个较小的正数作为E的取值,本文首先在C和C的一定范围内取多个值来训练,定下各个参数取值的大概范围,然后利用留一法来具体选定参数值
股价时间序列的SVM模型最高阶确定
股价数据是一个时间序列,从时间序列的特征分析得知,股价具有时滞、后效性,当天的股价不仅还与当天各种特征有关,还与前几天的股价及特征相关,所以有必要把前几天的股价和特征作为自变量来考虑。最高阶确定基本原理是从低阶开始对系统建模,然后逐步增加模型的阶数,并用F检验对这些模型进行判别来确定最高阶n,这样才能更客观反映股票价格的时滞特性。具体操作步骤如下:假定一多输入单输出回归模型有N个样本、一个因变量(股价)、m- 1个自变量(特征),由低阶到高阶递推地采用SVM模型去拟合系统(这儿的拓阶就是把昨天股价当做自变量,对特征同时拓阶),并依次对相邻两个SVM模型采用F检验的方法判断模型阶次增加是否合适[ 7]。对相邻两模型SVM ( n)和SVM ( n+ 1)而言,有统计量Fi为:Fi=QSVR (n)- QSVR( n+1)QSVR (n)1N - m n - (m -1)mi =1,2,,, n(1)它服从自由度分别为m和(N - m n - (m -1) )的F分布,其中QSVR (n)和QSVR( n+1)分别为SVR ( n)和QSVR( n+1)的剩余离差平方和,若Fi< F(?,m, N-m n- (m-1) ),则SVM (n )模型是合适的;反之,继续拓展阶数。
前向浮动特征筛选
经过上述模型最高阶数的确定后,虽然确定了阶数为n的SVM模型,即n个特征,但其中某些特征对模型的预测精度有不利影响,本文采用基于SVM和留一法的前向浮动特征特征筛选算法选择对提高预测精度有利影响的特征。令B= {xj: j=1,2,,, k}表示特征全集, Am表示由B中的m个特征组成的特征子集,评价函数MSE (Am)和MSE (Ai) i =1,2,,, m -1的值都已知。本文采用的前向浮动特征筛选算法如下[9]:1)设置m =0, A0为空集,利用前向特征筛选方法寻找两个特征组成特征子集Am(m =2);2)使用前向特征筛选方法从未选择的特征子集(B -Am)中选择特征xm +1,得到子集Am+1;3)如果迭代次数达到预设值则退出,否则执行4);4)选择特征子集Am+1中最不重要的特征。如果xm+1是最不重要的特征即对任意jXm +1, J (Am +1- xm+1)FJ(Am +1- xj)成立,那么令m = m +1,返回2) (由于xm+1是最不重要的特征,所以无需从Am中排除原有的特征);如果最不重要的特征是xr( r =1,2,,, m )且MSE (Am+1- xr) < MSE (Am)成立,排除xr,令A'm= Am+1- xr;如果m =2,设置Am= A'm,J (Am) = J (A'm), ,返回2),否则转向步骤5);5)在特征子集A'm中寻找最不重要的特征xs,如果MSE (A'm- xs)EM SE (Am-1),那么设置Am= A'm, MSE (Am)= MSE (A'm),返回2);如果M SE (A'm- xs) < M SE (Am -1),那么A'm从中排除xs,得到A'm-1= Am- xs,令m = m -1;如果m =2,设置Am= A'm, MSE (Am) = MSE (A'm)返回2),否则转向5)。最后选择的特征用于后续建模预测。
预测评价指标及参比模型
训练结果评估阶段是对训练得出的模型推广能力进行验证,所谓推广能力是指经训练后的模型对未在训练集中出现的样本做出正确反应的能力。为了评价本文模型的优劣,选择BPANN、多变量自回归时间序列模型( CAR)和没有进行拓阶和特征筛选的SVM作为参比模型。采用均方误差(mean squared error, MSE)和平均绝对误差百分率(mean ab-solute percentage error, MAPE)作为评价指标。MSE和MAP定义如下:M SE=E(yi- y^i)2n( 2)MAPE=E| yi- y^i| /yin( 3)其中yi为真值, y^i为预测值, n为预测样本数。如果得出M SE, MAPE结果较小,则说明该评估模型的推广能力强,或泛化能力强,否则就说明其推广能力较差

㈧是的计算机算法

计算机算法是以一步接一步的方式来详细描述计算机如何将输入转化为所要求的输出的过程，或者说，算法是对计算机上执行的计算过程的具体描述。
编辑本段算法性质一个算法必须具备以下性质：（1）算法首先必须是正确的，即对于任意的一组输入，包括合理的输入与不合理的输入，总能得到预期的输出。如果一个算法只是对合理的输入才能得到预期的输出，而在异常情况下却无法预料输出的结果，那么它就不是正确的。（2）算法必须是由一系列具体步骤组成的，并且每一步都能够被计算机所理解和执行，而不是抽象和模糊的概念。（3）每个步骤都有确定的执行顺序，即上一步在哪里，下一步是什么，都必须明确，无二义性。（4）无论算法有多么复杂，都必须在有限步之后结束并终止运行，即算法的步骤必须是有限的。在任何情况下，算法都不能陷入无限循环中。一个问题的解决方案可以有多种表达方式，但只有满足以上4个条件的解才能称之为算法。编辑本段重要算法A*搜寻算法
俗称A星算法。这是一种在图形平面上，有多个节点的路径，求出最低通过成本的算法。常用于游戏中的NPC的移动计算，或线上游戏的BOT的移动计算上。该算法像Dijkstra算法一样，可以找到一条最短路径；也像BFS一样，进行启发式的搜索。
Beam Search
束搜索(beam search)方法是解决优化问题的一种启发式方法，它是在分枝定界方法基础上发展起来的，它使用启发式方法估计k个最好的路径，仅从这k个路径出发向下搜索，即每一层只有满意的结点会被保留，其它的结点则被永久抛弃，从而比分枝定界法能大大节省运行时间。束搜索于20 世纪70年代中期首先被应用于人工智能领域,1976 年Lowerre在其称为HARPY的语音识别系统中第一次使用了束搜索方法，他的目标是并行地搜索几个潜在的最优决策路径以减少回溯，并快速地获得一个解。
二分取中查找算法
一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始，如果中间元素正好是要查找的元素，则搜素过程结束；如果某一特定元素大于或者小于中间元素，则在数组大于或小于中间元素的那一半中查找，而且跟开始一样从中间元素开始比较。这种搜索算法每一次比较都使搜索范围缩小一半。
Branch and bound
分支定界(branch and bound)算法是一种在问题的解空间树上搜索问题的解的方法。但与回溯算法不同，分支定界算法采用广度优先或最小耗费优先的方法搜索解空间树，并且，在分支定界算法中，每一个活结点只有一次机会成为扩展结点。
数据压缩
数据压缩是通过减少计算机中所存储数据或者通信传播中数据的冗余度，达到增大数据密度，最终使数据的存储空间减少的技术。数据压缩在文件存储和分布式系统领域有着十分广泛的应用。数据压缩也代表着尺寸媒介容量的增大和网络带宽的扩展。
Diffie–Hellman密钥协商
Diffie–Hellman key exchange，简称“D–H”，是一种安全协议。它可以让双方在完全没有对方任何预先信息的条件下通过不安全信道建立起一个密钥。这个密钥可以在后续的通讯中作为对称密钥来加密通讯内容。
Dijkstra’s 算法
迪科斯彻算法（Dijkstra）是由荷兰计算机科学家艾兹格·迪科斯彻（Edsger Wybe Dijkstra）发明的。算法解决的是有向图中单个源点到其他顶点的最短路径问题。举例来说，如果图中的顶点表示城市，而边上的权重表示着城市间开车行经的距离，迪科斯彻算法可以用来找到两个城市之间的最短路径。
动态规划
动态规划是一种在数学和计算机科学中使用的，用于求解包含重叠子问题的最优化问题的方法。其基本思想是，将原问题分解为相似的子问题，在求解的过程中通过子问题的解求出原问题的解。动态规划的思想是多种算法的基础，被广泛应用于计算机科学和工程领域。比较着名的应用实例有：求解最短路径问题，背包问题，项目管理，网络流优化等。这里也有一篇文章说得比较详细。
欧几里得算法
在数学中，辗转相除法，又称欧几里得算法，是求最大公约数的算法。辗转相除法首次出现于欧几里得的《几何原本》（第VII卷，命题i和ii）中，而在中国则可以追溯至东汉出现的《九章算术》。
最大期望（EM）算法
在统计计算中，最大期望（EM）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。最大期望经常用在机器学习和计算机视觉的数据聚类（Data Clustering）领域。最大期望算法经过两个步骤交替进行计算，第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值；第二步是最大化（M），最大化在 E 步上求得的最大似然值来计算参数的值。M 步上找到的参数估计值被用于下一个 E 步计算中，这个过程不断交替进行。
快速傅里叶变换(FFT)
快速傅里叶变换（Fast Fourier Transform，FFT），是离散傅里叶变换的快速算法，也可用于计算离散傅里叶变换的逆变换。快速傅里叶变换有广泛的应用，如数字信号处理、计算大整数乘法、求解偏微分方程等等。
哈希函数
HashFunction是一种从任何一种数据中创建小的数字“指纹”的方法。该函数将数据打乱混合，重新创建一个叫做散列值的指纹。散列值通常用来代表一个短的随机字母和数字组成的字符串。好的散列函数在输入域中很少出现散列冲突。在散列表和数据处理中，不抑制冲突来区别数据，会使得数据库记录更难找到。
堆排序
Heapsort是指利用堆积树（堆）这种数据结构所设计的一种排序算法。堆积树是一个近似完全二叉树的结构，并同时满足堆积属性：即子结点的键值或索引总是小于（或者大于）它的父结点。
归并排序
Merge sort是建立在归并操作上的一种有效的排序算法。该算法是采用分治法（Divide and Conquer）的一个非常典型的应用。
RANSAC 算法
RANSAC 是”RANdom SAmpleConsensus”的缩写。该算法是用于从一组观测数据中估计数学模型参数的迭代方法，由Fischler and Bolles在1981提出，它是一种非确定性算法，因为它只能以一定的概率得到合理的结果，随着迭代次数的增加，这种概率是增加的。该算法的基本假设是观测数据集中存在”inliers”（那些对模型参数估计起到支持作用的点）和”outliers”（不符合模型的点），并且这组观测数据受到噪声影响。RANSAC 假设给定一组”inliers”数据就能够得到最优的符合这组点的模型。
RSA加密算法
这是一个公钥加密算法，也是世界上第一个适合用来做签名的算法。今天的RSA已经专利失效，其被广泛地用于电子商务加密，大家都相信，只要密钥足够长，这个算法就会是安全的。
并查集Union-find
并查集是一种树型的数据结构，用于处理一些不相交集合（Disjoint Sets）的合并及查询问题。常常在使用中以森林来表示。
Viterbi algorithm
寻找最可能的隐藏状态序列(Finding most probable sequence of hidden states)。编辑本段算法特点1.有穷性。一个算法应包含有限的操作步骤，而不能是无限的。事实上“有穷性”往往指“在合理的范围之内”。如果让计算机执行一个历时1000年才结束的算法，这虽然是有穷的，但超过了合理的限度，人们不把他是为有效算法。 2. 确定性。算法中的每一个步骤都应当是确定的，而不应当是含糊的、模棱两可的。算法中的每一个步骤应当不致被解释成不同的含义，而应是十分明确的。也就是说，算法的含义应当是唯一的，而不应当产生“歧义性”。 3. 有零个或多个输入、所谓输入是指在执行算法是需要从外界取得必要的信息。 4. 有一个或多个输出。算法的目的是为了求解，没有输出的算法是没有意义的。 5.有效性。算法中的每一个步骤都应当能有效的执行。并得到确定的结果。编辑本段算法与程序虽然算法与计算机程序密切相关，但二者也存在区别：计算机程序是算法的一个实例，是将算法通过某种计算机语言表达出来的具体形式；同一个算法可以用任何一种计算机语言来表达。算法列表图论路径问题 0/1边权最短路径 BFS 非负边权最短路径（Dijkstra）可以用Dijkstra解决问题的特征负边权最短路径 Bellman-Ford Bellman-Ford的Yen-氏优化差分约束系统 Floyd 广义路径问题传递闭包极小极大距离 / 极大极小距离 Euler Path / Tour 圈套圈算法混合图的 Euler Path / Tour Hamilton Path / Tour 特殊图的Hamilton Path / Tour 构造生成树问题最小生成树第k小生成树最优比率生成树 0/1分数规划度限制生成树连通性问题强大的DFS算法无向图连通性割点割边二连通分支有向图连通性强连通分支 2-SAT 最小点基有向无环图拓扑排序有向无环图与动态规划的关系二分图匹配问题一般图问题与二分图问题的转换思路最大匹配有向图的最小路径覆盖 0 / 1矩阵的最小覆盖完备匹配最优匹配稳定婚姻网络流问题网络流模型的简单特征和与线性规划的关系最大流最小割定理最大流问题有上下界的最大流问题循环流最小费用最大流 / 最大费用最大流弦图的性质和判定组合数学解决组合数学问题时常用的思想逼近递推 / 动态规划概率问题 Polya定理计算几何 / 解析几何计算几何的核心：叉积 / 面积解析几何的主力：复数基本形点直线，线段多边形凸多边形 / 凸包凸包算法的引进，卷包裹法 Graham扫描法水平序的引进，共线凸包的补丁完美凸包算法相关判定两直线相交两线段相交点在任意多边形内的判定点在凸多边形内的判定经典问题最小外接圆近似O(n)的最小外接圆算法点集直径旋转卡壳，对踵点多边形的三角剖分数学 / 数论最大公约数 Euclid算法扩展的Euclid算法同余方程 / 二元一次不定方程同余方程组线性方程组高斯消元法解mod 2域上的线性方程组整系数方程组的精确解法矩阵行列式的计算利用矩阵乘法快速计算递推关系分数分数树连分数逼近数论计算求N的约数个数求phi(N) 求约数和快速数论变换 …… 素数问题概率判素算法概率因子分解数据结构组织结构二叉堆左偏树二项树胜者树跳跃表样式图标斜堆 reap 统计结构树状数组虚二叉树线段树矩形面积并圆形面积并关系结构 Hash表并查集路径压缩思想的应用 STL中的数据结构 vector deque set / map 动态规划 / 记忆化搜索动态规划和记忆化搜索在思考方式上的区别最长子序列系列问题最长不下降子序列最长公共子序列一类NP问题的动态规划解法树型动态规划背包问题动态规划的优化四边形不等式函数的凸凹性状态设计规划方向线性规划常用思想二分最小表示法串 KMP Trie结构后缀树/后缀数组 LCA/RMQ 有限状态自动机理论排序选择/冒泡快速排序堆排序归并排序基数排序拓扑排序排序网络
扩展阅读：
1
《计算机算法设计与分析导论》朱清新等编着人民邮电出版社
开放分类：
计算机，算法

㈨摘要翻译多谢多谢

Algae is protoctista category eukaryotes, for human life is an important contribution, but also the red algal such disasters, thus leading to the correct classification, algae, and has important significance to proceed. Content-based image retrieval technologies (CBIR) is a kind of image visual features, and establish image indexing and retrieval of characteristic similarity matching method of similar images. This paper aims to study in algae image characteristics, an image retrieval algorithm, a gallery of algae from retrieving of relevant pictures, to determine the accurate and fast auxiliary artificial algae category. Specific made below:
(1) on the analysis of the characteristics and the traditional image algae in the image segmentation method is not ideal algae, puts forward a new segmentation algorithm. The algorithm firstly to deal with the noise of image and extraction of color gradient, gradient map establish Gamma hybrid model, adopts EM algorithm of solving estimation of model parameters and gradient threshold after binary image, finally using gradient method of chain code tracking contour. Experiments show that the algorithm is simple, accurate and for further feature extraction.
(2) were analyzed, and the advantages and disadvantages of various characteristics in color histogram, determine the invariant moment, as the image Gabor commutation color, shape, texture feature. On the basis of image segmentation, extraction of various areas within the cell, make overall characteristic comparison of characteristics distinguish degrees greatly improved. After the completion of the feature extraction, this paper studies the characteristics and the organization methods, based on the characteristics of image features more than comprehensive index, and then analyzed all kinds of similarity measure, the primary retrieval strategy.
(3) for further eliminate layer between the high-level semantic features and the differences of characteristics, based on first, after introcing the retrieval based on SVM related feedback technology was proposed, and the SVM memory function and related feedback algorithm to solve a small sample, and samples are cases the problem of insufficient samples, While improved related feedback process, for example of using SVM is again using similarity criterion collection, further improve the calculation accuracy of retrieval.
(4) was established based on Matlab algorithm, and the experiment platform of algae each every 10 10 samples as image library search experiment, experiment shows that the effect of integrated features in single feature, and the effect of retrieval relevant retrieval results more in line with the user feedback, and further improve accuracy

导航:首页 > 源码编译 > mapem算法

mapem算法

与mapem算法相关的资料