导航:首页 > 源码编译 > 马尔可夫与启发式算法

马尔可夫与启发式算法

发布时间:2022-10-01 17:50:36

㈠ 马尔可夫的数学贡献

不定方程称为马尔可夫方程。
求解方法如下:
先凭观察找出(x1,x2,x3) = (1,1,1)这组解。
方程可视为一个x3为未知数的一元二次方程。根据韦达定理,可知(x1,x2,3x1x2 − x3)(留意)也是一个解。
这个方程有无限个解。
事实上,用这个方法由(1,1,1)开始,可以找出这方程的所有正整数数组解。
在此不定方程的解出现的正整数称为马尔可夫数(Markov number),它们由小到大是:
1, 2, 5, 13, 29, 34, 89, 169, 194, 233, 433, 610, 985, 1325, ... (OEIS:A002559)
它们组成的解是:
(1, 1, 1), (1, 1, 2), (1, 2, 5), (1, 5, 13), (2, 5, 29), (1, 13, 34), (1, 34, 89), (2, 29, 169), (5, 13, 194), (1, 89, 233), (5, 29, 433), (89, 233, 610) ... 马尔可夫方程的解
马尔可夫数可以排成一棵二叉树(如图)。
在二叉树上,和1的范围相邻的数(即2, 5, 13, 34, 89, ...),都是相隔的斐波那契数(斐波那契数的定义为,即1, 1, 2, 3, 5, 8, 13, 21, 34 , 55, 89...)。这是说()都是此方程的解。
和2的范围邻接的数(即1, 5, 29, 169, ...)也有相似的特质:它们都是相隔的佩尔数(佩尔数的定义为,即1, 2, 5, 12, 29, 70, 169... )。 马尔可夫-赫尔维茨方程(Markoff-Hurwitz equation),是指形式如的不定方程,其中a,n是正整数。
赫尔维茨证明方程有(0,...,0)之外的解唯若。 概述
马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的最优决策过程。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确定性的动态规划相结合的产物,故又称马尔可夫型随机动态规划,属于运筹学中数学规划的一个分支。
马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统,序贯地作出决策。即根据每个时刻观察到的状态,从可用的行动集合中选用一个行动作出决策,系统下一步(未来)的状态是随机的,并且其状态转移概率具有马尔可夫性。决策者根据新观察到的状态,再作新的决策,依此反复地进行。马尔可夫性是指一个随机过程未来发展的概率规律与观察之前的历史无关的性质。马尔可夫性又可简单叙述为状态转移概率的无后效性。状态转移概率具有马尔可夫性的随机过程即为马尔可夫过程。马尔可夫决策过程又可看作随机对策的特殊情形,在这种随机对策中对策的一方是无意志的。马尔可夫决策过程还可作为马尔可夫型随机最优控制,其决策变量就是控制变量。
发展概况
50年代R.贝尔曼研究动态规划时和L.S.沙普利研究随机对策时已出现马尔可夫决策过程的基本思想。R.A.霍华德(1960)和D.布莱克韦尔(1962)等人的研究工作奠定了马尔可夫决策过程的理论基础。1965年,布莱克韦尔关于一般状态空间的研究和E.B.丁金关于非时齐(非时间平稳性)的研究,推动了这一理论的发展。1960年以来,马尔可夫决策过程理论得到迅速发展,应用领域不断扩大。凡是以马尔可夫过程作为数学模型的问题,只要能引入决策和效用结构,均可应用这种理论。
数学描述
周期地进行观察的马尔可夫决策过程可用如下五元组来描述:{S,(A(i),i∈S,q,γ,V},其中S 为系统的状态空间(见状态空间法); A(i)为状态i(i∈S)的可用行动(措施,控制)集;q为时齐的马尔可夫转移律族,族的参数是可用的行动;γ是定义在Γ(Г呏{(i,ɑ):a∈A(i),i∈S}上的单值实函数;若观察到的状态为i,选用行动a,则下一步转移到状态 j的概率为q(j│i,ɑ),而且获得报酬γ(j,ɑ),它们均与系统的历史无关;V是衡量策略优劣的指标(准则)。
策略
策略是提供给决策者在各个时刻选取行动的规则,记作π=(π0,π1,π2,…, πn,πn+1…),其中πn是时刻 n选取行动的规则。从理论上来说,为了在大范围寻求最优策略πn,最好根据时刻 n以前的历史,甚至是随机地选择最优策略。但为了便于应用,常采用既不依赖于历史、又不依赖于时间的策略,甚至可以采用确定性平稳策略。
指标
衡量策略优劣的常用指标有折扣指标和平均指标。折扣指标是指长期折扣〔把 t时刻的单位收益折合成0时刻的单位收益的βt(β < 1)倍〕期望总报酬;平均指标是指单位时间的平均期望报酬。
采用折扣指标的马尔可夫决策过程称为折扣模型。业已证明:若一个策略是β折扣最优的,则初始时刻的决策规则所构成的平稳策略对同一β也是折扣最优的,而且它还可以分解为若干个确定性平稳策略,它们对同一β都是最优的。现在已有计算这种策略的算法
采用平均指标的马尔可夫决策过程称为平均模型。业已证明:当状态空间S 和行动集A(i)均为有限集时,对于平均指标存在最优的确定性平稳策略;当S和(或)A(i)不是有限的情况,必须增加条件,才有最优的确定性平稳策略。计算这种策略的算法也已研制出来。

㈡ 几种常见物流选址模型的优劣和发展

1、连续型选址模型

连续模型认为设施的地点可在平面上取任意点, 较为典型的研究方法是和用重心法解决欧式距离选址问题。这个方法的优点是不限于在特定的备选地点进行选择, 灵活性较大。但由于自由度较大、城市的地理条件限制, 因此, 选出的地址很可能是无法实现的地点;同时将线路考虑为直线也是不符合实际的。鲁晓春对重心法选址作了深入的研究, 认为原有重心法存在问题, 并用流通费用偏微分方程来取代原有的计算公式。

由于重心法选址具有算法简单、应用灵活的特点, 人们将重心法与其它方法相结合, 并将其引入到多目标组合优化问题中, 但都只针对单一设施选址问题。其中, Point-Objective问题、连续型多目标( min-sum)选址问题、网络多目标中位数选址问题等被认为是最具代表性的研究。后来, 连续模型的扩展模型针对是多个设施的选址问题, 称其为多源Weber问题, 该问题是个NP难题。Rosing提出了求解该问题的精确算法, Goldengorin提出了求解该问题的启发式算法, 上述扩展模型只针对单一设施选址问题。对于选择两个设施的特例, Brimberg和Chen对该模型进行了进一步的研究和分析, 并提供相应的启发式算法。

2、离散型选址模型

这类方法认为配送中心的备选地点是有限的几个场所, 最合适的地点只能从中选出, 经典的方法有Kuehn-Hamburger模型法、鲍姆尔沃尔夫法、混合整数规划法、CFLP法(Capacitatied Facility Location Problem)和P-中值问题。

鲍姆尔沃尔夫法的优点是:将中心的可变费用表为凹函数, 可估计选定的配送中心流量, 提供的启发式算法较为简单易行。不足:没考虑配送中心的固定费用及容量限制, 可能造成选定的中心个数过多(或过少) 。

为弥补其缺陷, 又建立混合整数规划模型, 将中心的固定费用、经营管理费用、运输费用和库存费列入目标函数, 将容量限制及中心个数限制列入约束条件。不足:将可变费用改为按线性关系处理, 这种倒退主要来自求解的考虑, 但求解此模型的计算量仍很大。由于变量和约束条件众多、形式复杂, 一般用启发式算法求解。

设计使用法求解, 用组合进化方法求解该类问题。上述求解都是基于这两个基本假设:一是主要考虑运输费用;二

是不存在竞争对手。提出了九个基本的选址模型, 包括简单选址模型、有容量限制的选址模型、需求变动的选址模型、动态选址模型等, 目标函数是使运输费用和固定选址投资费用最小。除考虑了选址的固定费用、运输费用外, 还考虑了库存费用;用分解算法进行了求解。考虑了非线性运输费用的选址问题, 用分枝定界法求解。采用双层规划求解运输网络中公共物流转运站点的选址。魏巧云考虑运输成本和运营可变成本, 建立了多个配送中心的选址模型。卢安文建立了紧急情况下的配送模型, 以时间、费用为优化目标。刘海燕在分析了系统中库存管理、运输、配送中心之间的联系后,用最优化方法构建了选址模型。对进行一个较为全面的研究, 展示了以前的研究所没有考虑的一些问题, 如多商品问题等。研究的问题在结构上是两级的, 包括多个工厂、仓库和目的地。上述研究不足之处:均没有考虑设施的固定运行成本的问题。

P-中值问题是指在一个给定数量和位置的需求集合和一个候选设施位置的集合下, 分别为个设施找到合适的位置, 并指派每个需求点到一个特定的设施, 使之达到在设施和需求点之间的运费最低。研究基于欧式距离的中值问题。提出了使用禁忌搜索和可变邻域搜索方法来求解中值模型的启发式算法。尹传忠提出了使用局部搜索和可变邻域搜索方法来求解中值模型的启发式算法。提出了运用词典区域局部搜索法求解中值问题。用模拟退火算法、用遗传算法求解中值问题。

离散型选址问题的目标函数涉及到运输(交通成本)、投资成本(建设成本)、客户服务水平(在特定时间、距离为客户提供服务)、设施能力利用率等两个及以上的目标优化时, 就是所谓的多目标规划选址问题。与单目标选址问题比较, 多目标选址问题的求解更加困难。提出的应用整数目标规划来求解多目标选址问题。与对多目标问题的处理方法是将一个主要目标作为总目标, 将要实现的目标作为限制条件来将它转化为单目标规划问题。通过对对称解的研究, 解决离散型多目标选址问题。

3、动态模型

动态选址模型是解决如何在需求和成本变化的跨时间周期的规划期内对设施进行选址, 使得总的长期成本最小的问题。通过以下几种方法可以找到随时间变化的最优布局:

可以使用现期条件和未来某年的预期情况, 找出仓库最佳位置。

认为设施地点配置不能长期保证最优, 提出随时间变化的动态选址模型。研究多个设施在分阶段时期选址分配的问题, 并应用动态规划法来解决该问题。孙会君对新增配送中心如何进行有效的选址决策问题进行了研究, 并给出了求解的迭代算法。

( )可以找到一个随时间变化的最优布局变化轨迹, 精确地反映什么时候需要转换成新布局, 应该转换成什么样的布局。考虑了选址问题的动态特性和需求的随机变动性, 建立动态选址模型和随机选址模型。根据实际问题的特点, 建立了一个考虑时间因素的动态选址的基本模型。

( )找出目前最优网络布局, 并进行实施;随后, 利用未来的数据,找出新的最优布局。研究了在整个规划期内, 建立新的设施而原有的设施可以被关闭。模型考虑资金的时间价值, 目标函数是整个规划期内的成本最小。

5、随机模型

随机模型其研究方法主要分为两类:概率方法和情景计划方法, 这两种方法的系统输入参数都是不确定性的。

对随机的个中点问题和无能力限制的选址问题进行了研究, 模型中时间、距离、供应和需求为随机变量。袁庆达建立了优化区域公共物流中心规模和选址问题的二级非线性规划模型, 并设计了遗传模拟退火算法求解。先研究了行程时间状态随马尔可夫状态转移矩阵变化的多个设施选址问题, 后又扩展到需求服从均匀分布时的最大最小和最小最大选址问题。和在网络节点需求和行程时间都是不确定的情况下, 建立了目标函数为服务最小、需求最大的随机情景问题模型。杨波提出了一个随机化的模型, 给出单个配送中心选址问题的一个量化的处理方法。

选址分配问题的定性研究这类方法是将专家凭经验、专业知识做出的判断以数值形式表示, 再经过综合分析后对选址进行决策。首先, 根据影响物流设施选址的因素, 建立备选方案的评价指标体系;然后, 采用一定的评价方法(如:偏好理论、权重因素分析方法、专家评分法、层次分析法、模糊层次分析法、模糊综合评判法、或者模糊多准则决策方法等)得到所需的评价指标的权重;最后, 通过求出各备选方案的优劣排序, 得到最优方案。

和用偏好理论将所有主观因素两两比较从而为主观因素赋予了权重值。和提出了一种权重因素分析方法将定量的数据和定性的评价值相结合, 在多个备选项中选择合适的地址。先建立层次结构评价模型, 再用层次分析法确定配送中心最优位置。陆琳琳引入模糊评价方法, 全面考虑选址过程中的各项因素, 使选址评价更客观、合理。提出模糊多准则决策方法, 用于解决模糊环境下的配送中心选址问题。

值得注意的是, 在应用定性评价时有两个关键环节, 其中首要环节是评价指标体系的设计;其次是评价指标的量化。无论是定性还是定量, 评价指标的隶属度的量化都要科学合理。一方面, 要采取定性与定量分析相结合的方法准确地进行评价指标隶属度的刻画, 另一方面, 要注意不同评价指标的隶属度在量级上的一致性与可比性。

在综合考虑各种影响因素的基础上, 对影响选址的因素划分为两层指标体系;构建出包括自然条件、经济因素、投资环境情况与其他因素个一级指标和个二级指标。通过真实的案例对军事物流系统的选址进行了研究, 划分为两层指标体系;包括气候、地质、军事、经济和基础设施个一级指标和个二级指标。

采用模糊定量的方法, 对转运型的国际配送中心进行评价, 构建出包括内在因素和外在因素个一级指标和个二级指标的两层评价体系。傅新平结合物流中心的职能, 从经济和社会效益两个方面出发, 建立了个一级指标和个二级指标。吴迎学设计了多因素评价指标体系, 第一层次是物流环境、生产能力、经济效益指标, 它们是决定物流中心设计方案优劣的主要因素;第二层次是对上述指标进一步评价而细分的因素集, 共计个二级指标。韩世莲运用多准则模糊层次分析法进行配送中心选址的综合评价与决策, 从自然环境、交通运输、经营环境、地理条件和公共设施五个方面综合考虑, 并建立了由三层共计条准则构成的评价指标体系。夏景虹设计了包括区位条件、交通设施、其他设施、建设条件和社会环境个一级指标和个二级指标。刘文歌用德尔斐法建立了配送中心选址方案评价指标体系, 采用成本型、效益型和区间型三个指标为级指标, 并设计了个二级指标。刘晓峰将经济效益、社会效益及技术效能作为级指标, 又建立了个二级指标。

总体而言, 国内外相关研究对选址的评价指标主要考察社会效益、经济效益以及技术效能个方面.

㈢ 数学建模-方法合集

线性规划(Linear programming,简称LP)是运筹学中研究较早、发展较快、应用广泛、方法较成熟的一个重要分支,它是辅助人们进行科学管理的一种数学方法。研究线性约束条件下线性目标函数的极值问题的数学理论和方法。英文缩写LP。它是运筹学的一个重要分支,广泛应用于军事作战、经济分析、经营管理和工程技术等方面。为合理地利用有限的人力、物力、财力等资源作出的最优决策,提供科学的依据。

0-1规划是决策变量仅取值0或1的一类特殊的整数规划。在处理经济管理中某些规划问题时,若决策变量采用 0-1变量即逻辑变量,可把本来需要分别各种情况加以讨论的问题统一在一个问题中讨论。

蒙特卡罗法(Monte Carlo method)是以概率与统计的理论、方法为基础的一种计算方法,蒙特卡罗法将所需求解的问题同某个概率模型联系在一起,在电子计算机上进行随机模拟,以获得问题的近似解。因此,蒙特卡罗法又称随机模拟法或统计试验法。

在生活中经常遇到这样的问题,某单位需完成n项任务,恰好有n个人可承担这些任务。由于每人的专长不同,各人完成任务不同(或所费时间),效率也不同。于是产生应指派哪个人去完成哪项任务,使完成n项任务的总效率最高(或所需总时间最小)。这类问题称为指派问题或分派问题。

无约束最优化方法是求解无约束最优化问题的方法,有解析法和直接法两类。

解析法

解析法就是利用无约束最优化问题中目标函数 f(x) 的解析表达式和它的解析性质(如函数的一阶导数和二阶导数),给出一种求它的最优解 x 的方法,或一种求 x 的近似解的迭代方法。

直接法

直接法就是在求最优解 x*的过程中,只用到函数的函数值,而不必利用函数的解析性质,直接法也是一种迭代法,迭代步骤简单,当目标函数 f(x) 的表达式十分复杂,或写不出具体表达式时,它就成了重要的方法。

可用来解决管路铺设、线路安装、厂区布局和设备更新等实际问题。基本内容是:若网络中的每条边都有一个数值(长度、成本、时间等),则找出两节点(通常是源节点和阱节点)之间总权和最小的路径就是最短路问题。 [1]

例如:要在n个城市之间铺设光缆,主要目标是要使这 n 个城市的任意两个之间都可以通信,但铺设光缆的费用很高,且各个城市之间铺设光缆的费用不同,因此另一个目标是要使铺设光缆的总费用最低。这就需要找到带权的最小生成树

管道网络中每条边的最大通过能力(容量)是有限的,实际流量不超过容量。

最大流问题(maximum flow problem),一种组合最优化问题,就是要讨论如何充分利用装置的能力,使得运输的流量最大,以取得最好的效果。求最大流的标号算法最早由福特和福克逊与与1956年提出,20世纪50年代福特(Ford)、(Fulkerson)建立的“网络流理论”,是网络应用的重要组成成分。

最小费用最大流问题是经济学和管理学中的一类典型问题。在一个网络中每段路径都有“容量”和“费用”两个限制的条件下,此类问题的研究试图寻找出:流量从A到B,如何选择路径、分配经过路径的流量,可以在流量最大的前提下,达到所用的费用最小的要求。如n辆卡车要运送物品,从A地到B地。由于每条路段都有不同的路费要缴纳,每条路能容纳的车的数量有限制,最小费用最大流问题指如何分配卡车的出发路径可以达到费用最低,物品又能全部送到。

旅行推销员问题(英语:Travelling salesman problem, TSP)是这样一个问题:给定一系列城市和每对城市之间的距离,求解访问每一座城市一次并回到起始城市的最短回路。它是组合优化中的一个NP困难问题,在运筹学和理论计算机科学中非常重要。

最早的旅行商问题的数学规划是由Dantzig(1959)等人提出,并且是在最优化领域中进行了深入研究。许多优化方法都用它作为一个测试基准。尽管问题在计算上很困难,但已经有了大量的启发式算法和精确方法来求解数量上万的实例,并且能将误差控制在1%内

计划评审法(Program Evaluation and Review Technique,简称PERT),是指利用网络分析制订计划以及对计划予以评价的技术。它能协调整个计划的各道工序,合理安排人力、物力、时间、资金,加速计划的完成。在现代计划的编制和分析手段上,PERT被广泛使用,是现代化管理的重要手段和方法。

关键路线法(Critical Path Method,CPM),又称关键线路法。一种计划管理方法。它是通过分析项目过程中哪个活动序列进度安排的总时差最少来预测项目工期的网络分析。

人口系统数学模型,用来描述人口系统中人的出生、死亡和迁移随时间变化的情况,以及它们之间定量关系的数学方程式或方程组,又称人口模型。

初值问题是指在自变量的某值给出适当个数的附加条件,用来确定微分方程的特解的这类问题。

如果在自变量的某值给出适当个数的附加条件,用来确定微分方程的特解,则这类问题称为初值问题。

边值问题是定解问题之一,只有边界条件的定解问题称为边值问题。二阶偏微分方程(组)一般有三种边值问题:第一边值问题又称狄利克雷问题,它的边界条件是给出未知函数本身在边界上的值;第二边值问题又称诺伊曼边值问题或斜微商问题,它的边界条件是给出未知函数关于区域边界的法向导数或非切向导数;第三边值问题又称鲁宾问题,它的边界条件是给出未知函数及其非切向导数的组合

目标规划是一种用来进行含有单目标和多目标的决策分析的数学规划方法。线性规划的一种特殊类型。它是在线性规划基础上发展起来的,多用来解决线性规划所解决不了的经济、军事等实际问题。它的基本原理、数学模型结构与线性规划相同,也使用线性规划的单纯形法作为计算的基础。所不同之处在于,它从试图使目标离规定值的偏差为最小入手解题,并将这种目标和为了代表与目标的偏差而引进的变量规定在表达式的约束条件之中。

时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。

支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。

在机器学习中,支持向量机(SVM,还支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。

聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。 聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法。

例如,我们可以根据各个银行网点的储蓄量、人力资源状况、营业面积、特色功能、网点级别、所处功能区域等因素情况,将网点分为几个等级,再比较各银行之间不同等级网点数量对比状况。

成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。

主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。

因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。

判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。

当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。

对互协方差矩阵的一种理解,是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

对应分析也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。

对应分析主要应用在市场细分、产品定位、地质研究以及计算机工程等领域中。原因在于,它是一种视觉化的数据分析方法,它能够将几组看不出任何联系的数据,通过视觉上可以接受的定位图展现出来。

多维标度法是一种将多维空间的研究对象(样本或变量)简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。

在市场营销调研中,多维标度法的用途十分广泛。被用于确定空间的级数(变量、指标),以反映消费者对不同品牌的认知,并且在由这些维构筑的空间中,标明某关注品牌和消费者心目中理想品牌的位置。

偏最小二乘法是一种数学优化技术,它通过最小化误差的平方和找到一组数据的最佳函数匹配。 用最简的方法求得一些绝对不可知的真值,而令误差平方之和为最小。 很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。

系统介绍了禁忌搜索算法、模拟退火算法、遗传算法、蚁群优化算法、人工神经网络算法和拉格朗日松弛算法等现代优化计算方法的模型与理论、应用技术和应用案例。

禁忌(Tabu Search)算法是一种元启发式(meta-heuristic)随机搜索算法,它从一个初始可行解出发,选择一系列的特定搜索方向(移动)作为试探,选择实现让特定的目标函数值变化最多的移动。为了避免陷入局部最优解,TS搜索中采用了一种灵活的“记忆”技术,对已经进行的优化过程进行记录和选择,指导下一步的搜索方向,这就是Tabu表的建立。

模拟退火算法来源于固体退火原理,是一种基于概率的算法,将固体加温至充分高,再让其徐徐冷却,加温时,固体内部粒子随温升变为无序状,内能增大,而徐徐冷却时粒子渐趋有序,在每个温度都达到平衡态,最后在常温时达到基态,内能减为最小。

传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。遗传算法是从代表问题可能潜在的解集的一个种群(population)开始的,而一个种群则由经过基因(gene)编码的一定数目的个体(indivial)组成。每个个体实际上是染色体(chromosome)带有特征的实体。染色体作为遗传物质的主要载体,即多个基因的集合,其内部表现(即基因型)是某种基因组合,它决定了个体的形状的外部表现,如黑头发的特征是由染色体中控制这一特征的某种基因组合决定的。因此,在一开始需要实现从表现型到基因型的映射即编码工作。由于仿照基因编码的工作很复杂,我们往往进行简化,如二进制编码,初代种群产生之后,按照适者生存和优胜劣汰的原理,逐代(generation)演化产生出越来越好的近似解,在每一代,根据问题域中个体的适应度(fitness)大小选择(selection)个体,并借助于自然遗传学的遗传算子(genetic operators)进行组合交叉(crossover)和变异(mutation),产生出代表新的解集的种群。这个过程将导致种群像自然进化一样的后生代种群比前代更加适应于环境,末代种群中的最优个体经过解码(decoding),可以作为问题近似最优解。

The Technique for Order of Preference by Similarity to Ideal Solution (TOPSIS) is a multi-criteria decision analysis method, which was originally developed by Hwang and Yoon in 1981[1] with further developments by Yoon in 1987,[2] and Hwang, Lai and Liu in 1993.[3] TOPSIS is based on the concept that the chosen alternative should have the shortest geometric distance from the positive ideal solution (PIS)[4] and the longest geometric distance from the negative ideal solution (NIS).[4]

TOPSIS是一种多准则决策分析方法,最初由Hwang和Yoon于1981年开发[1],1987年由Yoon进一步开发,[2]和Hwang, 1993年赖和刘。[3] TOPSIS是基于这样一个概念,即所选择的方案应该具有离正理想解(PIS)最短的几何距离[4]和距负理想解(NIS)最远的几何距离[4]。

模糊综合评价法是一种基于模糊数学的综合评价方法。该综合评价法根据模糊数学的隶属度理论把定性评价转化为定量评价,即用模糊数学对受到多种因素制约的事物或对象做出一个总体的评价。它具有结果清晰,系统性强的特点,能较好地解决模糊的、难以量化的问题,适合各种非确定性问题的解决。

数据包络分析方法(Data Envelopment Analysis,DEA)是运筹学、管理科学与数理经济学交叉研究的一个新领域。它是根据多项投入指标和多项产出指标,利用线性规划的方法,对具有可比性的同类型单位进行相对有效性评价的一种数量分析方法。DEA方法及其模型自1978年由美国着名运筹学家A.Charnes和W.W.Cooper提出以来,已广泛应用于不同行业及部门,并且在处理多指标投入和多指标产出方面,体现了其得天独厚的优势。

对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。因此,灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,亦即“灰色关联度”,作为衡量因素间关联程度的一种方法。

主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分),其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复。这种方法在引进多方面变量的同时将复杂因素归结为几个主成分,使问题简单化,同时得到的结果更加科学有效的数据信息。在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。主要方法有特征值分解,SVD,NMF等。

秩和比法(Rank-sum ratio,简称RSR法),是我国学者、原中国预防医学科学院田凤调教授于1988年提出的,集古典参数统计与近代非参数统计各自优点于一体的统计分析方法,它不仅适用于四格表资料的综合评价,也适用于行×列表资料的综合评价,同时也适用于计量资料和分类资料的综合评价。

灰色预测是就灰色系统所做的预测

灰色预测是一种对含有不确定因素的系统进行预测的方法。灰色预测通过鉴别系统因素之间发展趋势的相异程度,即进行关联分析,并对原始数据进行生成处理来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型,从而预测事物未来发展趋势的状况。其用等时距观测到的反应预测对象特征的一系列数量值构造灰色预测模型,预测未来某一时刻的特征量,或达到某一特征量的时间。

回归分析预测法,是在分析市场现象自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量关系大多表现为相关关系,因此,回归分析预测法是一种重要的市场预测方法,当我们在对市场现象未来发展状况和水平进行预测时,如果能将影响市场预测对象的主要因素找到,并且能够取得其数量资料,就可以采用回归分析预测法进行预测。它是一种具体的、行之有效的、实用价值很高的常用市场预测方法,常用于中短期预测。

包含未知函数的差分及自变数的方程。在求微分方程 的数值解时,常把其中的微分用相应的差分来近似,所导出的方程就是差分方程。通过解差分方程来求微分方程的近似解,是连续问题离散化 的一个例子。

马尔可夫预测法主要用于市场占有率的预测和销售期望利润的预测。就是一种预测事件发生的概率的方法。马尔科夫预测讲述了有关随机变量 、 随机函数与随机过程。

逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概念,并用符号表示,然后,根据符号运算按串行模式进行逻辑推理;这一过程可以写成串行的指令,让计算机执行。然而,直观性的思维是将分布式存储的信息综合起来,结果是忽然间产生想法或解决问题的办法。这种思维方式的根本之点在于以下两点:1.信息是通过神经元上的兴奋模式分布储在网络上;2.信息处理是通过神经元之间同时相互作用的动态过程来完成的。

中文名 神经网络算法 外文名 Neural network algorithm

㈣ 语音识别文件的声学模型

语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。
HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。
语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。
英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。

㈤ 世界科技史发展近代由哥白尼到牛顿是第一阶段,还有哪几个阶段后来是怎么发展一直到现在的

近代和现代科技史的发展;参考网站
http://www.fjinfo.gov.cn/kepu/kjsh/sjkjs.htm
1901年,严格证明狄利克雷原理,开创变分学的直接方法,在工程技术的计算问题中有很多应用(德国 希尔伯特)。
首先提出群的表示理论。此后,各种群的表示理论得到大量研究(德国 舒尔、弗洛伯纽斯)。
基本上完成张量分析,又名绝对微分学。确立了研究黎曼几何和相对论的分析工具(意大利 里齐、勒维.齐维塔)。
提出勒贝格测度和勒贝格积分。推广了长度、面积积分的概念(法国 勒贝格)。
1903年,发现集合论中的罗素悖理,出现所谓第三次数学危机(英国 贝.罗素)。
建立线性积分方程的基本理论,是解决数学物理问题的数学工具,并为建立泛函分析作了准备(瑞典 弗列特荷姆)。
1906年,总结了古典代数几何学的研究(意大利 赛维利等)。
把由函数组成的无限集合作为研究对象,引入函数空间的概念,并开始形成希尔伯特空间。这是泛函分析的发源(法国 弗勒锡,匈牙利 里斯)。
开始系统地研究多个自变量的复变函数理论(德国 哈尔托格斯)。 初次提出“马尔可夫链”的数学模型(俄国 马尔可夫)。
1907年,证明复变函数论的一个基本原理---黎曼共形映照定理(德国 寇贝)。
反对在数学中使用排中律,提出直观主义数学(美籍荷兰人 路.布劳威尔)。
1908年,点集拓扑学形成(德国 忻弗里斯)。
提出集合论的公理化系统(德国 策麦罗)。
1909年,解决数论中着名的华林问题(德国 希尔伯特)。
1910年,总结了19世纪末20世纪初的各种代数系统如群、代数、域等的研究,开创了现代抽象代数(德国 施坦尼茨)。
发现不动点原理,后来又发现了维数定理、单纯形逼近方法,使代数拓扑成为系统理论(美籍荷兰人 路.布劳威尔)。
1910-1913年,出版《数学原理》三卷,企图把数学归结到形式逻辑中去,是现代逻辑主义的代表着作(英国 贝.素、怀特海)。

............................................................
◇1911-1920年◇

1913年,完成了半单纯李代数有限维表示理论,奠定了李群表示理论的基础。在量子力学和基本粒子理论中有重要应用(法国 厄.加当,德国 韦耳)。
研究黎曼面,初步产生了复流形的概念(德国 韦耳)。
1914年,提出拓扑空间的公理系统,为一般拓扑学建立了基础(德国 豪斯道夫)。
1915年,把黎曼几何用于广义相对论,成为它的主要数学工具。解出球对称的场方程,从而可以计算水星近日点的移动等问题(瑞士、美籍德国人 爱因斯坦,德国 卡.施瓦茨西德)。
1918年,应用复变函数论方法来研究数论,建立解析数论(英国 哈台、立笃武特)。
为改进自动电话交换台的设计,提出排队论的数学理论(丹麦 爱尔兰)。
希尔伯脱空间理论的形成(匈牙利 里斯)。
1919年,建立P-adic数论,在代数数论和代数几何中有重要应用(德国 亨赛尔)。

............................................................
◇1921-1930年◇

1922年 提出数学要彻底形式化的主张,创立数学基础中的形式主义体系和证明论(德国 希尔伯特)。
1923年 提出一般联络的微分几何学,将克莱因和黎曼的几何学观点统一起来,是纤维丛概念的发端(法国 厄·加当)。
提出偏微分方程适定性,解决二阶双曲型方程的柯西问题(法国 阿达玛)。
提出更广泛的一类函数空间——巴拿哈空间的理论(波兰 巴拿哈)。 提出无限维空间的一种测度——维纳测度,对概率论和泛函分析有一定作用(美国 诺·维纳)。
1925年 创立概周期函数(丹麦哈·波尔)。
以生物、医学试验为背景,开创了“试验设计”(数理统计的一个分支),也确立了统计推断的基本方法(英国 费希尔)。
1926年 大体上完成对近世代数有重大影响的理想理论(德国 纳脱)。
1927年 建立动力系统的系统理论,是微分方程定性理论的一个重要方面(美国 毕尔霍夫)。
1928年 提出解偏微分方程的差分方法(美籍德国人 理·柯朗)。
首次提出通信中的信息量概念(美国 哈特莱)。
提出拟似共形映照理论,在工程技术上有一定应用(德国 格罗许,芬兰 阿尔福斯,苏联 拉甫连捷夫)。
1930年 建立格论,是代数学的重要分支,对摄影几何、点集论及泛函分析都有应用(美国 毕尔霍夫)。
提出自伴算子谱分析理论并应用于量子力学(美籍匈牙利人 冯·诺伊曼)。

............................................................
◇1931-1940年◇

1931年 发现多维流形上的微分型和流形的上同调性质的关系,给拓扑学以分析工具(瑞士 德拉姆)。
证明了公理化数学体系的不完备性(奥地利 哥德尔)。
发展马尔可夫过程理论(苏联 柯尔莫哥洛夫,美国 费勒)。
1932年 解决多元复变函数论的一些基本问题(法国 亨·嘉当)。
建立各态历经的数学理论(美国 毕尔霍夫,美籍匈牙利人 冯·诺伊曼)。
建立递归函数理论,是数理逻辑的一个分支,在自动机和算法语言中有重要应用(法国 赫尔勃兰特,奥地利 哥德尔,美国 克林)。
1933年 提出拓扑群的不变测度概念(匈牙利 奥·哈尔)。
提出概率论的公理化体系(苏联 柯尔莫哥洛夫)。
制订复平面上的傅立叶变式理论(美国 诺·维纳、丕莱)。
1934年 创建大范围变分学的理论,为微分几何和微分拓扑提供了有效工具(美国 莫尔斯)。
解决极小曲面的基本问题——普拉多问题,即求通过给定边界而面积为最小的曲面(美国 道格拉斯等)。
提出平稳过程理论(苏联 辛钦)。
1935年 在拓扑学中引入同伦群,成为代数拓扑和微分拓扑的重要工具(波兰 霍勒维奇等)。
开始研究产品使用寿命和可靠性的数学理论(法国 龚贝尔)。 1936年 寇尼克系统地提出与研究图的理论。
50年代以后,由于在博弈论、规划论、信息论等方面的应用,贝尔治等对图的理论有很大的发展(德国 寇尼克,美国 贝尔治)。
现代的代数几何学开始形成(荷兰 范德凡尔登、法国 外耳,美国 查里斯基,意大利 培·塞格勒等)。
提出理想的通用计算机概念,同时建立了算法理论(英国 图灵,美国 邱吉、克林等)。
建立算子环论,可以表达量子场论数学理论中的一些概念(美籍匈牙利人 冯·诺伊曼)。
提出偏微分方程中的泛函分析方法(苏联 索波列夫)。
1937年 证明微分流形的嵌入定理,是微分拓扑学的创始(美国 怀特尼)。
提出偏微分方程组的分类法,得出某些基本性质(苏联 彼得洛夫斯基)。
开始系统研究随机过程的统计理论(瑞士 克拉默)。
1938年 布尔巴基丛书《数学原本》开始出版,企图从数学公理结构出发,以非常抽象的方式叙述全部现代数学(法国 布尔巴基学派)。 1940年 证明连续统假说在集合论公理系中的无矛盾性(美国 哥德尔)。
提出求数值解的松弛方法(英国 绍司威尔)。
提出交换群调和分析的理论(苏联 盖尔方特)。

............................................................
◇1941-1950年◇

1941年,定义流形上的调和积分,并用于代数流行,成为研究流形同调性质的分析工具(美国 霍奇)。
1941年,开始建立马尔可夫过程与随机微分方程的联系(苏联 谢 .伯恩斯坦,日本 伊藤清)。
1941年,创立赋范环理论,主要用于群上调和分析和算子环论(苏联 盖尔芳特)。
1942年,开始研究随机过程的预测,滤过理论及其在火炮自动控制上的应用,由此产生了“统计动力学”(美国诺.维纳,苏联 柯尔莫哥洛夫)。
1943年,提出求代数方程数字解的林士谔方法(中国 林士谔)。 1944年,建立了对策论,即博弈论(美籍匈牙利人 冯.诺伊曼等)。 1945年,推广了古典函数的概念,创立广义函数论,对微分方程理论和泛函分析有重要作用(法国 许瓦茨)。
1945年,建立代数拓扑和微分几何的联系,推进了整体几何学的发展(美籍中国人 陈省身)。
1945年,提出了噪声的统计理论(美国 斯.赖斯)。
1946年, 美国莫尔电子工程学校和宾夕法尼亚大学试制成功第一架电子计算机ENIAC(设计者为埃克特、莫希莱等人)。
1946年,建立现代代数几何学基础(法国 外耳)。
1946年,发展三角和法研究解析数论(中国 华罗庚)。
1946年,建立罗伦兹群的表示理论(苏联 盖尔芳特、诺伊玛克)。 1947年,创立统计的序贯分析法(美国 埃.瓦尔特)。
1948年,造成稳态机,能在各种变化的外界条件下自行组织,已达到稳定状态。鼓吹这是人造大脑的最初雏形、机器能超过人等观点(英国 阿希贝)。
1948年,出版《控制论》,首次使用控制论一词(美国 诺.维纳)。 1948年,提出通信的数学理论(美国 申农)。
1948年,总结了非线性微分方程在流体力学方面的应用,推进了这方面的研究(美籍德国人 弗里得里希斯、理 .柯朗)。
1948年,提出范畴论,是代数中一种抽象的理论,企图将数学统一于某些原理(波兰 爱伦伯克,美国 桑.麦克伦)。
1948年,将泛函分析用于计算数学(苏联 康脱洛维奇)。
1949年,开始确立电子管计算机体系,通称第一代计算机。英国剑桥大学制成第一台通用电子管计算机EDSAC。
1950年,发表《计算机和智力》一文,提出机器能思维的观点(英国 图灵)。
1950年,提出统计决策函数的理论(美国 埃.瓦尔特)。
1950年,提出解椭圆形方程的超松弛方法,是目前电子计算机上常用的方法(英国 大.杨)。
1950年,提出纤维丛的理论(美国 斯丁路特,美籍中国人 陈省身,法国 艾勒斯曼)。

............................................................
◇1951-1960年◇

1951年,五十年代以来,“组合数学”获得迅速发展,并应用于试验设计、规划理论、网络理论、信息编码等(美国 埃.霍夫曼、马.霍尔等)。
1952年,证明连续群的解析性定理(即希尔伯特第五问题)(美国 蒙哥马利等)。
1953年,提出优选法,并先后发展了多种求函数极值的方法(美国 基费等)。
1954年,发表《工程控制论》,系统总结自动控制理论的新发展(中国 钱学森)。
1955年,制定同调代数理论(法国 亨.加当、格洛辛狄克,波兰 爱伦伯克)。
1955年,提出求数值积分的隆姆贝方法,是目前电子计算机上常用的一种方法(美国 隆姆贝格)。
1955年,制定线性偏微分算子的一般理论(瑞典 荷尔蒙特等)。 1955年,提出解椭圆形或双线型偏微分方程的交替方向法(美国 拉斯福特等)。
1955年,解代数数的有理迫近问题(英国 罗思)。
1956年,提出统筹方法(又名计划评审法),是一种安排计划和组织生产的数学方法为美国杜邦公司首先采用。
1956年,提出线性规划的单纯形方法(英国 邓济希等)。
1956年,提出解双曲型和混合型方程的积分关系法(苏联 道洛尼钦)。
1957年,发现最优控制的变分原理(苏联 庞特里雅金)。
1957年,创立动态规划理论,它是研究使整个生产过程达到预期的最佳目的的一种数学方法(美国 贝尔曼)。
1957年,以美国康纳尔实验室的“感知器”的研究为代表,开始迅速发展图像识别理论(美国 罗森伯拉特等)。
1958年,创立算法语言ALGOL(58),后经改进又提出(ALGOL)(60),ALGOL(68)等算法语言,用于电子计算机程序自动化(欧洲GAMM小组,美国ACM小组)。
1958年,中国普遍地使用和改进“线性规划”法。
1958年,中国科学院计算机技术研究所试制成功中国第一架通用电子计算机。
1959年,美国国际商业机器公司制成第一台晶体管计算机“IBM7090”。第二代计算机——半导体晶体管计算机开始迅速发展。 1959—1960年,伽罗华域论在编码问题上的应用,发明BCH码(法国 霍昆亥姆,美国 儿.玻色,印度 雷.可都利)。
1960年,提出数字滤波理论,进一步发展了随机过程在制导系统中的应用(美国 卡尔门)。
1960年,建立非自共轭算子的系统理论(苏联 克雷因,美国 顿弗特)。

谢谢您投我一票!!!

㈥ 马尔科夫链的非周期性到底有什么含义

非周期性的马尔可夫链才是我们想要的,它是构成遍历的马尔可夫链的必要条件。

马尔可夫链是概率论和数理统计中具有马尔可夫性质且存在于离散的指数集和状态空间内的随机过程。适用于连续指数集的马尔可夫链被称为马尔可夫过程,但有时也被视为马尔可夫链的子集,即连续时间马尔可夫链,与离散时间马尔可夫链相对应,因此马尔可夫链是一个较为宽泛的概念 。

马尔可夫链可通过转移矩阵和转移图定义,除马尔可夫性外,马尔可夫链可能具有不可约性、常返性、周期性和遍历性。一个不可约和正常返的马尔可夫链是严格平稳的马尔可夫链,拥有唯一的平稳分布。遍历马尔可夫链(ergodic MC)的极限分布收敛于其平稳分布 。

马尔可夫链可被应用于蒙特卡罗方法中,形成马尔可夫链蒙特卡罗,也被用于动力系统、化学反应、排队论、市场行为和信息检索的数学建模。此外作为结构最简单的马尔可夫模型,一些机器学习算法,例如隐马尔可夫模型、马尔可夫随机场和马尔可夫决策过程以马尔可夫链为理论基础。

㈦ 运筹学的目录:

第1章 微积分和概率论
1.1积分
1.2积分求导
1.3概率的基本法则
1.4贝叶斯法则
1.5随机变量、均值、方差和协方差
1.5.1离散型随机变量
1.5.2连续型随机变量
1.5.3随机变量的均值和方差
1.5.4独立随机变量
1.5.5两个随机变量的协方差
1.5.6随机变量之和的均值、方差与协方差
1.6正态分布
1.6.1正态分布的重要性质
1.6.2利用标准化求正态概率
1.6.3利用Excel求正态概率
1.7z变换
1.8本章小结
1.8.1确定不定积分的公式
1.8.2对积分求导的莱布尼兹法则
1.8.3概率
1.8.4贝叶斯法则
1.8.5随机变量、均值、方差和协方差
1.8.6正态分布的重要性质
1.8.7z变换
1.9复习题
第2章 不确定决策
2.1决策准则
2.1.1受支配动作
2.1.2悲观准则
2.1.3乐观准则
2.1.4遗憾准则
2.1.5预期值准则
2.2效用理论
2.2.1冯·诺依曼?摩根斯坦公理
2.2.2为什么我们可以假设u(最坏结果)=0和u(最好结果)=1
2.2.3评估一个人的效用函数
2.2.4一个人的效用函数和他或她面对风险的态度之间的关系
2.2.5指数效用函数
2.3预期效用最大化的缺陷: 前景效用理论和架构效应
2.3.1前景效用理论
2.3.2架构
2.4决策树
2.4.1将风险规避结合进决策树分析
2.4.2样本信息的预期值
2.4.3完善信息的预期值
2.5贝叶斯法则和决策树
2.6多目标决策
2.6.1确定情况下的多属性决策: 目标规划
2.6.2多属性效用函数
2.7解析分层进程
2.7.1获得各个目标的权
2.7.2检查一致性
2.7.3求目标选择的分数
2.7.4在电子表格上实现AHP
2.8本章小结
2.8.1决策准则
2.8.2效用理论
2.8.3前景效用理论和架构
2.8.4决策树
2.8.5贝叶斯法则和决策树
2.8.6多目标决策
2.8.7AHP
2.9复习题
第3章 确定型EOQ存储模型
3.1基本的存储模型
3.1.1存储模型所涉及的费用
3.1.2EOQ模型的假设
3.2基本的EOQ模型
3.2.1基本EOQ模型的假设
3.2.2基本EOQ模型的导出
3.2.3总费用对于订购数量微小变化的灵敏度
3.2.4在以库存的美元价值表示存储费用时确定EOQ
3.2.5非零交付周期的影响
3.2.6基本EOQ模型的电子表格模板
3.2.7二幂订购策略
3.3计算允许数量折扣时的最优订购量
3.4连续速率的EOQ模型
3.5允许延期交货的EOQ模型
3.6什么时候使用EOQ模型
3.7多产品EOQ模型
3.8本章小结
3.8.1表示法
3.8.2基本EOQ模型
3.8.3数量折扣模型
3.8.4连续速率模型
3.8.5允许延期交货的EOQ
3.9复习题
第4章 随机型存储模型
4.1单周期决策模型
4.2边际分析的概念
4.3卖报人问题: 离散需求
4.4卖报人问题: 连续需求
4.5其他单周期模型
4.6包含不确定需求的EOQ: (r,q)和(s,S)模型
4.6.1确定再订购点: 允许延期交货的情况
4.6.2确定再订购点: 脱销情况
4.6.3连续检查(r,q)策略
4.6.4连续检查(s,S)策略
4.7具有不确定需求的EOQ: 确定安全库存等级的服务等级法
4.7.1确定SLM1的再订购点和安全库存水平
4.7.2使用LINGO计算SLM1的再订购点等级
4.7.3使用Excel计算正态损失函数
4.7.4确定SLM2的再订购点和安全库存水平
4.8(R,S)定期检查策略
4.8.1确定R
4.8.2实现(R,S)系统
4.9ABC存储分类系统
4.10交换曲线
4.10.1缺货的交换曲线
4.10.2交换曲面
4.11本章小结
4.11.1单周期决策模型
4.11.2卖报人问题
4.11.3确定不确定需求的再订购点和订购量: 最小化年度预期费用
4.11.4确定再订购点: 服务等级法
4.11.5(R,S)定期检查策略
4.11.6ABC分类
4.11.7交换曲线
4.12复习题
第5章 马尔可夫链
5.1什么是随机过程
5.2什么是马尔可夫链
5.3n步转移概率
5.4马尔可夫链中的状态分类
5.5稳态概率和平均最先通过时间
5.5.1暂态分析
5.5.2稳态概率的直观解释
5.5.3稳态概率在决策中的用法
5.5.4平均最先通过时间
5.5.5在计算机上求解稳态概率和平均最先通过时间
5.6吸收链
5.7劳动力规划模型
5.8本章小结
5.8.1n步转移概率
5.8.2马尔可夫链中的状态分类
5.8.3稳态概率
5.8.4吸收链
5.8.5劳动力规划模型
5.9复习题
第6章 确定性动态规划
6.1两个难题
6.2网络问题
6.2.1动态规划的计算效率
6.2.2动态规划应用的特征
6.3存储问题
6.4资源分配问题
6.4.1资源示例的网络表示
6.4.2广义的资源分配问题
6.4.3使用动态规划求解背包问题
6.4.4背包问题的网络表示
6.4.5背包问题的可供选择的递归
6.4.6收费理论
6.5设备更新问题
6.5.1设备更新问题的网络表示
6.5.2可供选择的递归
6.6表述动态规划递归
6.6.1将资金的时间价值纳入动态规划表述中
6.6.2使用动态规划的计算难点
6.6.3非求和递归
6.7Wagner?Whitin算法和Silver?Meal启发式算法
6.7.1动态批量模型简介
6.7.2Wagner?Whitin算法的论述
6.7.3Silver?Meal启发式算法
6.8使用Excel求解动态规划问题
6.8.1在电子表格上求解背包问题
6.8.2在电子表格上求解一般的资源分配问题
6.8.3在电子表格上求解库存问题
6.9本章小结
6.9.1逆推
6.9.2动态批量模型的Wagner?Whitin算法和Silver?Meal启发式算法
6.9.3计算时的注意事项
6.10复习题
第7章 随机性动态规划
7.1当前阶段的费用不确定,而下一周期的状态确定
7.2随机性存储模型
7.3如何最大化有利事件发生的概率
7.4随机性动态规划表述的更多示例
7.5马尔可夫决策过程
7.5.1MDP的描述
7.5.2策略迭代
7.5.3线性规划
7.5.4值迭代
7.5.5最大化每个周期的平均收益
7.6本章小结
7.6.1表述随机性动态规划问题(PDP)的关键
7.6.2最大化有利事件发生的概率
7.6.3马尔可夫决策过程
7.6.4策略迭代
7.6.5线性规划
7.6.6值迭代或连续近似值
7.7复习题
第8章 排队论
8.1一些排队术语
8.1.1输入或到达过程
8.1.2输出或者服务过程
8.1.3排队规则
8.1.4到达者加入队列的方式
8.2建立到达和服务过程的模型
8.2.1建立到达过程的模型
8.2.2建立服务过程的模型
8.2.3排队系统的kendall?Lee符号表示法
8.2.4等待时间矛盾论
8.3生灭过程
8.3.1生灭过程的动作定理
8.3.2指数分布与生灭过程的关系
8.3.3生灭过程的稳态概率的推导
8.3.4求解生灭流量平衡方程
8.3.5使用电子表格计算稳态概率
8.4M/M/1/GD/∞/∞排队系统和排队公式L=λW
8.4.1稳态概率的推导
8.4.2L的推导
8.4.3Lq的推导
8.4.4Ls的推导
8.4.5排队公式L=λW
8.4.6排队优化模型
8.4.7使用电子表格计算M/M/1/GD/∞/∞排队系统
8.5M/M/1/GD/c/∞排队系统
8.6M/M/s/GD/∞/∞排队系统
8.6.1使用电子表格计算M/M/s/GD/∞/∞排队系统
8.6.2使用LINGO计算M/M/s/GD/∞/∞排队系统
8.7M/G/∞/GD/∞/∞和GI/G/∞/GD/∞/∞模型
8.8M/G/1/GD/∞/∞排队系统
8.9有限源模型: 机器维修模型
8.9.1使用电子表格计算机器维修问题
8.9.2使用LINGO计算机器维修模型
8.10串行指数分布队列和开放式排队网络
8.10.1开放式排队网络
8.10.2数据通信网络的网络模型
8.11M/G/s/GD/s/∞系统(被阻挡客户被清除)
8.11.1使用电子表格计算BCC模型
8.11.2使用LINGO计算BCC模型
8.12如何断定到达时间间隔和服务时间服从指数分布
8.13闭合式排队网络
8.14G/G/m排队系统的近似求解法
8.15优先排队模型
8.15.1非抢占式优先模型
8.15.2Mi/Gi/1/NPRP/∞/∞模型
8.15.3具有客户等待成本的Mi/Gi/1/NPRP/∞/∞模型
8.15.4Mi/M/s/NPRP/∞/∞模型
8.15.5抢占式优先级
8.16排队系统的瞬变行为
8.17本章小结
8.17.1指数分布
8.17.2爱尔朗分布
8.17.3生灭过程
8.17.4排队系统参数的表示法
8.17.5M/M/1/GD/∞/∞模型
8.17.6M/M/1/GD/c/∞模型
8.17.7M/M/s/GD/∞/∞模型
8.17.8M/G/∞/GD/∞/∞模型
8.17.9M/G/1/GD/∞/∞模型
8.17.10机器维修(M/M/R/GD/K/K)模型
8.17.11串行指数分布队列
8.17.12M/G/s/GD/s/∞模型
8.17.13到达时间间隔或服务时间不服从指数分布的处理
8.17.14闭合式排队网络
8.17.15G/G/m排队系统的近似求解法
8.17.16排队系统的瞬变行为
8.18复习题
第9章 模拟技术
9.1基本术语
9.2离散事件模拟示例
9.3随机数和蒙特卡罗模拟
9.3.1随机数生成器
9.3.2随机数的计算机生成
9.4蒙特卡罗模拟示例
9.5使用连续随机变量执行模拟
9.5.1逆转方法
9.5.2接受?排除法
9.5.3正态分布的直接和卷积方法
9.6随机模拟示例
9.7模拟中的统计分析
9.8模拟语言
9.9模拟过程
9.10本章小结
9.10.1模拟简介
9.10.2模拟过程
9.10.3生成随机变量
9.10.4模拟类型
9.11复习题
第10章 使用Process Model执行模拟
10.1模拟M/M/1排队系统
10.2模拟M/M/2系统
10.3模拟串行系统
10.4模拟开放式排队网络
10.5模拟爱尔朗服务时间
10.6Process Model的其他功能
10.7复习题
第11章 使用Excel插件@Risk执行模拟
11.1@Risk简介: 卖报人问题
11.1.1求解预期利润的置信区间
11.1.2使用RISKNORMAL函数建立正态需求模型
11.1.3求解目标和百分比
11.1.4用@Risk创建图
11.1.5使用Report Settings选项
11.1.6使用@Risk统计
11.2建立新产品现金流模型
11.2.1三角形随机变量
11.2.2Lilly模型
11.3项目计划模型
11.4可靠性和保修建模
11.4.1机器使用寿命的分布
11.4.2机器组合的一般类型
11.4.3 估计保修费用
11.5RISKGENERAL函数
11.6RISKCUMULATIVE随机变量
11.7RISKTRIGEN随机变量
11.8基于点值预测创建分布
11.9预测大型公司的收入
11.9.1净收入不相关的求解方法
11.9.2检查相关性
11.10使用数据获得新产品模拟的输入
11.10.1模拟容量不确定性的方案
11.10.2用一个独立变量模拟统计关系
11.11模拟和投标
11.12用@Risk玩掷双骰子游戏
11.13模拟NBA总决赛
11.14复习题
第12章 使用Riskoptimizer在不确定情况下实现最优化
12.1Riskoptimizer介绍: 卖报人问题
12.1.1Settings图标
12.1.2Start Optimization图标
12.1.3Pause Optimization图标
12.1.4Stop Optimization图标
12.1.5Display Watcher图标
12.1.6将Riskoptimizer用于日历示例
12.2涉及历史数据的卖报人问题
12.3不确定情况下的人员安排
12.4产品组合问题
12.5不确定情况下的农业计划
12.6加工车间作业安排
12.7旅行推销员问题
12.8复习题
第13章 期权定价和实际期权
13.1股票价格的对数正态模型
13.1.1均值的历史数据估计和股票利润的波动率
13.1.2求对数正态分布变量的均值和方差
13.1.3对数正态随机变量的置信区间
13.2期权的定义
13.3实际期权的类型
13.3.1购买飞机的期权
13.3.2放弃期权
13.3.3其他实际期权机会
13.4用套利法评估期权
13.4.1在买入期权定价不当的情况下创造赚钱机器
13.4.2为什么股票的上涨率不影响买入价格
13.5Black?Scholes期权定价公式
13.6估计波动率
13.7期权定价的风险中立法
13.7.1风险中立法背后的逻辑
13.7.2风险中立定价的示例
13.7.3证明美式买入期权决不应及早执行
13.8用Black?Scholes公式评估Internet启动项目和Web TV
13.8.1评估Internet启动项目
13.8.2评估“创新期权”: Web TV
13.9二项式模型和对数正态模型之间的关系
13.10使用二项树给美式期权定价
13.10.1股票价格树
13.10.2最优决策策略
13.10.3使用条件格式化描述最优执行策略
13.10.4灵敏度分析
13.10.5与放弃期权的关系
13.10.6计算及早执行边界
13.10.7应当何时放弃
13.11通过模拟给欧式卖出和买入期权定价
13.12使用模拟评估实际期权
第14章 投资组合风险、优化和规避风险
14.1风险价值度量
14.2投资组合优化: Markowitz法
14.2.1随机变量的和: 均值和方差
14.2.2矩阵乘法和投资组合优化
14.3使用情境法优化投资组合
14.3.1自举未来的年度利润
14.3.2使投资组合的标准差风险最小化
14.3.3使损失的概率最小化
14.3.4使Sharpe比率最大化
14.3.5使负面风险最小化
14.3.6极小极大方法
14.3.7最大化VAR
第15章 预测模型
15.1移动平均数预测法
15.2单指数平滑法
15.3Holt法: 涉及趋势的指数平滑法
15.4Winter法: 涉及季节性的指数平滑法
15.4.1Winter法的初始化
15.4.2预测精确度
15.5Ad Hoc预测法
15.6简单线性回归
15.6.1适合情况
15.6.2预测精确度
15.6.3回归中的t检定
15.6.4简单线性回归模型下面的假设条件
15.6.5用Excel运行回归
15.6.6用Excel获得散点图
15.7适当表现非线性关系
15.7.1用电子表格适当表现非线性关系
15.7.2使用Excel Trend Curve
15.8多重回归
15.8.1预计βi的值
15.8.2重新分析拟合优度
15.8.3假设检验
15.8.4选择最佳的回归方程
15.8.5多重共线性
15.8.6哑变量
15.8.7解释哑变量的系数
15.8.8倍增模型
15.8.9多重回归中的异方差性和自相关
15.8.10在电子表格上实现多重回归
15.9本章小结
15.9.1移动平均数预测法
15.9.2单指数平滑法
15.9.3Holt法
15.9.4Winter法
15.9.5简单线性回归
15.9.6适当表现非线性关系
15.9.7多重回归
15.10复习题
第16章 布朗运动、随机运算和随机控制
16.1什么是布朗运动
16.2推导作为随机活动极限的布朗运动
16.3随机微分方程
16.4Ito引理
16.5使用Ito引理推导Black?Scholes期权定价模型
16.6随机控制简介
16.7复习题

㈧ 生物信息学

一, 生物信息学发展简介

生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就

必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结

构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物

成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),

在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们

仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.

1944年Chargaff发现了着名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧

定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin

用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和Francis

Crick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形

成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基

对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的

遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.

DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大

肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接

成DNA.DNA的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验

方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递

的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心

法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起

到了极其重要的指导作用.

经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码

得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程

的技术基础.

正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息

学的出现也就成了一种必然.

2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮.

由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每

天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一

个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发

现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域

的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA

序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,

分子演化及结构生物学,统计学及计算机科学等许多领域.

生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信

息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核

苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在

发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的

功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根

据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研

究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗

传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研

究的前沿.

二, 生物信息学的主要研究方向

生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些

主要的研究重点.

1,序列比对(Sequence Alignment)

序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似

性.从生物学的初衷来看,这一问题包含了以下几个意义[3]:

从相互重叠的序列片断中重构DNA的完整序列.

在各种试验条件下从探测数据(probe data)中决定物理和基因图

存贮,遍历和比较数据库中的DNA序列

比较两个或多个序列的相似性

在数据库中搜索相关序列和子序列

寻找核苷酸(nucleotides)的连续产生模式

找出蛋白质和DNA序列中的信息成分

序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前

两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权

和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个

序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海

量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算

法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,着名的

BALST和FASTA算法及相应的改进方法均是从此前提出发的.

2, 蛋白质结构比对和预测

基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.

蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般

相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),

蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸

的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.

研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找docking

drugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.

直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构

在进化中更稳定的保留,同时也包含了较AA序列更多的信息.

蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应

(不一定全真),物理上可用最小能量来解释.

从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同

源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用

于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较

进化族中不同的蛋白质结构.

然而,蛋白结构预测研究现状还远远不能满足实际需要.

3, 基因识别,非编码区分析研究.

基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组

序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢

弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序

列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码

区DNA序列目前没有一般性的指导方法.

在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已

完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序

列是难以想象的.

侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔

可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden

Markov Model)和GENSCAN,Splice Alignment等等.

4, 分子进化和比较基因组学

分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进

化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相

关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似

性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.

早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化

的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角

度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:

Orthologous: 不同种族,相同功能的基因

Paralogous: 相同种族,不同功能的基因

Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.

这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白

质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统

的聚类方法(如UPGMA)来实现.

5, 序列重叠群(Contigs)装配

根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,

如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列

全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直

至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个

NP-完全问题.

6, 遗传密码的起源

通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上

一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.

不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说

来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源

和检验上述理论的真伪提供了新的素材.

7, 基于结构的药物设计

人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,

相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物

治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要

的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础

上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一

领域目的是发现新的基因药物,有着巨大的经济效益.

8, 其他

如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,

逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的

学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组

学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学.

从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对

与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认

识.

三, 生物信息学与机器学习

生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.

常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问

题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完

备的生命组织理论.

西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作

时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采

用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"

模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.

机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能

[5].

机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,

而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花

费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,

快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因

而,生物信息学与机器学习相结合也就成了必然.

机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是

统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推

理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马

尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和

探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般

的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析

(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(Locally

Linear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可

看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于

microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数

据库中获得相应的现象解释.

机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多

假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息

学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻

找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络

和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.

四, 生物信息学的数学问题

生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息

学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型

(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质

空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓

扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理

论或多或少在生物学研究中起到了相应的作用.

但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学

和度量空间为例来说明.

1, 统计学的悖论

数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显着的悖

论莫过于均值了,如图1:

图1 两组同心圆的数据集

图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也

就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多

的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法

和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于

对数据的结构缺乏一般性认识而产生的.

2, 度量空间的假设

在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举

例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分

值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.

那么,是否这种前提假设具有普适性呢

我们不妨给出一般的描述:假定两个向量为A,B,其中,

,则在假定且满足维数间线性无关的前提下,两个

向量的度量可定义为:

(1)

依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息

学中常采用的一般性描述,即假定了变量间线性无关.

然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考

虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的

度量公式可由下式给出:

(2)

上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足

(3)

时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线

性相关性,我们正在研究这个问题.

五, 几种统计学习理论在生物信息学中应用的困难

生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却

一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的

巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来

改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov

复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介

绍.

支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计

学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则

采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性

质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函

数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核

函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选

择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中

又一个大气泡.

Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习

的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov

复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只

适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参

数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.

BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的

惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近

年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验

的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索

的空间.

六, 讨论与总结

人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平

上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互

关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这

些问题做出探讨和思索.

启发式方法:

Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优

的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得

到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的

困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能

达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,

要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,

要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工

智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.

问题规模不同的处理:

Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数

据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这

好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法

一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同

样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据

挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用

动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.

乐观中的隐扰

生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因

组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在

的隐扰呢

不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出

十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相

同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成

果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,

这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的

本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不

能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现

实.

反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从

结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所

有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来

自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人

工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的

功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我

们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐

观呢 现在说肯定的话也许为时尚早.

综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,

是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为

各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方

面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全

明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正

的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从

数学上的新思路来获得本质性的动力.

毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,

这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列

以及相关的内容,我们还有相当长的路要走.

(来源 ------[InfoBio.org | 生物信息学研讨组])http://www.infobio.org
生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。

生物信息学是一门利用计算机技术研究生物系统之规律的学科。

目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。

1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?

生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。

生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学

姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。
原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。

㈨ 概率图模型的概率图模型的推理算法

根据网络结构与查询问题类型的不同,概率图模型的推理算法有
(1)贝叶斯网络与马尔可夫网络 中解决概率查询问题的精确推理算法与近似推理算法,其中具体包括精确推理中的VE算法、递归约束算法和团树算法,以及近似推理中的变分近似推理和抽样近似推理算法;(2)解决MAP查询问题的常用推理算法;(3)混合网络的连续与混合情况阐述其推理算法;(4)暂态网络的精确推理、近似推理以及混合情况下的推理。

㈩ 什么是生物信息学

生物信息学
一, 生物信息学发展简介

生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就

必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结

构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物

成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),

在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们

仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.

1944年Chargaff发现了着名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧

定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin

用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和Francis

Crick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形

成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基

对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的

遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.

DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大

肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接

成DNA.DNA的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验

方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递

的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心

法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起

到了极其重要的指导作用.

经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码

得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程

的技术基础.

正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息

学的出现也就成了一种必然.

2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮.

由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每

天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一

个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发

现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域

的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA

序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,

分子演化及结构生物学,统计学及计算机科学等许多领域.

生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信

息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核

苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在

发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的

功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根

据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研

究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗

传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研

究的前沿.

二, 生物信息学的主要研究方向

生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些

主要的研究重点.

1,序列比对(Sequence Alignment)

序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似

性.从生物学的初衷来看,这一问题包含了以下几个意义[3]:

从相互重叠的序列片断中重构DNA的完整序列.

在各种试验条件下从探测数据(probe data)中决定物理和基因图

存贮,遍历和比较数据库中的DNA序列

比较两个或多个序列的相似性

在数据库中搜索相关序列和子序列

寻找核苷酸(nucleotides)的连续产生模式

找出蛋白质和DNA序列中的信息成分

序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前

两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权

和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个

序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海

量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算

法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,着名的

BALST和FASTA算法及相应的改进方法均是从此前提出发的.

2, 蛋白质结构比对和预测

基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.

蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般

相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),

蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸

的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.

研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找docking

drugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.

直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构

在进化中更稳定的保留,同时也包含了较AA序列更多的信息.

蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应

(不一定全真),物理上可用最小能量来解释.

从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同

源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用

于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较

进化族中不同的蛋白质结构.

然而,蛋白结构预测研究现状还远远不能满足实际需要.

3, 基因识别,非编码区分析研究.

基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组

序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢

弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序

列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码

区DNA序列目前没有一般性的指导方法.

在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已

完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序

列是难以想象的.

侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔

可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden

Markov Model)和GENSCAN,Splice Alignment等等.

4, 分子进化和比较基因组学

分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进

化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相

关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似

性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.

早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化

的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角

度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:

Orthologous: 不同种族,相同功能的基因

Paralogous: 相同种族,不同功能的基因

Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.

这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白

质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统

的聚类方法(如UPGMA)来实现.

5, 序列重叠群(Contigs)装配

根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,

如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列

全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直

至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个

NP-完全问题.

6, 遗传密码的起源

通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上

一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.

不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说

来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源

和检验上述理论的真伪提供了新的素材.

7, 基于结构的药物设计

人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,

相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物

治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要

的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础

上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一

领域目的是发现新的基因药物,有着巨大的经济效益.

8, 其他

如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,

逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的

学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组

学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学.

从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对

与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认

识.

三, 生物信息学与机器学习

生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.

常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问

题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完

备的生命组织理论.

西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作

时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采

用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"

模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.

机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能

[5].

机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,

而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花

费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,

快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因

而,生物信息学与机器学习相结合也就成了必然.

机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是

统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推

理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马

尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和

探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般

的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析

(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(Locally

Linear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可

看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于

microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数

据库中获得相应的现象解释.

机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多

假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息

学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻

找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络

和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.

四, 生物信息学的数学问题

生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息

学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型

(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质

空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓

扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理

论或多或少在生物学研究中起到了相应的作用.

但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学

和度量空间为例来说明.

1, 统计学的悖论

数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显着的悖

论莫过于均值了,如图1:

图1 两组同心圆的数据集

图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也

就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多

的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法

和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于

对数据的结构缺乏一般性认识而产生的.

2, 度量空间的假设

在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举

例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分

值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.

那么,是否这种前提假设具有普适性呢

我们不妨给出一般的描述:假定两个向量为A,B,其中,

,则在假定且满足维数间线性无关的前提下,两个

向量的度量可定义为:

(1)

依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息

学中常采用的一般性描述,即假定了变量间线性无关.

然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考

虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的

度量公式可由下式给出:

(2)

上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足

(3)

时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线

性相关性,我们正在研究这个问题.

五, 几种统计学习理论在生物信息学中应用的困难

生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却

一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的

巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来

改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov

复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介

绍.

支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计

学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则

采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性

质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函

数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核

函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选

择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中

又一个大气泡.

Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习

的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov

复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只

适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参

数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.

BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的

惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近

年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验

的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索

的空间.

六, 讨论与总结

人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平

上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互

关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这

些问题做出探讨和思索.

启发式方法:

Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优

的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得

到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的

困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能

达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,

要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,

要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工

智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.

问题规模不同的处理:

Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数

据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这

好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法

一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同

样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据

挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用

动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.

乐观中的隐扰

生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因

组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在

的隐扰呢

不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出

十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相

同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成

果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,

这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的

本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不

能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现

实.

反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从

结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所

有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来

自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人

工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的

功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我

们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐

观呢 现在说肯定的话也许为时尚早.

综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,

是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为

各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方

面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全

明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正

的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从

数学上的新思路来获得本质性的动力.

毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,

这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列

以及相关的内容,我们还有相当长的路要走.

(来源 ------[InfoBio.org | 生物信息学研讨组])http://www.infobio.org
生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。

生物信息学是一门利用计算机技术研究生物系统之规律的学科。

目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。

1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?

生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。

生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学

阅读全文

与马尔可夫与启发式算法相关的资料

热点内容
儿女传奇电影系列 浏览:593
武平废品回收小程序源码 浏览:273
工作者迷失1963电影 浏览:703
余美颜摩登情书txt 浏览:819
linux命令大全完整版 浏览:829
单片机画电路图用什么软件好 浏览:108
phpfpm工作原理 浏览:421
加密u盘定制哪家好 浏览:947
如何将视频做成动态表情包安卓 浏览:964
外置打印服务器是什么 浏览:321
加密电脑钱包 浏览:693
javastring编程题 浏览:796
淑女宠爱在线电影 浏览:879
ipadstore是什么app 浏览:485
如何看华为服务器raid的型号 浏览:275
于谦和王宝强一起演的电影 浏览:800
python学习手册epub 浏览:931
日韩经典悬疑犯罪电影推荐 浏览:576
现在能看的网站 浏览:781