導航:首頁 > 源碼編譯 > 馬爾可夫與啟發式演算法

馬爾可夫與啟發式演算法

發布時間:2022-10-01 17:50:36

㈠ 馬爾可夫的數學貢獻

不定方程稱為馬爾可夫方程。
求解方法如下:
先憑觀察找出(x1,x2,x3) = (1,1,1)這組解。
方程可視為一個x3為未知數的一元二次方程。根據韋達定理,可知(x1,x2,3x1x2 − x3)(留意)也是一個解。
這個方程有無限個解。
事實上,用這個方法由(1,1,1)開始,可以找出這方程的所有正整數數組解。
在此不定方程的解出現的正整數稱為馬爾可夫數(Markov number),它們由小到大是:
1, 2, 5, 13, 29, 34, 89, 169, 194, 233, 433, 610, 985, 1325, ... (OEIS:A002559)
它們組成的解是:
(1, 1, 1), (1, 1, 2), (1, 2, 5), (1, 5, 13), (2, 5, 29), (1, 13, 34), (1, 34, 89), (2, 29, 169), (5, 13, 194), (1, 89, 233), (5, 29, 433), (89, 233, 610) ... 馬爾可夫方程的解
馬爾可夫數可以排成一棵二叉樹(如圖)。
在二叉樹上,和1的范圍相鄰的數(即2, 5, 13, 34, 89, ...),都是相隔的斐波那契數(斐波那契數的定義為,即1, 1, 2, 3, 5, 8, 13, 21, 34 , 55, 89...)。這是說()都是此方程的解。
和2的范圍鄰接的數(即1, 5, 29, 169, ...)也有相似的特質:它們都是相隔的佩爾數(佩爾數的定義為,即1, 2, 5, 12, 29, 70, 169... )。 馬爾可夫-赫爾維茨方程(Markoff-Hurwitz equation),是指形式如的不定方程,其中a,n是正整數。
赫爾維茨證明方程有(0,...,0)之外的解唯若。 概述
馬爾可夫決策過程是基於馬爾可夫過程理論的隨機動態系統的最優決策過程。馬爾可夫決策過程是序貫決策的主要研究領域。它是馬爾可夫過程與確定性的動態規劃相結合的產物,故又稱馬爾可夫型隨機動態規劃,屬於運籌學中數學規劃的一個分支。
馬爾可夫決策過程是指決策者周期地或連續地觀察具有馬爾可夫性的隨機動態系統,序貫地作出決策。即根據每個時刻觀察到的狀態,從可用的行動集合中選用一個行動作出決策,系統下一步(未來)的狀態是隨機的,並且其狀態轉移概率具有馬爾可夫性。決策者根據新觀察到的狀態,再作新的決策,依此反復地進行。馬爾可夫性是指一個隨機過程未來發展的概率規律與觀察之前的歷史無關的性質。馬爾可夫性又可簡單敘述為狀態轉移概率的無後效性。狀態轉移概率具有馬爾可夫性的隨機過程即為馬爾可夫過程。馬爾可夫決策過程又可看作隨機對策的特殊情形,在這種隨機對策中對策的一方是無意志的。馬爾可夫決策過程還可作為馬爾可夫型隨機最優控制,其決策變數就是控制變數。
發展概況
50年代R.貝爾曼研究動態規劃時和L.S.沙普利研究隨機對策時已出現馬爾可夫決策過程的基本思想。R.A.霍華德(1960)和D.布萊克韋爾(1962)等人的研究工作奠定了馬爾可夫決策過程的理論基礎。1965年,布萊克韋爾關於一般狀態空間的研究和E.B.丁金關於非時齊(非時間平穩性)的研究,推動了這一理論的發展。1960年以來,馬爾可夫決策過程理論得到迅速發展,應用領域不斷擴大。凡是以馬爾可夫過程作為數學模型的問題,只要能引入決策和效用結構,均可應用這種理論。
數學描述
周期地進行觀察的馬爾可夫決策過程可用如下五元組來描述:{S,(A(i),i∈S,q,γ,V},其中S 為系統的狀態空間(見狀態空間法); A(i)為狀態i(i∈S)的可用行動(措施,控制)集;q為時齊的馬爾可夫轉移律族,族的參數是可用的行動;γ是定義在Γ(Г呏{(i,ɑ):a∈A(i),i∈S}上的單值實函數;若觀察到的狀態為i,選用行動a,則下一步轉移到狀態 j的概率為q(j│i,ɑ),而且獲得報酬γ(j,ɑ),它們均與系統的歷史無關;V是衡量策略優劣的指標(准則)。
策略
策略是提供給決策者在各個時刻選取行動的規則,記作π=(π0,π1,π2,…, πn,πn+1…),其中πn是時刻 n選取行動的規則。從理論上來說,為了在大范圍尋求最優策略πn,最好根據時刻 n以前的歷史,甚至是隨機地選擇最優策略。但為了便於應用,常採用既不依賴於歷史、又不依賴於時間的策略,甚至可以採用確定性平穩策略。
指標
衡量策略優劣的常用指標有折扣指標和平均指標。折扣指標是指長期折扣〔把 t時刻的單位收益摺合成0時刻的單位收益的βt(β < 1)倍〕期望總報酬;平均指標是指單位時間的平均期望報酬。
採用折扣指標的馬爾可夫決策過程稱為折扣模型。業已證明:若一個策略是β折扣最優的,則初始時刻的決策規則所構成的平穩策略對同一β也是折扣最優的,而且它還可以分解為若干個確定性平穩策略,它們對同一β都是最優的。現在已有計算這種策略的演算法
採用平均指標的馬爾可夫決策過程稱為平均模型。業已證明:當狀態空間S 和行動集A(i)均為有限集時,對於平均指標存在最優的確定性平穩策略;當S和(或)A(i)不是有限的情況,必須增加條件,才有最優的確定性平穩策略。計算這種策略的演算法也已研製出來。

㈡ 幾種常見物流選址模型的優劣和發展

1、連續型選址模型

連續模型認為設施的地點可在平面上取任意點, 較為典型的研究方法是和用重心法解決歐式距離選址問題。這個方法的優點是不限於在特定的備選地點進行選擇, 靈活性較大。但由於自由度較大、城市的地理條件限制, 因此, 選出的地址很可能是無法實現的地點;同時將線路考慮為直線也是不符合實際的。魯曉春對重心法選址作了深入的研究, 認為原有重心法存在問題, 並用流通費用偏微分方程來取代原有的計算公式。

由於重心法選址具有演算法簡單、應用靈活的特點, 人們將重心法與其它方法相結合, 並將其引入到多目標組合優化問題中, 但都只針對單一設施選址問題。其中, Point-Objective問題、連續型多目標( min-sum)選址問題、網路多目標中位數選址問題等被認為是最具代表性的研究。後來, 連續模型的擴展模型針對是多個設施的選址問題, 稱其為多源Weber問題, 該問題是個NP難題。Rosing提出了求解該問題的精確演算法, Goldengorin提出了求解該問題的啟發式演算法, 上述擴展模型只針對單一設施選址問題。對於選擇兩個設施的特例, Brimberg和Chen對該模型進行了進一步的研究和分析, 並提供相應的啟發式演算法。

2、離散型選址模型

這類方法認為配送中心的備選地點是有限的幾個場所, 最合適的地點只能從中選出, 經典的方法有Kuehn-Hamburger模型法、鮑姆爾沃爾夫法、混合整數規劃法、CFLP法(Capacitatied Facility Location Problem)和P-中值問題。

鮑姆爾沃爾夫法的優點是:將中心的可變費用表為凹函數, 可估計選定的配送中心流量, 提供的啟發式演算法較為簡單易行。不足:沒考慮配送中心的固定費用及容量限制, 可能造成選定的中心個數過多(或過少) 。

為彌補其缺陷, 又建立混合整數規劃模型, 將中心的固定費用、經營管理費用、運輸費用和庫存費列入目標函數, 將容量限制及中心個數限制列入約束條件。不足:將可變費用改為按線性關系處理, 這種倒退主要來自求解的考慮, 但求解此模型的計算量仍很大。由於變數和約束條件眾多、形式復雜, 一般用啟發式演算法求解。

設計使用法求解, 用組合進化方法求解該類問題。上述求解都是基於這兩個基本假設:一是主要考慮運輸費用;二

是不存在競爭對手。提出了九個基本的選址模型, 包括簡單選址模型、有容量限制的選址模型、需求變動的選址模型、動態選址模型等, 目標函數是使運輸費用和固定選址投資費用最小。除考慮了選址的固定費用、運輸費用外, 還考慮了庫存費用;用分解演算法進行了求解。考慮了非線性運輸費用的選址問題, 用分枝定界法求解。採用雙層規劃求解運輸網路中公共物流轉運站點的選址。魏巧雲考慮運輸成本和運營可變成本, 建立了多個配送中心的選址模型。盧安文建立了緊急情況下的配送模型, 以時間、費用為優化目標。劉海燕在分析了系統中庫存管理、運輸、配送中心之間的聯系後,用最優化方法構建了選址模型。對進行一個較為全面的研究, 展示了以前的研究所沒有考慮的一些問題, 如多商品問題等。研究的問題在結構上是兩級的, 包括多個工廠、倉庫和目的地。上述研究不足之處:均沒有考慮設施的固定運行成本的問題。

P-中值問題是指在一個給定數量和位置的需求集合和一個候選設施位置的集合下, 分別為個設施找到合適的位置, 並指派每個需求點到一個特定的設施, 使之達到在設施和需求點之間的運費最低。研究基於歐式距離的中值問題。提出了使用禁忌搜索和可變鄰域搜索方法來求解中值模型的啟發式演算法。尹傳忠提出了使用局部搜索和可變鄰域搜索方法來求解中值模型的啟發式演算法。提出了運用詞典區域局部搜索法求解中值問題。用模擬退火演算法、用遺傳演算法求解中值問題。

離散型選址問題的目標函數涉及到運輸(交通成本)、投資成本(建設成本)、客戶服務水平(在特定時間、距離為客戶提供服務)、設施能力利用率等兩個及以上的目標優化時, 就是所謂的多目標規劃選址問題。與單目標選址問題比較, 多目標選址問題的求解更加困難。提出的應用整數目標規劃來求解多目標選址問題。與對多目標問題的處理方法是將一個主要目標作為總目標, 將要實現的目標作為限制條件來將它轉化為單目標規劃問題。通過對對稱解的研究, 解決離散型多目標選址問題。

3、動態模型

動態選址模型是解決如何在需求和成本變化的跨時間周期的規劃期內對設施進行選址, 使得總的長期成本最小的問題。通過以下幾種方法可以找到隨時間變化的最優布局:

可以使用現期條件和未來某年的預期情況, 找出倉庫最佳位置。

認為設施地點配置不能長期保證最優, 提出隨時間變化的動態選址模型。研究多個設施在分階段時期選址分配的問題, 並應用動態規劃法來解決該問題。孫會君對新增配送中心如何進行有效的選址決策問題進行了研究, 並給出了求解的迭代演算法。

( )可以找到一個隨時間變化的最優布局變化軌跡, 精確地反映什麼時候需要轉換成新布局, 應該轉換成什麼樣的布局。考慮了選址問題的動態特性和需求的隨機變動性, 建立動態選址模型和隨機選址模型。根據實際問題的特點, 建立了一個考慮時間因素的動態選址的基本模型。

( )找出目前最優網路布局, 並進行實施;隨後, 利用未來的數據,找出新的最優布局。研究了在整個規劃期內, 建立新的設施而原有的設施可以被關閉。模型考慮資金的時間價值, 目標函數是整個規劃期內的成本最小。

5、隨機模型

隨機模型其研究方法主要分為兩類:概率方法和情景計劃方法, 這兩種方法的系統輸入參數都是不確定性的。

對隨機的個中點問題和無能力限制的選址問題進行了研究, 模型中時間、距離、供應和需求為隨機變數。袁慶達建立了優化區域公共物流中心規模和選址問題的二級非線性規劃模型, 並設計了遺傳模擬退火演算法求解。先研究了行程時間狀態隨馬爾可夫狀態轉移矩陣變化的多個設施選址問題, 後又擴展到需求服從均勻分布時的最大最小和最小最大選址問題。和在網路節點需求和行程時間都是不確定的情況下, 建立了目標函數為服務最小、需求最大的隨機情景問題模型。楊波提出了一個隨機化的模型, 給出單個配送中心選址問題的一個量化的處理方法。

選址分配問題的定性研究這類方法是將專家憑經驗、專業知識做出的判斷以數值形式表示, 再經過綜合分析後對選址進行決策。首先, 根據影響物流設施選址的因素, 建立備選方案的評價指標體系;然後, 採用一定的評價方法(如:偏好理論、權重因素分析方法、專家評分法、層次分析法、模糊層次分析法、模糊綜合評判法、或者模糊多准則決策方法等)得到所需的評價指標的權重;最後, 通過求出各備選方案的優劣排序, 得到最優方案。

和用偏好理論將所有主觀因素兩兩比較從而為主觀因素賦予了權重值。和提出了一種權重因素分析方法將定量的數據和定性的評價值相結合, 在多個備選項中選擇合適的地址。先建立層次結構評價模型, 再用層次分析法確定配送中心最優位置。陸琳琳引入模糊評價方法, 全面考慮選址過程中的各項因素, 使選址評價更客觀、合理。提出模糊多准則決策方法, 用於解決模糊環境下的配送中心選址問題。

值得注意的是, 在應用定性評價時有兩個關鍵環節, 其中首要環節是評價指標體系的設計;其次是評價指標的量化。無論是定性還是定量, 評價指標的隸屬度的量化都要科學合理。一方面, 要採取定性與定量分析相結合的方法准確地進行評價指標隸屬度的刻畫, 另一方面, 要注意不同評價指標的隸屬度在量級上的一致性與可比性。

在綜合考慮各種影響因素的基礎上, 對影響選址的因素劃分為兩層指標體系;構建出包括自然條件、經濟因素、投資環境情況與其他因素個一級指標和個二級指標。通過真實的案例對軍事物流系統的選址進行了研究, 劃分為兩層指標體系;包括氣候、地質、軍事、經濟和基礎設施個一級指標和個二級指標。

採用模糊定量的方法, 對轉運型的國際配送中心進行評價, 構建出包括內在因素和外在因素個一級指標和個二級指標的兩層評價體系。傅新平結合物流中心的職能, 從經濟和社會效益兩個方面出發, 建立了個一級指標和個二級指標。吳迎學設計了多因素評價指標體系, 第一層次是物流環境、生產能力、經濟效益指標, 它們是決定物流中心設計方案優劣的主要因素;第二層次是對上述指標進一步評價而細分的因素集, 共計個二級指標。韓世蓮運用多准則模糊層次分析法進行配送中心選址的綜合評價與決策, 從自然環境、交通運輸、經營環境、地理條件和公共設施五個方面綜合考慮, 並建立了由三層共計條准則構成的評價指標體系。夏景虹設計了包括區位條件、交通設施、其他設施、建設條件和社會環境個一級指標和個二級指標。劉文歌用德爾斐法建立了配送中心選址方案評價指標體系, 採用成本型、效益型和區間型三個指標為級指標, 並設計了個二級指標。劉曉峰將經濟效益、社會效益及技術效能作為級指標, 又建立了個二級指標。

總體而言, 國內外相關研究對選址的評價指標主要考察社會效益、經濟效益以及技術效能個方面.

㈢ 數學建模-方法合集

線性規劃(Linear programming,簡稱LP)是運籌學中研究較早、發展較快、應用廣泛、方法較成熟的一個重要分支,它是輔助人們進行科學管理的一種數學方法。研究線性約束條件下線性目標函數的極值問題的數學理論和方法。英文縮寫LP。它是運籌學的一個重要分支,廣泛應用於軍事作戰、經濟分析、經營管理和工程技術等方面。為合理地利用有限的人力、物力、財力等資源作出的最優決策,提供科學的依據。

0-1規劃是決策變數僅取值0或1的一類特殊的整數規劃。在處理經濟管理中某些規劃問題時,若決策變數採用 0-1變數即邏輯變數,可把本來需要分別各種情況加以討論的問題統一在一個問題中討論。

蒙特卡羅法(Monte Carlo method)是以概率與統計的理論、方法為基礎的一種計算方法,蒙特卡羅法將所需求解的問題同某個概率模型聯系在一起,在電子計算機上進行隨機模擬,以獲得問題的近似解。因此,蒙特卡羅法又稱隨機模擬法或統計試驗法。

在生活中經常遇到這樣的問題,某單位需完成n項任務,恰好有n個人可承擔這些任務。由於每人的專長不同,各人完成任務不同(或所費時間),效率也不同。於是產生應指派哪個人去完成哪項任務,使完成n項任務的總效率最高(或所需總時間最小)。這類問題稱為指派問題或分派問題。

無約束最優化方法是求解無約束最優化問題的方法,有解析法和直接法兩類。

解析法

解析法就是利用無約束最優化問題中目標函數 f(x) 的解析表達式和它的解析性質(如函數的一階導數和二階導數),給出一種求它的最優解 x 的方法,或一種求 x 的近似解的迭代方法。

直接法

直接法就是在求最優解 x*的過程中,只用到函數的函數值,而不必利用函數的解析性質,直接法也是一種迭代法,迭代步驟簡單,當目標函數 f(x) 的表達式十分復雜,或寫不出具體表達式時,它就成了重要的方法。

可用來解決管路鋪設、線路安裝、廠區布局和設備更新等實際問題。基本內容是:若網路中的每條邊都有一個數值(長度、成本、時間等),則找出兩節點(通常是源節點和阱節點)之間總權和最小的路徑就是最短路問題。 [1]

例如:要在n個城市之間鋪設光纜,主要目標是要使這 n 個城市的任意兩個之間都可以通信,但鋪設光纜的費用很高,且各個城市之間鋪設光纜的費用不同,因此另一個目標是要使鋪設光纜的總費用最低。這就需要找到帶權的最小生成樹

管道網路中每條邊的最大通過能力(容量)是有限的,實際流量不超過容量。

最大流問題(maximum flow problem),一種組合最優化問題,就是要討論如何充分利用裝置的能力,使得運輸的流量最大,以取得最好的效果。求最大流的標號演算法最早由福特和福克遜與與1956年提出,20世紀50年代福特(Ford)、(Fulkerson)建立的「網路流理論」,是網路應用的重要組成成分。

最小費用最大流問題是經濟學和管理學中的一類典型問題。在一個網路中每段路徑都有「容量」和「費用」兩個限制的條件下,此類問題的研究試圖尋找出:流量從A到B,如何選擇路徑、分配經過路徑的流量,可以在流量最大的前提下,達到所用的費用最小的要求。如n輛卡車要運送物品,從A地到B地。由於每條路段都有不同的路費要繳納,每條路能容納的車的數量有限制,最小費用最大流問題指如何分配卡車的出發路徑可以達到費用最低,物品又能全部送到。

旅行推銷員問題(英語:Travelling salesman problem, TSP)是這樣一個問題:給定一系列城市和每對城市之間的距離,求解訪問每一座城市一次並回到起始城市的最短迴路。它是組合優化中的一個NP困難問題,在運籌學和理論計算機科學中非常重要。

最早的旅行商問題的數學規劃是由Dantzig(1959)等人提出,並且是在最優化領域中進行了深入研究。許多優化方法都用它作為一個測試基準。盡管問題在計算上很困難,但已經有了大量的啟發式演算法和精確方法來求解數量上萬的實例,並且能將誤差控制在1%內

計劃評審法(Program Evaluation and Review Technique,簡稱PERT),是指利用網路分析制訂計劃以及對計劃予以評價的技術。它能協調整個計劃的各道工序,合理安排人力、物力、時間、資金,加速計劃的完成。在現代計劃的編制和分析手段上,PERT被廣泛使用,是現代化管理的重要手段和方法。

關鍵路線法(Critical Path Method,CPM),又稱關鍵線路法。一種計劃管理方法。它是通過分析項目過程中哪個活動序列進度安排的總時差最少來預測項目工期的網路分析。

人口系統數學模型,用來描述人口系統中人的出生、死亡和遷移隨時間變化的情況,以及它們之間定量關系的數學方程式或方程組,又稱人口模型。

初值問題是指在自變數的某值給出適當個數的附加條件,用來確定微分方程的特解的這類問題。

如果在自變數的某值給出適當個數的附加條件,用來確定微分方程的特解,則這類問題稱為初值問題。

邊值問題是定解問題之一,只有邊界條件的定解問題稱為邊值問題。二階偏微分方程(組)一般有三種邊值問題:第一邊值問題又稱狄利克雷問題,它的邊界條件是給出未知函數本身在邊界上的值;第二邊值問題又稱諾伊曼邊值問題或斜微商問題,它的邊界條件是給出未知函數關於區域邊界的法向導數或非切向導數;第三邊值問題又稱魯賓問題,它的邊界條件是給出未知函數及其非切向導數的組合

目標規劃是一種用來進行含有單目標和多目標的決策分析的數學規劃方法。線性規劃的一種特殊類型。它是在線性規劃基礎上發展起來的,多用來解決線性規劃所解決不了的經濟、軍事等實際問題。它的基本原理、數學模型結構與線性規劃相同,也使用線性規劃的單純形法作為計算的基礎。所不同之處在於,它從試圖使目標離規定值的偏差為最小入手解題,並將這種目標和為了代表與目標的偏差而引進的變數規定在表達式的約束條件之中。

時間序列(或稱動態數列)是指將同一統計指標的數值按其發生的時間先後順序排列而成的數列。時間序列分析的主要目的是根據已有的歷史數據對未來進行預測。

支持向量機(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等於1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,並能夠推廣應用到函數擬合等其他機器學習問題中。

在機器學習中,支持向量機(SVM,還支持矢量網路)是與相關的學習演算法有關的監督學習模型,可以分析數據,識別模式,用於分類和回歸分析。

聚類分析法是理想的多變數統計技術,主要有分層聚類法和迭代聚類法。 聚類分析也稱群分析、點群分析,是研究分類的一種多元統計方法。

例如,我們可以根據各個銀行網點的儲蓄量、人力資源狀況、營業面積、特色功能、網點級別、所處功能區域等因素情況,將網點分為幾個等級,再比較各銀行之間不同等級網點數量對比狀況。

成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。

在實際課題中,為了全面分析問題,往往提出很多與此有關的變數(或因素),因為每個變數都在不同程度上反映這個課題的某些信息。

主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。

因子分析是指研究從變數群中提取共性因子的統計技術。最早由英國心理學家C.E.斯皮爾曼提出。他發現學生的各科成績之間存在著一定的相關性,一科成績好的學生,往往其他各科成績也比較好,從而推想是否存在某些潛在的共性因子,或稱某些一般智力條件影響著學生的學習成績。因子分析可在許多變數中找出隱藏的具有代表性的因子。將相同本質的變數歸入一個因子,可減少變數的數目,還可檢驗變數間關系的假設。

判別分析又稱「分辨法」,是在分類確定的條件下,根據某一研究對象的各種特徵值判別其類型歸屬問題的一種多變數統計分析方法。

其基本原理是按照一定的判別准則,建立一個或多個判別函數,用研究對象的大量資料確定判別函數中的待定系數,並計算判別指標。據此即可確定某一樣本屬於何類。

當得到一個新的樣品數據,要確定該樣品屬於已知類型中哪一類,這類問題屬於判別分析問題。

對互協方差矩陣的一種理解,是利用綜合變數對之間的相關關系來反映兩組指標之間的整體相關性的多元統計分析方法。它的基本原理是:為了從總體上把握兩組指標之間的相關關系,分別在兩組變數中提取有代表性的兩個綜合變數U1和V1(分別為兩個變數組中各變數的線性組合),利用這兩個綜合變數之間的相關關系來反映兩組指標之間的整體相關性。

對應分析也稱關聯分析、R-Q型因子分析,是近年新發展起來的一種多元相依變數統計分析技術,通過分析由定性變數構成的交互匯總表來揭示變數間的聯系。可以揭示同一變數的各個類別之間的差異,以及不同變數各個類別之間的對應關系。

對應分析主要應用在市場細分、產品定位、地質研究以及計算機工程等領域中。原因在於,它是一種視覺化的數據分析方法,它能夠將幾組看不出任何聯系的數據,通過視覺上可以接受的定點陣圖展現出來。

多維標度法是一種將多維空間的研究對象(樣本或變數)簡化到低維空間進行定位、分析和歸類,同時又保留對象間原始關系的數據分析方法。

在市場營銷調研中,多維標度法的用途十分廣泛。被用於確定空間的級數(變數、指標),以反映消費者對不同品牌的認知,並且在由這些維構築的空間中,標明某關注品牌和消費者心目中理想品牌的位置。

偏最小二乘法是一種數學優化技術,它通過最小化誤差的平方和找到一組數據的最佳函數匹配。 用最簡的方法求得一些絕對不可知的真值,而令誤差平方之和為最小。 很多其他的優化問題也可通過最小化能量或最大化熵用最小二乘形式表達。

系統介紹了禁忌搜索演算法、模擬退火演算法、遺傳演算法、蟻群優化演算法、人工神經網路演算法和拉格朗日鬆弛演算法等現代優化計算方法的模型與理論、應用技術和應用案例。

禁忌(Tabu Search)演算法是一種元啟發式(meta-heuristic)隨機搜索演算法,它從一個初始可行解出發,選擇一系列的特定搜索方向(移動)作為試探,選擇實現讓特定的目標函數值變化最多的移動。為了避免陷入局部最優解,TS搜索中採用了一種靈活的「記憶」技術,對已經進行的優化過程進行記錄和選擇,指導下一步的搜索方向,這就是Tabu表的建立。

模擬退火演算法來源於固體退火原理,是一種基於概率的演算法,將固體加溫至充分高,再讓其徐徐冷卻,加溫時,固體內部粒子隨溫升變為無序狀,內能增大,而徐徐冷卻時粒子漸趨有序,在每個溫度都達到平衡態,最後在常溫時達到基態,內能減為最小。

傳演算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型,是一種通過模擬自然進化過程搜索最優解的方法。遺傳演算法是從代表問題可能潛在的解集的一個種群(population)開始的,而一個種群則由經過基因(gene)編碼的一定數目的個體(indivial)組成。每個個體實際上是染色體(chromosome)帶有特徵的實體。染色體作為遺傳物質的主要載體,即多個基因的集合,其內部表現(即基因型)是某種基因組合,它決定了個體的形狀的外部表現,如黑頭發的特徵是由染色體中控制這一特徵的某種基因組合決定的。因此,在一開始需要實現從表現型到基因型的映射即編碼工作。由於仿照基因編碼的工作很復雜,我們往往進行簡化,如二進制編碼,初代種群產生之後,按照適者生存和優勝劣汰的原理,逐代(generation)演化產生出越來越好的近似解,在每一代,根據問題域中個體的適應度(fitness)大小選擇(selection)個體,並藉助於自然遺傳學的遺傳運算元(genetic operators)進行組合交叉(crossover)和變異(mutation),產生出代表新的解集的種群。這個過程將導致種群像自然進化一樣的後生代種群比前代更加適應於環境,末代種群中的最優個體經過解碼(decoding),可以作為問題近似最優解。

The Technique for Order of Preference by Similarity to Ideal Solution (TOPSIS) is a multi-criteria decision analysis method, which was originally developed by Hwang and Yoon in 1981[1] with further developments by Yoon in 1987,[2] and Hwang, Lai and Liu in 1993.[3] TOPSIS is based on the concept that the chosen alternative should have the shortest geometric distance from the positive ideal solution (PIS)[4] and the longest geometric distance from the negative ideal solution (NIS).[4]

TOPSIS是一種多准則決策分析方法,最初由Hwang和Yoon於1981年開發[1],1987年由Yoon進一步開發,[2]和Hwang, 1993年賴和劉。[3] TOPSIS是基於這樣一個概念,即所選擇的方案應該具有離正理想解(PIS)最短的幾何距離[4]和距負理想解(NIS)最遠的幾何距離[4]。

模糊綜合評價法是一種基於模糊數學的綜合評價方法。該綜合評價法根據模糊數學的隸屬度理論把定性評價轉化為定量評價,即用模糊數學對受到多種因素制約的事物或對象做出一個總體的評價。它具有結果清晰,系統性強的特點,能較好地解決模糊的、難以量化的問題,適合各種非確定性問題的解決。

數據包絡分析方法(Data Envelopment Analysis,DEA)是運籌學、管理科學與數理經濟學交叉研究的一個新領域。它是根據多項投入指標和多項產出指標,利用線性規劃的方法,對具有可比性的同類型單位進行相對有效性評價的一種數量分析方法。DEA方法及其模型自1978年由美國著名運籌學家A.Charnes和W.W.Cooper提出以來,已廣泛應用於不同行業及部門,並且在處理多指標投入和多指標產出方面,體現了其得天獨厚的優勢。

對於兩個系統之間的因素,其隨時間或不同對象而變化的關聯性大小的量度,稱為關聯度。在系統發展過程中,若兩個因素變化的趨勢具有一致性,即同步變化程度較高,即可謂二者關聯程度較高;反之,則較低。因此,灰色關聯分析方法,是根據因素之間發展趨勢的相似或相異程度,亦即「灰色關聯度」,作為衡量因素間關聯程度的一種方法。

主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標(即主成分),其中每個主成分都能夠反映原始變數的大部分信息,且所含信息互不重復。這種方法在引進多方面變數的同時將復雜因素歸結為幾個主成分,使問題簡單化,同時得到的結果更加科學有效的數據信息。在實際問題研究中,為了全面、系統地分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標,在多元統計分析中也稱為變數。因為每個變數都在不同程度上反映了所研究問題的某些信息,並且指標之間彼此有一定的相關性,因而所得的統計數據反映的信息在一定程度上有重疊。主要方法有特徵值分解,SVD,NMF等。

秩和比法(Rank-sum ratio,簡稱RSR法),是我國學者、原中國預防醫學科學院田鳳調教授於1988年提出的,集古典參數統計與近代非參數統計各自優點於一體的統計分析方法,它不僅適用於四格表資料的綜合評價,也適用於行×列表資料的綜合評價,同時也適用於計量資料和分類資料的綜合評價。

灰色預測是就灰色系統所做的預測

灰色預測是一種對含有不確定因素的系統進行預測的方法。灰色預測通過鑒別系統因素之間發展趨勢的相異程度,即進行關聯分析,並對原始數據進行生成處理來尋找系統變動的規律,生成有較強規律性的數據序列,然後建立相應的微分方程模型,從而預測事物未來發展趨勢的狀況。其用等時距觀測到的反應預測對象特徵的一系列數量值構造灰色預測模型,預測未來某一時刻的特徵量,或達到某一特徵量的時間。

回歸分析預測法,是在分析市場現象自變數和因變數之間相關關系的基礎上,建立變數之間的回歸方程,並將回歸方程作為預測模型,根據自變數在預測期的數量變化來預測因變數關系大多表現為相關關系,因此,回歸分析預測法是一種重要的市場預測方法,當我們在對市場現象未來發展狀況和水平進行預測時,如果能將影響市場預測對象的主要因素找到,並且能夠取得其數量資料,就可以採用回歸分析預測法進行預測。它是一種具體的、行之有效的、實用價值很高的常用市場預測方法,常用於中短期預測。

包含未知函數的差分及自變數的方程。在求微分方程 的數值解時,常把其中的微分用相應的差分來近似,所導出的方程就是差分方程。通過解差分方程來求微分方程的近似解,是連續問題離散化 的一個例子。

馬爾可夫預測法主要用於市場佔有率的預測和銷售期望利潤的預測。就是一種預測事件發生的概率的方法。馬爾科夫預測講述了有關隨機變數 、 隨機函數與隨機過程。

邏輯性的思維是指根據邏輯規則進行推理的過程;它先將信息化成概念,並用符號表示,然後,根據符號運算按串列模式進行邏輯推理;這一過程可以寫成串列的指令,讓計算機執行。然而,直觀性的思維是將分布式存儲的信息綜合起來,結果是忽然間產生想法或解決問題的辦法。這種思維方式的根本之點在於以下兩點:1.信息是通過神經元上的興奮模式分布儲在網路上;2.信息處理是通過神經元之間同時相互作用的動態過程來完成的。

中文名 神經網路演算法 外文名 Neural network algorithm

㈣ 語音識別文件的聲學模型

語音識別系統的模型通常由聲學模型和語言模型兩部分組成,分別對應於語音到音節概率的計算和音節到字概率的計算。本節和下一節分別介紹聲學模型和語言模型方面的技術。
HMM聲學建模:馬爾可夫模型的概念是一個離散時域有限狀態自動機,隱馬爾可夫模型HMM是指這一馬爾可夫模型的內部狀態外界不可見,外界只能看到各個時刻的輸出值。對語音識別系統,輸出值通常就是從各個幀計算而得的聲學特徵。用HMM刻畫語音信號需作出兩個假設,一是內部狀態的轉移只與上一狀態有關,另一是輸出值只與當前狀態(或當前的狀態轉移)有關,這兩個假設大大降低了模型的復雜度。HMM的打分、解碼和訓練相應的演算法是前向演算法、Viterbi演算法和前向後向演算法。
語音識別中使用HMM通常是用從左向右單向、帶自環、帶跨越的拓撲結構來對識別基元建模,一個音素就是一個三至五狀態的HMM,一個詞就是構成詞的多個音素的HMM串列起來構成的HMM,而連續語音識別的整個模型就是詞和靜音組合起來的HMM。上下文相關建模:協同發音,指的是一個音受前後相鄰音的影響而發生變化,從發聲機理上看就是人的發聲器官在一個音轉向另一個音時其特性只能漸變,從而使得後一個音的頻譜與其他條件下的頻譜產生差異。上下文相關建模方法在建模時考慮了這一影響,從而使模型能更准確地描述語音,只考慮前一音的影響的稱為Bi- Phone,考慮前一音和後一音的影響的稱為Tri-Phone。
英語的上下文相關建模通常以音素為基元,由於有些音素對其後音素的影響是相似的,因而可以通過音素解碼狀態的聚類進行模型參數的共享。聚類的結果稱為senone。決策樹用來實現高效的triphone對senone的對應,通過回答一系列前後音所屬類別(元/輔音、清/濁音等等)的問題,最終確定其HMM狀態應使用哪個senone。分類回歸樹CART模型用以進行詞到音素的發音標注。

㈤ 世界科技史發展近代由哥白尼到牛頓是第一階段,還有哪幾個階段後來是怎麼發展一直到現在的

近代和現代科技史的發展;參考網站
http://www.fjinfo.gov.cn/kepu/kjsh/sjkjs.htm
1901年,嚴格證明狄利克雷原理,開創變分學的直接方法,在工程技術的計算問題中有很多應用(德國 希爾伯特)。
首先提出群的表示理論。此後,各種群的表示理論得到大量研究(德國 舒爾、弗洛伯紐斯)。
基本上完成張量分析,又名絕對微分學。確立了研究黎曼幾何和相對論的分析工具(義大利 里齊、勒維.齊維塔)。
提出勒貝格測度和勒貝格積分。推廣了長度、面積積分的概念(法國 勒貝格)。
1903年,發現集合論中的羅素悖理,出現所謂第三次數學危機(英國 貝.羅素)。
建立線性積分方程的基本理論,是解決數學物理問題的數學工具,並為建立泛函分析作了准備(瑞典 弗列特荷姆)。
1906年,總結了古典代數幾何學的研究(義大利 賽維利等)。
把由函數組成的無限集合作為研究對象,引入函數空間的概念,並開始形成希爾伯特空間。這是泛函分析的發源(法國 弗勒錫,匈牙利 里斯)。
開始系統地研究多個自變數的復變函數理論(德國 哈爾托格斯)。 初次提出「馬爾可夫鏈」的數學模型(俄國 馬爾可夫)。
1907年,證明復變函數論的一個基本原理---黎曼共形映照定理(德國 寇貝)。
反對在數學中使用排中律,提出直觀主義數學(美籍荷蘭人 路.布勞威爾)。
1908年,點集拓撲學形成(德國 忻弗里斯)。
提出集合論的公理化系統(德國 策麥羅)。
1909年,解決數論中著名的華林問題(德國 希爾伯特)。
1910年,總結了19世紀末20世紀初的各種代數系統如群、代數、域等的研究,開創了現代抽象代數(德國 施坦尼茨)。
發現不動點原理,後來又發現了維數定理、單純形逼近方法,使代數拓撲成為系統理論(美籍荷蘭人 路.布勞威爾)。
1910-1913年,出版《數學原理》三卷,企圖把數學歸結到形式邏輯中去,是現代邏輯主義的代表著作(英國 貝.素、懷特海)。

............................................................
◇1911-1920年◇

1913年,完成了半單純李代數有限維表示理論,奠定了李群表示理論的基礎。在量子力學和基本粒子理論中有重要應用(法國 厄.加當,德國 韋耳)。
研究黎曼面,初步產生了復流形的概念(德國 韋耳)。
1914年,提出拓撲空間的公理系統,為一般拓撲學建立了基礎(德國 豪斯道夫)。
1915年,把黎曼幾何用於廣義相對論,成為它的主要數學工具。解出球對稱的場方程,從而可以計算水星近日點的移動等問題(瑞士、美籍德國人 愛因斯坦,德國 卡.施瓦茨西德)。
1918年,應用復變函數論方法來研究數論,建立解析數論(英國 哈台、立篤武特)。
為改進自動電話交換台的設計,提出排隊論的數學理論(丹麥 愛爾蘭)。
希爾伯脫空間理論的形成(匈牙利 里斯)。
1919年,建立P-adic數論,在代數數論和代數幾何中有重要應用(德國 亨賽爾)。

............................................................
◇1921-1930年◇

1922年 提出數學要徹底形式化的主張,創立數學基礎中的形式主義體系和證明論(德國 希爾伯特)。
1923年 提出一般聯絡的微分幾何學,將克萊因和黎曼的幾何學觀點統一起來,是纖維叢概念的發端(法國 厄·加當)。
提出偏微分方程適定性,解決二階雙曲型方程的柯西問題(法國 阿達瑪)。
提出更廣泛的一類函數空間——巴拿哈空間的理論(波蘭 巴拿哈)。 提出無限維空間的一種測度——維納測度,對概率論和泛函分析有一定作用(美國 諾·維納)。
1925年 創立概周期函數(丹麥哈·波爾)。
以生物、醫學試驗為背景,開創了「試驗設計」(數理統計的一個分支),也確立了統計推斷的基本方法(英國 費希爾)。
1926年 大體上完成對近世代數有重大影響的理想理論(德國 納脫)。
1927年 建立動力系統的系統理論,是微分方程定性理論的一個重要方面(美國 畢爾霍夫)。
1928年 提出解偏微分方程的差分方法(美籍德國人 理·柯朗)。
首次提出通信中的信息量概念(美國 哈特萊)。
提出擬似共形映照理論,在工程技術上有一定應用(德國 格羅許,芬蘭 阿爾福斯,蘇聯 拉甫連捷夫)。
1930年 建立格論,是代數學的重要分支,對攝影幾何、點集論及泛函分析都有應用(美國 畢爾霍夫)。
提出自伴運算元譜分析理論並應用於量子力學(美籍匈牙利人 馮·諾伊曼)。

............................................................
◇1931-1940年◇

1931年 發現多維流形上的微分型和流形的上同調性質的關系,給拓撲學以分析工具(瑞士 德拉姆)。
證明了公理化數學體系的不完備性(奧地利 哥德爾)。
發展馬爾可夫過程理論(蘇聯 柯爾莫哥洛夫,美國 費勒)。
1932年 解決多元復變函數論的一些基本問題(法國 亨·嘉當)。
建立各態歷經的數學理論(美國 畢爾霍夫,美籍匈牙利人 馮·諾伊曼)。
建立遞歸函數理論,是數理邏輯的一個分支,在自動機和演算法語言中有重要應用(法國 赫爾勃蘭特,奧地利 哥德爾,美國 克林)。
1933年 提出拓撲群的不變測度概念(匈牙利 奧·哈爾)。
提出概率論的公理化體系(蘇聯 柯爾莫哥洛夫)。
制訂復平面上的傅立葉變式理論(美國 諾·維納、丕萊)。
1934年 創建大范圍變分學的理論,為微分幾何和微分拓撲提供了有效工具(美國 莫爾斯)。
解決極小曲面的基本問題——普拉多問題,即求通過給定邊界而面積為最小的曲面(美國 道格拉斯等)。
提出平穩過程理論(蘇聯 辛欽)。
1935年 在拓撲學中引入同倫群,成為代數拓撲和微分拓撲的重要工具(波蘭 霍勒維奇等)。
開始研究產品使用壽命和可靠性的數學理論(法國 龔貝爾)。 1936年 寇尼克系統地提出與研究圖的理論。
50年代以後,由於在博弈論、規劃論、資訊理論等方面的應用,貝爾治等對圖的理論有很大的發展(德國 寇尼克,美國 貝爾治)。
現代的代數幾何學開始形成(荷蘭 范德凡爾登、法國 外耳,美國 查里斯基,義大利 培·塞格勒等)。
提出理想的通用計算機概念,同時建立了演算法理論(英國 圖靈,美國 邱吉、克林等)。
建立運算元環論,可以表達量子場論數學理論中的一些概念(美籍匈牙利人 馮·諾伊曼)。
提出偏微分方程中的泛函分析方法(蘇聯 索波列夫)。
1937年 證明微分流形的嵌入定理,是微分拓撲學的創始(美國 懷特尼)。
提出偏微分方程組的分類法,得出某些基本性質(蘇聯 彼得洛夫斯基)。
開始系統研究隨機過程的統計理論(瑞士 克拉默)。
1938年 布爾巴基叢書《數學原本》開始出版,企圖從數學公理結構出發,以非常抽象的方式敘述全部現代數學(法國 布爾巴基學派)。 1940年 證明連續統假說在集合論公理系中的無矛盾性(美國 哥德爾)。
提出求數值解的鬆弛方法(英國 紹司威爾)。
提出交換群調和分析的理論(蘇聯 蓋爾方特)。

............................................................
◇1941-1950年◇

1941年,定義流形上的調和積分,並用於代數流行,成為研究流形同調性質的分析工具(美國 霍奇)。
1941年,開始建立馬爾可夫過程與隨機微分方程的聯系(蘇聯 謝 .伯恩斯坦,日本 伊藤清)。
1941年,創立賦范環理論,主要用於群上調和分析和運算元環論(蘇聯 蓋爾芳特)。
1942年,開始研究隨機過程的預測,濾過理論及其在火炮自動控制上的應用,由此產生了「統計動力學」(美國諾.維納,蘇聯 柯爾莫哥洛夫)。
1943年,提出求代數方程數字解的林士諤方法(中國 林士諤)。 1944年,建立了對策論,即博弈論(美籍匈牙利人 馮.諾伊曼等)。 1945年,推廣了古典函數的概念,創立廣義函數論,對微分方程理論和泛函分析有重要作用(法國 許瓦茨)。
1945年,建立代數拓撲和微分幾何的聯系,推進了整體幾何學的發展(美籍中國人 陳省身)。
1945年,提出了雜訊的統計理論(美國 斯.賴斯)。
1946年, 美國莫爾電子工程學校和賓夕法尼亞大學試製成功第一架電子計算機ENIAC(設計者為埃克特、莫希萊等人)。
1946年,建立現代代數幾何學基礎(法國 外耳)。
1946年,發展三角和法研究解析數論(中國 華羅庚)。
1946年,建立羅倫茲群的表示理論(蘇聯 蓋爾芳特、諾伊瑪克)。 1947年,創立統計的序貫分析法(美國 埃.瓦爾特)。
1948年,造成穩態機,能在各種變化的外界條件下自行組織,已達到穩定狀態。鼓吹這是人造大腦的最初雛形、機器能超過人等觀點(英國 阿希貝)。
1948年,出版《控制論》,首次使用控制論一詞(美國 諾.維納)。 1948年,提出通信的數學理論(美國 申農)。
1948年,總結了非線性微分方程在流體力學方面的應用,推進了這方面的研究(美籍德國人 弗里得里希斯、理 .柯朗)。
1948年,提出范疇論,是代數中一種抽象的理論,企圖將數學統一於某些原理(波蘭 愛倫伯克,美國 桑.麥克倫)。
1948年,將泛函分析用於計算數學(蘇聯 康脫洛維奇)。
1949年,開始確立電子管計算機體系,通稱第一代計算機。英國劍橋大學製成第一台通用電子管計算機EDSAC。
1950年,發表《計算機和智力》一文,提出機器能思維的觀點(英國 圖靈)。
1950年,提出統計決策函數的理論(美國 埃.瓦爾特)。
1950年,提出解橢圓形方程的超鬆弛方法,是目前電子計算機上常用的方法(英國 大.楊)。
1950年,提出纖維叢的理論(美國 斯丁路特,美籍中國人 陳省身,法國 艾勒斯曼)。

............................................................
◇1951-1960年◇

1951年,五十年代以來,「組合數學」獲得迅速發展,並應用於試驗設計、規劃理論、網路理論、信息編碼等(美國 埃.霍夫曼、馬.霍爾等)。
1952年,證明連續群的解析性定理(即希爾伯特第五問題)(美國 蒙哥馬利等)。
1953年,提出優選法,並先後發展了多種求函數極值的方法(美國 基費等)。
1954年,發表《工程式控制制論》,系統總結自動控制理論的新發展(中國 錢學森)。
1955年,制定同調代數理論(法國 亨.加當、格洛辛狄克,波蘭 愛倫伯克)。
1955年,提出求數值積分的隆姆貝方法,是目前電子計算機上常用的一種方法(美國 隆姆貝格)。
1955年,制定線性偏微分運算元的一般理論(瑞典 荷爾蒙特等)。 1955年,提出解橢圓形或雙線型偏微分方程的交替方向法(美國 拉斯福特等)。
1955年,解代數數的有理迫近問題(英國 羅思)。
1956年,提出統籌方法(又名計劃評審法),是一種安排計劃和組織生產的數學方法為美國杜邦公司首先採用。
1956年,提出線性規劃的單純形方法(英國 鄧濟希等)。
1956年,提出解雙曲型和混合型方程的積分關系法(蘇聯 道洛尼欽)。
1957年,發現最優控制的變分原理(蘇聯 龐特里雅金)。
1957年,創立動態規劃理論,它是研究使整個生產過程達到預期的最佳目的的一種數學方法(美國 貝爾曼)。
1957年,以美國康納爾實驗室的「感知器」的研究為代表,開始迅速發展圖像識別理論(美國 羅森伯拉特等)。
1958年,創立演算法語言ALGOL(58),後經改進又提出(ALGOL)(60),ALGOL(68)等演算法語言,用於電子計算機程序自動化(歐洲GAMM小組,美國ACM小組)。
1958年,中國普遍地使用和改進「線性規劃」法。
1958年,中國科學院計算機技術研究所試製成功中國第一架通用電子計算機。
1959年,美國國際商業機器公司製成第一台晶體管計算機「IBM7090」。第二代計算機——半導體晶體管計算機開始迅速發展。 1959—1960年,伽羅華域論在編碼問題上的應用,發明BCH碼(法國 霍昆亥姆,美國 兒.玻色,印度 雷.可都利)。
1960年,提出數字濾波理論,進一步發展了隨機過程在制導系統中的應用(美國 卡爾門)。
1960年,建立非自共軛運算元的系統理論(蘇聯 克雷因,美國 頓弗特)。

謝謝您投我一票!!!

㈥ 馬爾科夫鏈的非周期性到底有什麼含義

非周期性的馬爾可夫鏈才是我們想要的,它是構成遍歷的馬爾可夫鏈的必要條件。

馬爾可夫鏈是概率論和數理統計中具有馬爾可夫性質且存在於離散的指數集和狀態空間內的隨機過程。適用於連續指數集的馬爾可夫鏈被稱為馬爾可夫過程,但有時也被視為馬爾可夫鏈的子集,即連續時間馬爾可夫鏈,與離散時間馬爾可夫鏈相對應,因此馬爾可夫鏈是一個較為寬泛的概念 。

馬爾可夫鏈可通過轉移矩陣和轉移圖定義,除馬爾可夫性外,馬爾可夫鏈可能具有不可約性、常返性、周期性和遍歷性。一個不可約和正常返的馬爾可夫鏈是嚴格平穩的馬爾可夫鏈,擁有唯一的平穩分布。遍歷馬爾可夫鏈(ergodic MC)的極限分布收斂於其平穩分布 。

馬爾可夫鏈可被應用於蒙特卡羅方法中,形成馬爾可夫鏈蒙特卡羅,也被用於動力系統、化學反應、排隊論、市場行為和信息檢索的數學建模。此外作為結構最簡單的馬爾可夫模型,一些機器學習演算法,例如隱馬爾可夫模型、馬爾可夫隨機場和馬爾可夫決策過程以馬爾可夫鏈為理論基礎。

㈦ 運籌學的目錄:

第1章 微積分和概率論
1.1積分
1.2積分求導
1.3概率的基本法則
1.4貝葉斯法則
1.5隨機變數、均值、方差和協方差
1.5.1離散型隨機變數
1.5.2連續型隨機變數
1.5.3隨機變數的均值和方差
1.5.4獨立隨機變數
1.5.5兩個隨機變數的協方差
1.5.6隨機變數之和的均值、方差與協方差
1.6正態分布
1.6.1正態分布的重要性質
1.6.2利用標准化求正態概率
1.6.3利用Excel求正態概率
1.7z變換
1.8本章小結
1.8.1確定不定積分的公式
1.8.2對積分求導的萊布尼茲法則
1.8.3概率
1.8.4貝葉斯法則
1.8.5隨機變數、均值、方差和協方差
1.8.6正態分布的重要性質
1.8.7z變換
1.9復習題
第2章 不確定決策
2.1決策准則
2.1.1受支配動作
2.1.2悲觀准則
2.1.3樂觀准則
2.1.4遺憾准則
2.1.5預期值准則
2.2效用理論
2.2.1馮·諾依曼?摩根斯坦公理
2.2.2為什麼我們可以假設u(最壞結果)=0和u(最好結果)=1
2.2.3評估一個人的效用函數
2.2.4一個人的效用函數和他或她面對風險的態度之間的關系
2.2.5指數效用函數
2.3預期效用最大化的缺陷: 前景效用理論和架構效應
2.3.1前景效用理論
2.3.2架構
2.4決策樹
2.4.1將風險規避結合進決策樹分析
2.4.2樣本信息的預期值
2.4.3完善信息的預期值
2.5貝葉斯法則和決策樹
2.6多目標決策
2.6.1確定情況下的多屬性決策: 目標規劃
2.6.2多屬性效用函數
2.7解析分層進程
2.7.1獲得各個目標的權
2.7.2檢查一致性
2.7.3求目標選擇的分數
2.7.4在電子表格上實現AHP
2.8本章小結
2.8.1決策准則
2.8.2效用理論
2.8.3前景效用理論和架構
2.8.4決策樹
2.8.5貝葉斯法則和決策樹
2.8.6多目標決策
2.8.7AHP
2.9復習題
第3章 確定型EOQ存儲模型
3.1基本的存儲模型
3.1.1存儲模型所涉及的費用
3.1.2EOQ模型的假設
3.2基本的EOQ模型
3.2.1基本EOQ模型的假設
3.2.2基本EOQ模型的導出
3.2.3總費用對於訂購數量微小變化的靈敏度
3.2.4在以庫存的美元價值表示存儲費用時確定EOQ
3.2.5非零交付周期的影響
3.2.6基本EOQ模型的電子表格模板
3.2.7二冪訂購策略
3.3計算允許數量折扣時的最優訂購量
3.4連續速率的EOQ模型
3.5允許延期交貨的EOQ模型
3.6什麼時候使用EOQ模型
3.7多產品EOQ模型
3.8本章小結
3.8.1表示法
3.8.2基本EOQ模型
3.8.3數量折扣模型
3.8.4連續速率模型
3.8.5允許延期交貨的EOQ
3.9復習題
第4章 隨機型存儲模型
4.1單周期決策模型
4.2邊際分析的概念
4.3賣報人問題: 離散需求
4.4賣報人問題: 連續需求
4.5其他單周期模型
4.6包含不確定需求的EOQ: (r,q)和(s,S)模型
4.6.1確定再訂購點: 允許延期交貨的情況
4.6.2確定再訂購點: 脫銷情況
4.6.3連續檢查(r,q)策略
4.6.4連續檢查(s,S)策略
4.7具有不確定需求的EOQ: 確定安全庫存等級的服務等級法
4.7.1確定SLM1的再訂購點和安全庫存水平
4.7.2使用LINGO計算SLM1的再訂購點等級
4.7.3使用Excel計算正態損失函數
4.7.4確定SLM2的再訂購點和安全庫存水平
4.8(R,S)定期檢查策略
4.8.1確定R
4.8.2實現(R,S)系統
4.9ABC存儲分類系統
4.10交換曲線
4.10.1缺貨的交換曲線
4.10.2交換曲面
4.11本章小結
4.11.1單周期決策模型
4.11.2賣報人問題
4.11.3確定不確定需求的再訂購點和訂購量: 最小化年度預期費用
4.11.4確定再訂購點: 服務等級法
4.11.5(R,S)定期檢查策略
4.11.6ABC分類
4.11.7交換曲線
4.12復習題
第5章 馬爾可夫鏈
5.1什麼是隨機過程
5.2什麼是馬爾可夫鏈
5.3n步轉移概率
5.4馬爾可夫鏈中的狀態分類
5.5穩態概率和平均最先通過時間
5.5.1暫態分析
5.5.2穩態概率的直觀解釋
5.5.3穩態概率在決策中的用法
5.5.4平均最先通過時間
5.5.5在計算機上求解穩態概率和平均最先通過時間
5.6吸收鏈
5.7勞動力規劃模型
5.8本章小結
5.8.1n步轉移概率
5.8.2馬爾可夫鏈中的狀態分類
5.8.3穩態概率
5.8.4吸收鏈
5.8.5勞動力規劃模型
5.9復習題
第6章 確定性動態規劃
6.1兩個難題
6.2網路問題
6.2.1動態規劃的計算效率
6.2.2動態規劃應用的特徵
6.3存儲問題
6.4資源分配問題
6.4.1資源示例的網路表示
6.4.2廣義的資源分配問題
6.4.3使用動態規劃求解背包問題
6.4.4背包問題的網路表示
6.4.5背包問題的可供選擇的遞歸
6.4.6收費理論
6.5設備更新問題
6.5.1設備更新問題的網路表示
6.5.2可供選擇的遞歸
6.6表述動態規劃遞歸
6.6.1將資金的時間價值納入動態規劃表述中
6.6.2使用動態規劃的計算難點
6.6.3非求和遞歸
6.7Wagner?Whitin演算法和Silver?Meal啟發式演算法
6.7.1動態批量模型簡介
6.7.2Wagner?Whitin演算法的論述
6.7.3Silver?Meal啟發式演算法
6.8使用Excel求解動態規劃問題
6.8.1在電子表格上求解背包問題
6.8.2在電子表格上求解一般的資源分配問題
6.8.3在電子表格上求解庫存問題
6.9本章小結
6.9.1逆推
6.9.2動態批量模型的Wagner?Whitin演算法和Silver?Meal啟發式演算法
6.9.3計算時的注意事項
6.10復習題
第7章 隨機性動態規劃
7.1當前階段的費用不確定,而下一周期的狀態確定
7.2隨機性存儲模型
7.3如何最大化有利事件發生的概率
7.4隨機性動態規劃表述的更多示例
7.5馬爾可夫決策過程
7.5.1MDP的描述
7.5.2策略迭代
7.5.3線性規劃
7.5.4值迭代
7.5.5最大化每個周期的平均收益
7.6本章小結
7.6.1表述隨機性動態規劃問題(PDP)的關鍵
7.6.2最大化有利事件發生的概率
7.6.3馬爾可夫決策過程
7.6.4策略迭代
7.6.5線性規劃
7.6.6值迭代或連續近似值
7.7復習題
第8章 排隊論
8.1一些排隊術語
8.1.1輸入或到達過程
8.1.2輸出或者服務過程
8.1.3排隊規則
8.1.4到達者加入隊列的方式
8.2建立到達和服務過程的模型
8.2.1建立到達過程的模型
8.2.2建立服務過程的模型
8.2.3排隊系統的kendall?Lee符號表示法
8.2.4等待時間矛盾論
8.3生滅過程
8.3.1生滅過程的動作定理
8.3.2指數分布與生滅過程的關系
8.3.3生滅過程的穩態概率的推導
8.3.4求解生滅流量平衡方程
8.3.5使用電子表格計算穩態概率
8.4M/M/1/GD/∞/∞排隊系統和排隊公式L=λW
8.4.1穩態概率的推導
8.4.2L的推導
8.4.3Lq的推導
8.4.4Ls的推導
8.4.5排隊公式L=λW
8.4.6排隊優化模型
8.4.7使用電子表格計算M/M/1/GD/∞/∞排隊系統
8.5M/M/1/GD/c/∞排隊系統
8.6M/M/s/GD/∞/∞排隊系統
8.6.1使用電子表格計算M/M/s/GD/∞/∞排隊系統
8.6.2使用LINGO計算M/M/s/GD/∞/∞排隊系統
8.7M/G/∞/GD/∞/∞和GI/G/∞/GD/∞/∞模型
8.8M/G/1/GD/∞/∞排隊系統
8.9有限源模型: 機器維修模型
8.9.1使用電子表格計算機器維修問題
8.9.2使用LINGO計算機器維修模型
8.10串列指數分布隊列和開放式排隊網路
8.10.1開放式排隊網路
8.10.2數據通信網路的網路模型
8.11M/G/s/GD/s/∞系統(被阻擋客戶被清除)
8.11.1使用電子表格計算BCC模型
8.11.2使用LINGO計算BCC模型
8.12如何斷定到達時間間隔和服務時間服從指數分布
8.13閉合式排隊網路
8.14G/G/m排隊系統的近似求解法
8.15優先排隊模型
8.15.1非搶占式優先模型
8.15.2Mi/Gi/1/NPRP/∞/∞模型
8.15.3具有客戶等待成本的Mi/Gi/1/NPRP/∞/∞模型
8.15.4Mi/M/s/NPRP/∞/∞模型
8.15.5搶占式優先順序
8.16排隊系統的瞬變行為
8.17本章小結
8.17.1指數分布
8.17.2愛爾朗分布
8.17.3生滅過程
8.17.4排隊系統參數的表示法
8.17.5M/M/1/GD/∞/∞模型
8.17.6M/M/1/GD/c/∞模型
8.17.7M/M/s/GD/∞/∞模型
8.17.8M/G/∞/GD/∞/∞模型
8.17.9M/G/1/GD/∞/∞模型
8.17.10機器維修(M/M/R/GD/K/K)模型
8.17.11串列指數分布隊列
8.17.12M/G/s/GD/s/∞模型
8.17.13到達時間間隔或服務時間不服從指數分布的處理
8.17.14閉合式排隊網路
8.17.15G/G/m排隊系統的近似求解法
8.17.16排隊系統的瞬變行為
8.18復習題
第9章 模擬技術
9.1基本術語
9.2離散事件模擬示例
9.3隨機數和蒙特卡羅模擬
9.3.1隨機數生成器
9.3.2隨機數的計算機生成
9.4蒙特卡羅模擬示例
9.5使用連續隨機變數執行模擬
9.5.1逆轉方法
9.5.2接受?排除法
9.5.3正態分布的直接和卷積方法
9.6隨機模擬示例
9.7模擬中的統計分析
9.8模擬語言
9.9模擬過程
9.10本章小結
9.10.1模擬簡介
9.10.2模擬過程
9.10.3生成隨機變數
9.10.4模擬類型
9.11復習題
第10章 使用Process Model執行模擬
10.1模擬M/M/1排隊系統
10.2模擬M/M/2系統
10.3模擬串列系統
10.4模擬開放式排隊網路
10.5模擬愛爾朗服務時間
10.6Process Model的其他功能
10.7復習題
第11章 使用Excel插件@Risk執行模擬
11.1@Risk簡介: 賣報人問題
11.1.1求解預期利潤的置信區間
11.1.2使用RISKNORMAL函數建立正態需求模型
11.1.3求解目標和百分比
11.1.4用@Risk創建圖
11.1.5使用Report Settings選項
11.1.6使用@Risk統計
11.2建立新產品現金流模型
11.2.1三角形隨機變數
11.2.2Lilly模型
11.3項目計劃模型
11.4可靠性和保修建模
11.4.1機器使用壽命的分布
11.4.2機器組合的一般類型
11.4.3 估計保修費用
11.5RISKGENERAL函數
11.6RISKCUMULATIVE隨機變數
11.7RISKTRIGEN隨機變數
11.8基於點值預測創建分布
11.9預測大型公司的收入
11.9.1凈收入不相關的求解方法
11.9.2檢查相關性
11.10使用數據獲得新產品模擬的輸入
11.10.1模擬容量不確定性的方案
11.10.2用一個獨立變數模擬統計關系
11.11模擬和投標
11.12用@Risk玩擲雙骰子游戲
11.13模擬NBA總決賽
11.14復習題
第12章 使用Riskoptimizer在不確定情況下實現最優化
12.1Riskoptimizer介紹: 賣報人問題
12.1.1Settings圖標
12.1.2Start Optimization圖標
12.1.3Pause Optimization圖標
12.1.4Stop Optimization圖標
12.1.5Display Watcher圖標
12.1.6將Riskoptimizer用於日歷示例
12.2涉及歷史數據的賣報人問題
12.3不確定情況下的人員安排
12.4產品組合問題
12.5不確定情況下的農業計劃
12.6加工車間作業安排
12.7旅行推銷員問題
12.8復習題
第13章 期權定價和實際期權
13.1股票價格的對數正態模型
13.1.1均值的歷史數據估計和股票利潤的波動率
13.1.2求對數正態分布變數的均值和方差
13.1.3對數正態隨機變數的置信區間
13.2期權的定義
13.3實際期權的類型
13.3.1購買飛機的期權
13.3.2放棄期權
13.3.3其他實際期權機會
13.4用套利法評估期權
13.4.1在買入期權定價不當的情況下創造賺錢機器
13.4.2為什麼股票的上漲率不影響買入價格
13.5Black?Scholes期權定價公式
13.6估計波動率
13.7期權定價的風險中立法
13.7.1風險中立法背後的邏輯
13.7.2風險中立定價的示例
13.7.3證明美式買入期權決不應及早執行
13.8用Black?Scholes公式評估Internet啟動項目和Web TV
13.8.1評估Internet啟動項目
13.8.2評估「創新期權」: Web TV
13.9二項式模型和對數正態模型之間的關系
13.10使用二項樹給美式期權定價
13.10.1股票價格樹
13.10.2最優決策策略
13.10.3使用條件格式化描述最優執行策略
13.10.4靈敏度分析
13.10.5與放棄期權的關系
13.10.6計算及早執行邊界
13.10.7應當何時放棄
13.11通過模擬給歐式賣出和買入期權定價
13.12使用模擬評估實際期權
第14章 投資組合風險、優化和規避風險
14.1風險價值度量
14.2投資組合優化: Markowitz法
14.2.1隨機變數的和: 均值和方差
14.2.2矩陣乘法和投資組合優化
14.3使用情境法優化投資組合
14.3.1自舉未來的年度利潤
14.3.2使投資組合的標准差風險最小化
14.3.3使損失的概率最小化
14.3.4使Sharpe比率最大化
14.3.5使負面風險最小化
14.3.6極小極大方法
14.3.7最大化VAR
第15章 預測模型
15.1移動平均數預測法
15.2單指數平滑法
15.3Holt法: 涉及趨勢的指數平滑法
15.4Winter法: 涉及季節性的指數平滑法
15.4.1Winter法的初始化
15.4.2預測精確度
15.5Ad Hoc預測法
15.6簡單線性回歸
15.6.1適合情況
15.6.2預測精確度
15.6.3回歸中的t檢定
15.6.4簡單線性回歸模型下面的假設條件
15.6.5用Excel運行回歸
15.6.6用Excel獲得散點圖
15.7適當表現非線性關系
15.7.1用電子表格適當表現非線性關系
15.7.2使用Excel Trend Curve
15.8多重回歸
15.8.1預計βi的值
15.8.2重新分析擬合優度
15.8.3假設檢驗
15.8.4選擇最佳的回歸方程
15.8.5多重共線性
15.8.6啞變數
15.8.7解釋啞變數的系數
15.8.8倍增模型
15.8.9多重回歸中的異方差性和自相關
15.8.10在電子表格上實現多重回歸
15.9本章小結
15.9.1移動平均數預測法
15.9.2單指數平滑法
15.9.3Holt法
15.9.4Winter法
15.9.5簡單線性回歸
15.9.6適當表現非線性關系
15.9.7多重回歸
15.10復習題
第16章 布朗運動、隨機運算和隨機控制
16.1什麼是布朗運動
16.2推導作為隨機活動極限的布朗運動
16.3隨機微分方程
16.4Ito引理
16.5使用Ito引理推導Black?Scholes期權定價模型
16.6隨機控制簡介
16.7復習題

㈧ 生物信息學

一, 生物信息學發展簡介

生物信息學是建立在分子生物學的基礎上的,因此,要了解生物信息學,就

必須先對分子生物學的發展有一個簡單的了解.研究生物細胞的生物大分子的結

構與功能很早就已經開始,1866年孟德爾從實驗上提出了假設:基因是以生物

成分存在[1],1871年Miescher從死的白細胞核中分離出脫氧核糖核酸(DNA),

在Avery和McCarty於1944年證明了DNA是生命器官的遺傳物質以前,人們

仍然認為染色體蛋白質攜帶基因,而DNA是一個次要的角色.

1944年Chargaff發現了著名的Chargaff規律,即DNA中鳥嘌呤的量與胞嘧

定的量總是相等,腺嘌呤與胸腺嘧啶的量相等.與此同時,Wilkins與Franklin

用X射線衍射技術測定了DNA纖維的結構.1953年James Watson 和Francis

Crick在Nature雜志上推測出DNA的三維結構(雙螺旋).DNA以磷酸糖鏈形

成發雙股螺旋,脫氧核糖上的鹼基按Chargaff規律構成雙股磷酸糖鏈之間的鹼基

對.這個模型表明DNA具有自身互補的結構,根據鹼基對原則,DNA中貯存的

遺傳信息可以精確地進行復制.他們的理論奠定了分子生物學的基礎.

DNA雙螺旋模型已經預示出了DNA復制的規則,Kornberg於1956年從大

腸桿菌(E.coli)中分離出DNA聚合酶I(DNA polymerase I),能使4種dNTP連接

成DNA.DNA的復制需要一個DNA作為模板.Meselson與Stahl(1958)用實驗

方法證明了DNA復制是一種半保留復制.Crick於1954年提出了遺傳信息傳遞

的規律,DNA是合成RNA的模板,RNA又是合成蛋白質的模板,稱之為中心

法則(Central dogma),這一中心法則對以後分子生物學和生物信息學的發展都起

到了極其重要的指導作用.

經過Nirenberg和Matthai(1963)的努力研究,編碼20氨基酸的遺傳密碼

得到了破譯.限制性內切酶的發現和重組DNA的克隆(clone)奠定了基因工程

的技術基礎.

正是由於分子生物學的研究對生命科學的發展有巨大的推動作用,生物信息

學的出現也就成了一種必然.

2001年2月,人類基因組工程測序的完成,使生物信息學走向了一個高潮.

由於DNA自動測序技術的快速發展,DNA資料庫中的核酸序列公共數據量以每

天106bp速度增長,生物信息迅速地膨脹成數據的海洋.毫無疑問,我們正從一

個積累數據向解釋數據的時代轉變,數據量的巨大積累往往蘊含著潛在突破性發

現的可能,"生物信息學"正是從這一前提產生的交叉學科.粗略地說,該領域

的核心內容是研究如何通過對DNA序列的統計計算分析,更加深入地理解DNA

序列,結構,演化及其與生物功能之間的關系,其研究課題涉及到分子生物學,

分子演化及結構生物學,統計學及計算機科學等許多領域.

生物信息學是內涵非常豐富的學科,其核心是基因組信息學,包括基因組信

息的獲取,處理,存儲,分配和解釋.基因組信息學的關鍵是"讀懂"基因組的核

苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時在

發現了新基因信息之後進行蛋白質空間結構模擬和預測,然後依據特定蛋白質的

功能進行葯物設計[2].了解基因表達的調控機理也是生物信息學的重要內容,根

據生物分子在基因調控中的作用,描述人類疾病的診斷,治療內在規律.它的研

究目標是揭示"基因組信息結構的復雜性及遺傳語言的根本規律",解釋生命的遺

傳語言.生物信息學已成為整個生命科學發展的重要組成部分,成為生命科學研

究的前沿.

二, 生物信息學的主要研究方向

生物信息學在短短十幾年間,已經形成了多個研究方向,以下簡要介紹一些

主要的研究重點.

1,序列比對(Sequence Alignment)

序列比對的基本問題是比較兩個或兩個以上符號序列的相似性或不相似

性.從生物學的初衷來看,這一問題包含了以下幾個意義[3]:

從相互重疊的序列片斷中重構DNA的完整序列.

在各種試驗條件下從探測數據(probe data)中決定物理和基因圖

存貯,遍歷和比較資料庫中的DNA序列

比較兩個或多個序列的相似性

在資料庫中搜索相關序列和子序列

尋找核苷酸(nucleotides)的連續產生模式

找出蛋白質和DNA序列中的信息成分

序列比對考慮了DNA序列的生物學特性,如序列局部發生的插入,刪除(前

兩種簡稱為indel)和替代,序列的目標函數獲得序列之間突變集最小距離加權

和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等.兩個

序列比對常採用動態規劃演算法,這種演算法在序列長度較小時適用,然而對於海

量基因序列(如人的DNA序列高達109bp),這一方法就不太適用,甚至採用算

法復雜性為線性的也難以奏效.因此,啟發式方法的引入勢在必然,著名的

BALST和FASTA演算法及相應的改進方法均是從此前提出發的.

2, 蛋白質結構比對和預測

基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性.

蛋白質的結構與功能是密切相關的,一般認為,具有相似功能的蛋白質結構一般

相似.蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),

蛋白質具有多種功能,如酶,物質的存貯和運輸,信號傳遞,抗體等等.氨基酸

的序列內在的決定了蛋白質的3維結構.一般認為,蛋白質有四級不同的結構.

研究蛋白質結構和預測的理由是:醫葯上可以理解生物的功能,尋找docking

drugs的目標,農業上獲得更好的農作物的基因工程,工業上有利用酶的合成.

直接對蛋白質結構進行比對的原因是由於蛋白質的3維結構比其一級結構

在進化中更穩定的保留,同時也包含了較AA序列更多的信息.

蛋白質3維結構研究的前提假設是內在的氨基酸序列與3維結構一一對應

(不一定全真),物理上可用最小能量來解釋.

從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構.同

源建模(homology modeling)和指認(Threading)方法屬於這一范疇.同源建模用

於尋找具有高度相似性的蛋白質結構(超過30%氨基酸相同),後者則用於比較

進化族中不同的蛋白質結構.

然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要.

3, 基因識別,非編碼區分析研究.

基因識別的基本問題是給定基因組序列後,正確識別基因的范圍和在基因組

序列中的精確位置.非編碼區由內含子組成(introns),一般在形成蛋白質後被丟

棄,但從實驗中,如果去除非編碼區,又不能完成基因的復制.顯然,DNA序

列作為一種遺傳語言,既包含在編碼區,又隱含在非編碼序列中.分析非編碼

區DNA序列目前沒有一般性的指導方法.

在人類基因組中,並非所有的序列均被編碼,即是某種蛋白質的模板,已

完成編碼部分僅占人類基因總序列的3~5%,顯然,手工的搜索如此大的基因序

列是難以想像的.

偵測密碼區的方法包括測量密碼區密碼子(codon)的頻率,一階和二階馬爾

可夫鏈,ORF(Open Reading Frames),啟動子(promoter)識別,HMM(Hidden

Markov Model)和GENSCAN,Splice Alignment等等.

4, 分子進化和比較基因組學

分子進化是利用不同物種中同一基因序列的異同來研究生物的進化,構建進

化樹.既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相

關蛋白質的結構比對來研究分子進化,其前提假定是相似種族在基因上具有相似

性.通過比較可以在基因組層面上發現哪些是不同種族中共同的,哪些是不同的.

早期研究方法常採用外在的因素,如大小,膚色,肢體的數量等等作為進化

的依據.近年來較多模式生物基因組測序任務的完成,人們可從整個基因組的角

度來研究分子進化.在匹配不同種族的基因時,一般須處理三種情況:

Orthologous: 不同種族,相同功能的基因

Paralogous: 相同種族,不同功能的基因

Xenologs: 有機體間採用其他方式傳遞的基因,如被病毒注入的基因.

這一領域常採用的方法是構造進化樹,通過基於特徵(即DNA序列或蛋白

質中的氨基酸的鹼基的特定位置)和基於距離(對齊的分數)的方法和一些傳統

的聚類方法(如UPGMA)來實現.

5, 序列重疊群(Contigs)裝配

根據現行的測序技術,每次反應只能測出500 或更多一些鹼基對的序列,

如人類基因的測量就採用了短槍(shortgun)方法,這就要求把大量的較短的序列

全體構成了重疊群(Contigs).逐步把它們拼接起來形成序列更長的重疊群,直

至得到完整序列的過程稱為重疊群裝配.從演算法層次來看,序列的重疊群是一個

NP-完全問題.

6, 遺傳密碼的起源

通常對遺傳密碼的研究認為,密碼子與氨基酸之間的關系是生物進化歷史上

一次偶然的事件而造成的,並被固定在現代生物的共同祖先里,一直延續至今.

不同於這種"凍結"理論,有人曾分別提出過選擇優化,化學和歷史等三種學說

來解釋遺傳密碼.隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源

和檢驗上述理論的真偽提供了新的素材.

7, 基於結構的葯物設計

人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構,功能,

相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括葯物

治療.基於生物大分子結構及小分子結構的葯物設計是生物信息學中的極為重要

的研究領域.為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎

上,可以利用分子對齊演算法,在計算機上設計抑制劑分子,作為候選葯物.這一

領域目的是發現新的基因葯物,有著巨大的經濟效益.

8, 其他

如基因表達譜分析,代謝網路分析;基因晶元設計和蛋白質組學數據分析等,

逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的

學科包括結構基因組學,功能基因組學,比較基因組學,蛋白質學,葯物基因組

學,中葯基因組學,腫瘤基因組學,分子流行病學和環境基因組學.

從現在的發展不難看出,基因工程已經進入了後基因組時代.我們也有應對

與生物信息學密切相關的如機器學習,和數學中可能存在的誤導有一個清楚的認

識.

三, 生物信息學與機器學習

生物信息的大規模給數據挖掘提出了新課題和挑戰,需要新的思想的加入.

常規的計算機演算法仍可以應用於生物數據分析中,但越來越不適用於序列分析問

題.究竟原因,是由於生物系統本質上的模型復雜性及缺乏在分子層上建立的完

備的生命組織理論.

西蒙曾給出學習的定義:學習是系統的變化,這種變化可使系統做相同工作

時更有效[4].機器學習的目的是期望能從數據中自動地獲得相應的理論,通過采

用如推理,模型擬合及從樣本中學習,尤其適用於缺乏一般性的理論,"雜訊"

模式,及大規模數據集.因此,機器學習形成了與常規方法互補的可行的方法.

機器學習使得利用計算機從海量的生物信息中提取有用知識,發現知識成為可能

[5].

機器學習方法在大樣本,多向量的數據分析工作中發揮著日益重要的作用,

而目前大量的基因資料庫處理需要計算機能自動識別,標注,以避免即耗時又花

費巨大的人工處理方法.早期的科學方法—觀測和假設----面對高數據的體積,

快速的數據獲取率和客觀分析的要求---已經不能僅依賴於人的感知來處理了.因

而,生物信息學與機器學習相結合也就成了必然.

機器學習中最基本的理論框架是建立在概率基礎上的,從某種意義來說,是

統計模型擬合的延續,其目的均為提取有用信息.機器學習與模式識別和統計推

理密切相關.學習方法包括數據聚類,神經網路分類器和非線性回歸等等.隱馬

爾可夫模型也廣泛用於預測DNA的基因結構.目前研究重心包括:1)觀測和

探索有趣的現象.目前ML研究的焦點是如何可視化和探索高維向量數據.一般

的方法是將其約簡至低維空間,如常規的主成分分析(PCA),核主成分分析

(KPCA),獨立成分分析(Independent component analysis),局部線性嵌套(Locally

Linear embedding).2)生成假設和形式化模型來解釋現象[6].大多數聚類方法可

看成是擬合向量數據至某種簡單分布的混合.在生物信息學中聚類方法已經用於

microarray數據分析中,癌症類型分類及其他方向中.機器學習也用於從基因數

據庫中獲得相應的現象解釋.

機器學習加速了生物信息學的進展,也帶了相應的問題.機器學習方法大多

假定數據符合某種相對固定的模型,而一般數據結構通常是可變的,在生物信息

學中尤其如此,因此,有必要建立一套不依賴於假定數據結構的一般性方法來尋

找數據集的內在結構.其次,機器學習方法中常採用"黑箱"操作,如神經網路

和隱馬爾可夫模型,對於獲得特定解的內在機理仍不清楚.

四, 生物信息學的數學問題

生物信息學中數學佔了很大的比重.統計學,包括多元統計學,是生物信息

學的數學基礎之一;概率論與隨機過程理論,如近年來興起的隱馬爾科夫鏈模型

(HMM),在生物信息學中有重要應用;其他如用於序列比對的運籌學;蛋白質

空間結構預測和分子對接研究中採用的最優化理論;研究DNA超螺旋結構的拓

撲學;研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數學理

論或多或少在生物學研究中起到了相應的作用.

但並非所有的數學方法在引入生物信息學中都能普遍成立的,以下以統計學

和度量空間為例來說明.

1, 統計學的悖論

數學的發展是伴隨悖論而發展的.對於進化樹研究和聚類研究中最顯著的悖

論莫過於均值了,如圖1:

圖1 兩組同心圓的數據集

圖1是兩組同心圓構成的數據集,顯然,兩組數據集的均值均在圓點,這也

就說明了要採用常規的均值方法不能將這兩類分開,也表明均值並不能帶來更多

的數據的幾何性質.那麼,如果數據呈現類似的特有分布時,常有的進化樹演算法

和聚類演算法(如K-均值)往往會得錯誤的結論.統計上存在的陷阱往往是由於

對數據的結構缺乏一般性認識而產生的.

2, 度量空間的假設

在生物信息學中,進化樹的確立,基因的聚類等都需要引入度量的概念.舉

例來說,距離上相近或具有相似性的基因等具有相同的功能,在進化樹中滿足分

值最小的具有相同的父系,這一度量空間的前提假設是度量在全局意義下成立.

那麼,是否這種前提假設具有普適性呢

我們不妨給出一般的描述:假定兩個向量為A,B,其中,

,則在假定且滿足維數間線性無關的前提下,兩個

向量的度量可定義為:

(1)

依據上式可以得到滿足正交不變運動群的歐氏度量空間,這也是大多數生物信息

學中常採用的一般性描述,即假定了變數間線性無關.

然而,這種假設一般不能正確描述度量的性質,尤其在高維數據集時,不考

慮數據變數間的非線性相關性顯然存在問題,由此,我們可以認為,一個正確的

度量公式可由下式給出:

(2)

上式中採用了愛因斯坦和式約定,描述了變數間的度量關系.後者在滿足

(3)

時等價於(1),因而是更一般的描述,然而問題在於如何准確描述變數間的非線

性相關性,我們正在研究這個問題.

五, 幾種統計學習理論在生物信息學中應用的困難

生物信息學中面對的數據量和資料庫都是規模很大的,而相對的目標函數卻

一般難以給出明確的定義.生物信息學面臨的這種困難,可以描述成問題規模的

巨大以及問題定義的病態性之間的矛盾,一般從數學上來看,引入某個正則項來

改善性能是必然的[7].以下對基於這一思想產生的統計學習理論[8],Kolmogorov

復雜性[98]和BIC(Bayesian Information Criterion)[109]及其存在的問題給出簡要介

紹.

支持向量機(SVM)是近來較熱門的一種方法,其研究背景是Vapnik的統計

學習理論,是通過最大化兩個數據集的最大間隔來實現分類,對於非線性問題則

採用核函數將數據集映射至高維空間而又無需顯式描述數據集在高維空間的性

質,這一方法較之神經方法的好處在於將神經網路隱層的參數選擇簡化為對核函

數的選擇,因此,受到廣泛的注意.在生物信息學中也開始受到重視,然而,核

函數的選擇問題本身是一個相當困難的問題,從這個層次來看,最優核函數的選

擇可能只是一種理想,SVM也有可能象神經網路一樣只是機器學習研究進程中

又一個大氣泡.

Kolmogorov復雜性思想與統計學習理論思想分別從不同的角度描述了學習

的性質,前者從編碼的角度,後者基於有限樣本來獲得一致收斂性.Kolmogorov

復雜性是不可計算的,因此由此衍生了MDL原則(最小描述長度),其最初只

適用於離散數據,最近已經推廣至連續數據集中,試圖從編碼角度獲得對模型參

數的最小描述.其缺陷在於建模的復雜性過高,導致在大數據集中難以運用.

BIC准則從模型復雜性角度來考慮,BIC准則對模型復雜度較高的給予大的

懲罰,反之,懲罰則小,隱式地體現了奧卡姆剃刀("Occam Razor")原理,近

年也廣泛應用於生物信息學中.BIC准則的主要局限是對參數模型的假定和先驗

的選擇的敏感性,在數據量較大時處理較慢.因此,在這一方面仍然有許多探索

的空間.

六, 討論與總結

人類對基因的認識,從以往的對單個基因的了解,上升到在整個基因組水平

上考察基因的組織結構和信息結構,考察基因之間在位置,結構和功能上的相互

關系.這就要求生物信息學在一些基本的思路上要做本質的觀念轉變,本節就這

些問題做出探討和思索.

啟發式方法:

Simond在人類的認知一書中指出,人在解決問題時,一般並不去尋找最優

的方法,而只要求找到一個滿意的方法.因為即使是解決最簡單的問題,要想得

到次數最少,效能最高的解決方法也是非常困難的.最優方法和滿意方法之間的

困難程度相差很大,後者不依賴於問題的空間,不需要進行全部搜索,而只要能

達到解決的程度就可以了.正如前所述,面對大規模的序列和蛋白質結構數據集,

要獲得全局結果,往往是即使演算法復雜度為線性時也不能夠得到好的結果,因此,

要通過變換解空間或不依賴於問題的解空間獲得滿意解,生物信息學仍需要人工

智能和認知科學對人腦的進一步認識,並從中得到更好的啟發式方法.

問題規模不同的處理:

Marvin Minsky在人工智慧研究中曾指出:小規模數據量的處理向大規模數

據量推廣時,往往並非演算法上的改進能做到的,更多的是要做本質性的變化.這

好比一個人爬樹,每天都可以爬高一些,但要想爬到月球,就必須採用其他方法

一樣.在分子生物學中,傳統的實驗方法已不適應處理飛速增長的海量數據.同

樣,在採用計算機處理上,也並非依靠原有的計算機演算法就能夠解決現有的數據

挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規模數據中可以採用

動態規劃,而在大規模序列對齊時不得不引入啟發式方法,如BALST,FASTA.

樂觀中的隱擾

生物信息學是一門新興學科,起步於20世紀90年代,至今已進入"後基因

組時代",目前在這一領域的研究人員均呈普遍樂觀態度,那麼,是否存在潛在

的隱擾呢

不妨回顧一下早期人工智慧的發展史[11],在1960年左右,西蒙曾相信不出

十年,人類即可象完成登月一樣完成對人的模擬,造出一個與人智能行為完全相

同的機器人.而至今為止,這一諾言仍然遙遙無期.盡管人工智慧研究得到的成

果已經滲入到各個領域,但對人的思維行為的了解遠未完全明了.從本質來看,

這是由於最初人工智慧研究上定位錯誤以及沒有從認識論角度看清人工智慧的

本質造成的;從研究角度來看,將智能行為還原成一般的形式化語言和規則並不

能完整描述人的行為,期望物理科學的成功同樣在人工智慧研究中適用並不現

實.

反觀生物信息學,其目的是期望從基因序列上解開一切生物的基本奧秘,從

結構上獲得生命的生理機制,這從哲學上來看是期望從分子層次上解釋人類的所

有行為和功能和致病原因.這類似於人工智慧早期發展中表現的樂觀行為,也來

自於早期分子生物學,生物物理和生物化學的成就.然而,從本質上來講,與人

工智能研究相似,都是希望將生命的奧秘還原成孤立的基因序列或單個蛋白質的

功能,而很少強調基因序列或蛋白質組作為一個整體在生命體中的調控作用.我

們因此也不得不思考,這種研究的最終結果是否能夠支撐我們對生物信息學的樂

觀呢 現在說肯定的話也許為時尚早.

綜上所述,不難看出,生物信息學並不是一個足以樂觀的領域,究竟原因,

是由於其是基於分子生物學與多種學科交叉而成的新學科,現有的形勢仍表現為

各種學科的簡單堆砌,相互之間的聯系並不是特別的緊密.在處理大規模數據方

面,沒有行之有效的一般性方法;而對於大規模數據內在的生成機制也沒有完全

明了,這使得生物信息學的研究短期內很難有突破性的結果.那麼,要得到真正

的解決,最終不能從計算機科學得到,真正地解決可能還是得從生物學自身,從

數學上的新思路來獲得本質性的動力.

毫無疑問,正如Dulbecco1986年所說:"人類的DNA序列是人類的真諦,

這個世界上發生的一切事情,都與這一序列息息相關".但要完全破譯這一序列

以及相關的內容,我們還有相當長的路要走.

(來源 ------[InfoBio.org | 生物信息學研討組])http://www.infobio.org
生物信息學(Bioinformatics)是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(Genomics)和蛋白學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。

生物信息學是一門利用計算機技術研究生物系統之規律的學科。

目前的生物信息學基本上只是分子生物學與信息技術(尤其是網際網路技術)的結合體。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。

1990年代以來,伴隨著各種基因組測序計劃的展開和分子結構測定技術的突破和Internet的普及,數以百計的生物學資料庫如雨後春筍般迅速出現和成長。對生物信息學工作者提出了嚴峻的挑戰:數以億計的ACGT序列中包涵著什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?

生物信息學的另一個挑戰是從蛋白質的氨基酸序列預測蛋白質結構。這個難題已困擾理論生物學家達半個多世紀,如今找到問題答案要求正變得日益迫切。諾貝爾獎獲得者W. Gilbert在1991年曾經指出:「傳統生物學解決問題的方式是實驗的。現在,基於全部基因都將知曉,並以電子可操作的方式駐留在資料庫中,新的生物學研究模式的出發點應是理論的。一個科學家將從理論推測出發,然後再回到實驗中去,追蹤或驗證這些理論假設」。

生物信息學的主要研究方向: 基因組學 - 蛋白質組學 - 系統生物學 - 比較基因組學

姑且不去引用生物信息學冗長的定義,以通俗的語言闡述其核心應用即是:隨著包括人類基因組計劃在內的生物基因組測序工程的里程碑式的進展,由此產生的包括生物體生老病死的生物數據以前所未有的速度遞增,目前已達到每14個月翻一番的速度。同時隨著互聯網的普及,數以百計的生物學資料庫如雨後春筍般迅速出現和成長。然而這些僅僅是原始生物信息的獲取,是生物信息學產業發展的初組階段,這一階段的生物信息學企業大都以出售生物資料庫為生。以人類基因組測序而聞名的塞萊拉公司即是這一階段的成功代表。
原始的生物信息資源挖掘出來後,生命科學工作者面臨著嚴峻的挑戰:數以億計的ACGT序列中包涵著什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?生物信息學產業的高級階段體現於此,人類從此進入了以生物信息學為中心的後基因組時代。結合生物信息學的新葯創新工程即是這一階段的典型應用。

㈨ 概率圖模型的概率圖模型的推理演算法

根據網路結構與查詢問題類型的不同,概率圖模型的推理演算法有
(1)貝葉斯網路與馬爾可夫網路 中解決概率查詢問題的精確推理演算法與近似推理演算法,其中具體包括精確推理中的VE演算法、遞歸約束演算法和團樹演算法,以及近似推理中的變分近似推理和抽樣近似推理演算法;(2)解決MAP查詢問題的常用推理演算法;(3)混合網路的連續與混合情況闡述其推理演算法;(4)暫態網路的精確推理、近似推理以及混合情況下的推理。

㈩ 什麼是生物信息學

生物信息學
一, 生物信息學發展簡介

生物信息學是建立在分子生物學的基礎上的,因此,要了解生物信息學,就

必須先對分子生物學的發展有一個簡單的了解.研究生物細胞的生物大分子的結

構與功能很早就已經開始,1866年孟德爾從實驗上提出了假設:基因是以生物

成分存在[1],1871年Miescher從死的白細胞核中分離出脫氧核糖核酸(DNA),

在Avery和McCarty於1944年證明了DNA是生命器官的遺傳物質以前,人們

仍然認為染色體蛋白質攜帶基因,而DNA是一個次要的角色.

1944年Chargaff發現了著名的Chargaff規律,即DNA中鳥嘌呤的量與胞嘧

定的量總是相等,腺嘌呤與胸腺嘧啶的量相等.與此同時,Wilkins與Franklin

用X射線衍射技術測定了DNA纖維的結構.1953年James Watson 和Francis

Crick在Nature雜志上推測出DNA的三維結構(雙螺旋).DNA以磷酸糖鏈形

成發雙股螺旋,脫氧核糖上的鹼基按Chargaff規律構成雙股磷酸糖鏈之間的鹼基

對.這個模型表明DNA具有自身互補的結構,根據鹼基對原則,DNA中貯存的

遺傳信息可以精確地進行復制.他們的理論奠定了分子生物學的基礎.

DNA雙螺旋模型已經預示出了DNA復制的規則,Kornberg於1956年從大

腸桿菌(E.coli)中分離出DNA聚合酶I(DNA polymerase I),能使4種dNTP連接

成DNA.DNA的復制需要一個DNA作為模板.Meselson與Stahl(1958)用實驗

方法證明了DNA復制是一種半保留復制.Crick於1954年提出了遺傳信息傳遞

的規律,DNA是合成RNA的模板,RNA又是合成蛋白質的模板,稱之為中心

法則(Central dogma),這一中心法則對以後分子生物學和生物信息學的發展都起

到了極其重要的指導作用.

經過Nirenberg和Matthai(1963)的努力研究,編碼20氨基酸的遺傳密碼

得到了破譯.限制性內切酶的發現和重組DNA的克隆(clone)奠定了基因工程

的技術基礎.

正是由於分子生物學的研究對生命科學的發展有巨大的推動作用,生物信息

學的出現也就成了一種必然.

2001年2月,人類基因組工程測序的完成,使生物信息學走向了一個高潮.

由於DNA自動測序技術的快速發展,DNA資料庫中的核酸序列公共數據量以每

天106bp速度增長,生物信息迅速地膨脹成數據的海洋.毫無疑問,我們正從一

個積累數據向解釋數據的時代轉變,數據量的巨大積累往往蘊含著潛在突破性發

現的可能,"生物信息學"正是從這一前提產生的交叉學科.粗略地說,該領域

的核心內容是研究如何通過對DNA序列的統計計算分析,更加深入地理解DNA

序列,結構,演化及其與生物功能之間的關系,其研究課題涉及到分子生物學,

分子演化及結構生物學,統計學及計算機科學等許多領域.

生物信息學是內涵非常豐富的學科,其核心是基因組信息學,包括基因組信

息的獲取,處理,存儲,分配和解釋.基因組信息學的關鍵是"讀懂"基因組的核

苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時在

發現了新基因信息之後進行蛋白質空間結構模擬和預測,然後依據特定蛋白質的

功能進行葯物設計[2].了解基因表達的調控機理也是生物信息學的重要內容,根

據生物分子在基因調控中的作用,描述人類疾病的診斷,治療內在規律.它的研

究目標是揭示"基因組信息結構的復雜性及遺傳語言的根本規律",解釋生命的遺

傳語言.生物信息學已成為整個生命科學發展的重要組成部分,成為生命科學研

究的前沿.

二, 生物信息學的主要研究方向

生物信息學在短短十幾年間,已經形成了多個研究方向,以下簡要介紹一些

主要的研究重點.

1,序列比對(Sequence Alignment)

序列比對的基本問題是比較兩個或兩個以上符號序列的相似性或不相似

性.從生物學的初衷來看,這一問題包含了以下幾個意義[3]:

從相互重疊的序列片斷中重構DNA的完整序列.

在各種試驗條件下從探測數據(probe data)中決定物理和基因圖

存貯,遍歷和比較資料庫中的DNA序列

比較兩個或多個序列的相似性

在資料庫中搜索相關序列和子序列

尋找核苷酸(nucleotides)的連續產生模式

找出蛋白質和DNA序列中的信息成分

序列比對考慮了DNA序列的生物學特性,如序列局部發生的插入,刪除(前

兩種簡稱為indel)和替代,序列的目標函數獲得序列之間突變集最小距離加權

和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等.兩個

序列比對常採用動態規劃演算法,這種演算法在序列長度較小時適用,然而對於海

量基因序列(如人的DNA序列高達109bp),這一方法就不太適用,甚至採用算

法復雜性為線性的也難以奏效.因此,啟發式方法的引入勢在必然,著名的

BALST和FASTA演算法及相應的改進方法均是從此前提出發的.

2, 蛋白質結構比對和預測

基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性.

蛋白質的結構與功能是密切相關的,一般認為,具有相似功能的蛋白質結構一般

相似.蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),

蛋白質具有多種功能,如酶,物質的存貯和運輸,信號傳遞,抗體等等.氨基酸

的序列內在的決定了蛋白質的3維結構.一般認為,蛋白質有四級不同的結構.

研究蛋白質結構和預測的理由是:醫葯上可以理解生物的功能,尋找docking

drugs的目標,農業上獲得更好的農作物的基因工程,工業上有利用酶的合成.

直接對蛋白質結構進行比對的原因是由於蛋白質的3維結構比其一級結構

在進化中更穩定的保留,同時也包含了較AA序列更多的信息.

蛋白質3維結構研究的前提假設是內在的氨基酸序列與3維結構一一對應

(不一定全真),物理上可用最小能量來解釋.

從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構.同

源建模(homology modeling)和指認(Threading)方法屬於這一范疇.同源建模用

於尋找具有高度相似性的蛋白質結構(超過30%氨基酸相同),後者則用於比較

進化族中不同的蛋白質結構.

然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要.

3, 基因識別,非編碼區分析研究.

基因識別的基本問題是給定基因組序列後,正確識別基因的范圍和在基因組

序列中的精確位置.非編碼區由內含子組成(introns),一般在形成蛋白質後被丟

棄,但從實驗中,如果去除非編碼區,又不能完成基因的復制.顯然,DNA序

列作為一種遺傳語言,既包含在編碼區,又隱含在非編碼序列中.分析非編碼

區DNA序列目前沒有一般性的指導方法.

在人類基因組中,並非所有的序列均被編碼,即是某種蛋白質的模板,已

完成編碼部分僅占人類基因總序列的3~5%,顯然,手工的搜索如此大的基因序

列是難以想像的.

偵測密碼區的方法包括測量密碼區密碼子(codon)的頻率,一階和二階馬爾

可夫鏈,ORF(Open Reading Frames),啟動子(promoter)識別,HMM(Hidden

Markov Model)和GENSCAN,Splice Alignment等等.

4, 分子進化和比較基因組學

分子進化是利用不同物種中同一基因序列的異同來研究生物的進化,構建進

化樹.既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相

關蛋白質的結構比對來研究分子進化,其前提假定是相似種族在基因上具有相似

性.通過比較可以在基因組層面上發現哪些是不同種族中共同的,哪些是不同的.

早期研究方法常採用外在的因素,如大小,膚色,肢體的數量等等作為進化

的依據.近年來較多模式生物基因組測序任務的完成,人們可從整個基因組的角

度來研究分子進化.在匹配不同種族的基因時,一般須處理三種情況:

Orthologous: 不同種族,相同功能的基因

Paralogous: 相同種族,不同功能的基因

Xenologs: 有機體間採用其他方式傳遞的基因,如被病毒注入的基因.

這一領域常採用的方法是構造進化樹,通過基於特徵(即DNA序列或蛋白

質中的氨基酸的鹼基的特定位置)和基於距離(對齊的分數)的方法和一些傳統

的聚類方法(如UPGMA)來實現.

5, 序列重疊群(Contigs)裝配

根據現行的測序技術,每次反應只能測出500 或更多一些鹼基對的序列,

如人類基因的測量就採用了短槍(shortgun)方法,這就要求把大量的較短的序列

全體構成了重疊群(Contigs).逐步把它們拼接起來形成序列更長的重疊群,直

至得到完整序列的過程稱為重疊群裝配.從演算法層次來看,序列的重疊群是一個

NP-完全問題.

6, 遺傳密碼的起源

通常對遺傳密碼的研究認為,密碼子與氨基酸之間的關系是生物進化歷史上

一次偶然的事件而造成的,並被固定在現代生物的共同祖先里,一直延續至今.

不同於這種"凍結"理論,有人曾分別提出過選擇優化,化學和歷史等三種學說

來解釋遺傳密碼.隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源

和檢驗上述理論的真偽提供了新的素材.

7, 基於結構的葯物設計

人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構,功能,

相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括葯物

治療.基於生物大分子結構及小分子結構的葯物設計是生物信息學中的極為重要

的研究領域.為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎

上,可以利用分子對齊演算法,在計算機上設計抑制劑分子,作為候選葯物.這一

領域目的是發現新的基因葯物,有著巨大的經濟效益.

8, 其他

如基因表達譜分析,代謝網路分析;基因晶元設計和蛋白質組學數據分析等,

逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的

學科包括結構基因組學,功能基因組學,比較基因組學,蛋白質學,葯物基因組

學,中葯基因組學,腫瘤基因組學,分子流行病學和環境基因組學.

從現在的發展不難看出,基因工程已經進入了後基因組時代.我們也有應對

與生物信息學密切相關的如機器學習,和數學中可能存在的誤導有一個清楚的認

識.

三, 生物信息學與機器學習

生物信息的大規模給數據挖掘提出了新課題和挑戰,需要新的思想的加入.

常規的計算機演算法仍可以應用於生物數據分析中,但越來越不適用於序列分析問

題.究竟原因,是由於生物系統本質上的模型復雜性及缺乏在分子層上建立的完

備的生命組織理論.

西蒙曾給出學習的定義:學習是系統的變化,這種變化可使系統做相同工作

時更有效[4].機器學習的目的是期望能從數據中自動地獲得相應的理論,通過采

用如推理,模型擬合及從樣本中學習,尤其適用於缺乏一般性的理論,"雜訊"

模式,及大規模數據集.因此,機器學習形成了與常規方法互補的可行的方法.

機器學習使得利用計算機從海量的生物信息中提取有用知識,發現知識成為可能

[5].

機器學習方法在大樣本,多向量的數據分析工作中發揮著日益重要的作用,

而目前大量的基因資料庫處理需要計算機能自動識別,標注,以避免即耗時又花

費巨大的人工處理方法.早期的科學方法—觀測和假設----面對高數據的體積,

快速的數據獲取率和客觀分析的要求---已經不能僅依賴於人的感知來處理了.因

而,生物信息學與機器學習相結合也就成了必然.

機器學習中最基本的理論框架是建立在概率基礎上的,從某種意義來說,是

統計模型擬合的延續,其目的均為提取有用信息.機器學習與模式識別和統計推

理密切相關.學習方法包括數據聚類,神經網路分類器和非線性回歸等等.隱馬

爾可夫模型也廣泛用於預測DNA的基因結構.目前研究重心包括:1)觀測和

探索有趣的現象.目前ML研究的焦點是如何可視化和探索高維向量數據.一般

的方法是將其約簡至低維空間,如常規的主成分分析(PCA),核主成分分析

(KPCA),獨立成分分析(Independent component analysis),局部線性嵌套(Locally

Linear embedding).2)生成假設和形式化模型來解釋現象[6].大多數聚類方法可

看成是擬合向量數據至某種簡單分布的混合.在生物信息學中聚類方法已經用於

microarray數據分析中,癌症類型分類及其他方向中.機器學習也用於從基因數

據庫中獲得相應的現象解釋.

機器學習加速了生物信息學的進展,也帶了相應的問題.機器學習方法大多

假定數據符合某種相對固定的模型,而一般數據結構通常是可變的,在生物信息

學中尤其如此,因此,有必要建立一套不依賴於假定數據結構的一般性方法來尋

找數據集的內在結構.其次,機器學習方法中常採用"黑箱"操作,如神經網路

和隱馬爾可夫模型,對於獲得特定解的內在機理仍不清楚.

四, 生物信息學的數學問題

生物信息學中數學佔了很大的比重.統計學,包括多元統計學,是生物信息

學的數學基礎之一;概率論與隨機過程理論,如近年來興起的隱馬爾科夫鏈模型

(HMM),在生物信息學中有重要應用;其他如用於序列比對的運籌學;蛋白質

空間結構預測和分子對接研究中採用的最優化理論;研究DNA超螺旋結構的拓

撲學;研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數學理

論或多或少在生物學研究中起到了相應的作用.

但並非所有的數學方法在引入生物信息學中都能普遍成立的,以下以統計學

和度量空間為例來說明.

1, 統計學的悖論

數學的發展是伴隨悖論而發展的.對於進化樹研究和聚類研究中最顯著的悖

論莫過於均值了,如圖1:

圖1 兩組同心圓的數據集

圖1是兩組同心圓構成的數據集,顯然,兩組數據集的均值均在圓點,這也

就說明了要採用常規的均值方法不能將這兩類分開,也表明均值並不能帶來更多

的數據的幾何性質.那麼,如果數據呈現類似的特有分布時,常有的進化樹演算法

和聚類演算法(如K-均值)往往會得錯誤的結論.統計上存在的陷阱往往是由於

對數據的結構缺乏一般性認識而產生的.

2, 度量空間的假設

在生物信息學中,進化樹的確立,基因的聚類等都需要引入度量的概念.舉

例來說,距離上相近或具有相似性的基因等具有相同的功能,在進化樹中滿足分

值最小的具有相同的父系,這一度量空間的前提假設是度量在全局意義下成立.

那麼,是否這種前提假設具有普適性呢

我們不妨給出一般的描述:假定兩個向量為A,B,其中,

,則在假定且滿足維數間線性無關的前提下,兩個

向量的度量可定義為:

(1)

依據上式可以得到滿足正交不變運動群的歐氏度量空間,這也是大多數生物信息

學中常採用的一般性描述,即假定了變數間線性無關.

然而,這種假設一般不能正確描述度量的性質,尤其在高維數據集時,不考

慮數據變數間的非線性相關性顯然存在問題,由此,我們可以認為,一個正確的

度量公式可由下式給出:

(2)

上式中採用了愛因斯坦和式約定,描述了變數間的度量關系.後者在滿足

(3)

時等價於(1),因而是更一般的描述,然而問題在於如何准確描述變數間的非線

性相關性,我們正在研究這個問題.

五, 幾種統計學習理論在生物信息學中應用的困難

生物信息學中面對的數據量和資料庫都是規模很大的,而相對的目標函數卻

一般難以給出明確的定義.生物信息學面臨的這種困難,可以描述成問題規模的

巨大以及問題定義的病態性之間的矛盾,一般從數學上來看,引入某個正則項來

改善性能是必然的[7].以下對基於這一思想產生的統計學習理論[8],Kolmogorov

復雜性[98]和BIC(Bayesian Information Criterion)[109]及其存在的問題給出簡要介

紹.

支持向量機(SVM)是近來較熱門的一種方法,其研究背景是Vapnik的統計

學習理論,是通過最大化兩個數據集的最大間隔來實現分類,對於非線性問題則

採用核函數將數據集映射至高維空間而又無需顯式描述數據集在高維空間的性

質,這一方法較之神經方法的好處在於將神經網路隱層的參數選擇簡化為對核函

數的選擇,因此,受到廣泛的注意.在生物信息學中也開始受到重視,然而,核

函數的選擇問題本身是一個相當困難的問題,從這個層次來看,最優核函數的選

擇可能只是一種理想,SVM也有可能象神經網路一樣只是機器學習研究進程中

又一個大氣泡.

Kolmogorov復雜性思想與統計學習理論思想分別從不同的角度描述了學習

的性質,前者從編碼的角度,後者基於有限樣本來獲得一致收斂性.Kolmogorov

復雜性是不可計算的,因此由此衍生了MDL原則(最小描述長度),其最初只

適用於離散數據,最近已經推廣至連續數據集中,試圖從編碼角度獲得對模型參

數的最小描述.其缺陷在於建模的復雜性過高,導致在大數據集中難以運用.

BIC准則從模型復雜性角度來考慮,BIC准則對模型復雜度較高的給予大的

懲罰,反之,懲罰則小,隱式地體現了奧卡姆剃刀("Occam Razor")原理,近

年也廣泛應用於生物信息學中.BIC准則的主要局限是對參數模型的假定和先驗

的選擇的敏感性,在數據量較大時處理較慢.因此,在這一方面仍然有許多探索

的空間.

六, 討論與總結

人類對基因的認識,從以往的對單個基因的了解,上升到在整個基因組水平

上考察基因的組織結構和信息結構,考察基因之間在位置,結構和功能上的相互

關系.這就要求生物信息學在一些基本的思路上要做本質的觀念轉變,本節就這

些問題做出探討和思索.

啟發式方法:

Simond在人類的認知一書中指出,人在解決問題時,一般並不去尋找最優

的方法,而只要求找到一個滿意的方法.因為即使是解決最簡單的問題,要想得

到次數最少,效能最高的解決方法也是非常困難的.最優方法和滿意方法之間的

困難程度相差很大,後者不依賴於問題的空間,不需要進行全部搜索,而只要能

達到解決的程度就可以了.正如前所述,面對大規模的序列和蛋白質結構數據集,

要獲得全局結果,往往是即使演算法復雜度為線性時也不能夠得到好的結果,因此,

要通過變換解空間或不依賴於問題的解空間獲得滿意解,生物信息學仍需要人工

智能和認知科學對人腦的進一步認識,並從中得到更好的啟發式方法.

問題規模不同的處理:

Marvin Minsky在人工智慧研究中曾指出:小規模數據量的處理向大規模數

據量推廣時,往往並非演算法上的改進能做到的,更多的是要做本質性的變化.這

好比一個人爬樹,每天都可以爬高一些,但要想爬到月球,就必須採用其他方法

一樣.在分子生物學中,傳統的實驗方法已不適應處理飛速增長的海量數據.同

樣,在採用計算機處理上,也並非依靠原有的計算機演算法就能夠解決現有的數據

挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規模數據中可以採用

動態規劃,而在大規模序列對齊時不得不引入啟發式方法,如BALST,FASTA.

樂觀中的隱擾

生物信息學是一門新興學科,起步於20世紀90年代,至今已進入"後基因

組時代",目前在這一領域的研究人員均呈普遍樂觀態度,那麼,是否存在潛在

的隱擾呢

不妨回顧一下早期人工智慧的發展史[11],在1960年左右,西蒙曾相信不出

十年,人類即可象完成登月一樣完成對人的模擬,造出一個與人智能行為完全相

同的機器人.而至今為止,這一諾言仍然遙遙無期.盡管人工智慧研究得到的成

果已經滲入到各個領域,但對人的思維行為的了解遠未完全明了.從本質來看,

這是由於最初人工智慧研究上定位錯誤以及沒有從認識論角度看清人工智慧的

本質造成的;從研究角度來看,將智能行為還原成一般的形式化語言和規則並不

能完整描述人的行為,期望物理科學的成功同樣在人工智慧研究中適用並不現

實.

反觀生物信息學,其目的是期望從基因序列上解開一切生物的基本奧秘,從

結構上獲得生命的生理機制,這從哲學上來看是期望從分子層次上解釋人類的所

有行為和功能和致病原因.這類似於人工智慧早期發展中表現的樂觀行為,也來

自於早期分子生物學,生物物理和生物化學的成就.然而,從本質上來講,與人

工智能研究相似,都是希望將生命的奧秘還原成孤立的基因序列或單個蛋白質的

功能,而很少強調基因序列或蛋白質組作為一個整體在生命體中的調控作用.我

們因此也不得不思考,這種研究的最終結果是否能夠支撐我們對生物信息學的樂

觀呢 現在說肯定的話也許為時尚早.

綜上所述,不難看出,生物信息學並不是一個足以樂觀的領域,究竟原因,

是由於其是基於分子生物學與多種學科交叉而成的新學科,現有的形勢仍表現為

各種學科的簡單堆砌,相互之間的聯系並不是特別的緊密.在處理大規模數據方

面,沒有行之有效的一般性方法;而對於大規模數據內在的生成機制也沒有完全

明了,這使得生物信息學的研究短期內很難有突破性的結果.那麼,要得到真正

的解決,最終不能從計算機科學得到,真正地解決可能還是得從生物學自身,從

數學上的新思路來獲得本質性的動力.

毫無疑問,正如Dulbecco1986年所說:"人類的DNA序列是人類的真諦,

這個世界上發生的一切事情,都與這一序列息息相關".但要完全破譯這一序列

以及相關的內容,我們還有相當長的路要走.

(來源 ------[InfoBio.org | 生物信息學研討組])http://www.infobio.org
生物信息學(Bioinformatics)是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(Genomics)和蛋白學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。

生物信息學是一門利用計算機技術研究生物系統之規律的學科。

目前的生物信息學基本上只是分子生物學與信息技術(尤其是網際網路技術)的結合體。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。

1990年代以來,伴隨著各種基因組測序計劃的展開和分子結構測定技術的突破和Internet的普及,數以百計的生物學資料庫如雨後春筍般迅速出現和成長。對生物信息學工作者提出了嚴峻的挑戰:數以億計的ACGT序列中包涵著什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?

生物信息學的另一個挑戰是從蛋白質的氨基酸序列預測蛋白質結構。這個難題已困擾理論生物學家達半個多世紀,如今找到問題答案要求正變得日益迫切。諾貝爾獎獲得者W. Gilbert在1991年曾經指出:「傳統生物學解決問題的方式是實驗的。現在,基於全部基因都將知曉,並以電子可操作的方式駐留在資料庫中,新的生物學研究模式的出發點應是理論的。一個科學家將從理論推測出發,然後再回到實驗中去,追蹤或驗證這些理論假設」。

生物信息學的主要研究方向: 基因組學 - 蛋白質組學 - 系統生物學 - 比較基因組學

閱讀全文

與馬爾可夫與啟發式演算法相關的資料

熱點內容
虛擬幣充值源碼 瀏覽:86
我昨天看了航天電影英文翻譯 瀏覽:175
熙和宇電影高級家庭 瀏覽:236
主角10歲收了母親的小說 瀏覽:544
女獄電影日本 瀏覽:154
二龍湖浩哥最早的作品 瀏覽:699
異界收母入後宮 瀏覽:155
ida反編譯出來的代碼是匯編指令嗎 瀏覽:820
小孩子是天才的電影 瀏覽:450
輿情監控演算法 瀏覽:147
好看123電影 瀏覽:751
成龍主演的五行拳電影名字 瀏覽:954
好看的中文字幕經典 瀏覽:913
android仿qq輸入 瀏覽:117
看輕小說的網站 瀏覽:86
命令與征服3戰役存檔 瀏覽:147
台灣風月影片 瀏覽:326
彭偶么電視劇電影大全 瀏覽:291
重生井岡山林楓 瀏覽:519
日本大片網址大全 瀏覽:741