導航:首頁 > 源碼編譯 > 十大演算法作者是誰

十大演算法作者是誰

發布時間:2022-10-06 23:37:30

A. java十大演算法

演算法一:快速排序演算法
快速排序是由東尼·霍爾所發展的一種排序演算法。在平均狀況下,排序 n 個項目要Ο(n log n)次比較。在最壞狀況下則需要Ο(n2)次比較,但這種狀況並不常見。事實上,快速排序通常明顯比其他Ο(n log n) 演算法更快,因為它的內部循環(inner loop)可以在大部分的架構上很有效率地被實現出來。

快速排序使用分治法(Divide and conquer)策略來把一個串列(list)分為兩個子串列(sub-lists)。

演算法步驟:

1 從數列中挑出一個元素,稱為 "基準"(pivot),

2 重新排序數列,所有元素比基準值小的擺放在基準前面,所有元素比基準值大的擺在基準的後面(相同的數可以到任一邊)。在這個分區退出之後,該基準就處於數列的中間位置。這個稱為分區(partition)操作。

3 遞歸地(recursive)把小於基準值元素的子數列和大於基準值元素的子數列排序。

遞歸的最底部情形,是數列的大小是零或一,也就是永遠都已經被排序好了。雖然一直遞歸下去,但是這個演算法總會退出,因為在每次的迭代(iteration)中,它至少會把一個元素擺到它最後的位置去。

演算法二:堆排序演算法
堆排序(Heapsort)是指利用堆這種數據結構所設計的一種排序演算法。堆積是一個近似完全二叉樹的結構,並同時滿足堆積的性質:即子結點的鍵值或索引總是小於(或者大於)它的父節點。

堆排序的平均時間復雜度為Ο(nlogn) 。

演算法步驟:

創建一個堆H[0..n-1]

把堆首(最大值)和堆尾互換

3. 把堆的尺寸縮小1,並調用shift_down(0),目的是把新的數組頂端數據調整到相應位置

4. 重復步驟2,直到堆的尺寸為1

演算法三:歸並排序
歸並排序(Merge sort,台灣譯作:合並排序)是建立在歸並操作上的一種有效的排序演算法。該演算法是採用分治法(Divide and Conquer)的一個非常典型的應用。

演算法步驟:

1. 申請空間,使其大小為兩個已經排序序列之和,該空間用來存放合並後的序列

2. 設定兩個指針,最初位置分別為兩個已經排序序列的起始位置

3. 比較兩個指針所指向的元素,選擇相對小的元素放入到合並空間,並移動指針到下一位置

4. 重復步驟3直到某一指針達到序列尾

5. 將另一序列剩下的所有元素

B. 數據挖掘十大經典演算法及各自優勢

數據挖掘十大經典演算法及各自優勢

不僅僅是選中的十大演算法,其實參加評選的18種演算法,實際上隨便拿出一種來都可以稱得上是經典演算法,它們在數據挖掘領域都產生了極為深遠的影響。
1. C4.5
C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3演算法. C4.5演算法繼承了ID3演算法的優點,並在以下幾方面對ID3演算法進行了改進:
1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;2) 在樹構造過程中進行剪枝;3) 能夠完成對連續屬性的離散化處理;4) 能夠對不完整數據進行處理。
C4.5演算法有如下優點:產生的分類規則易於理解,准確率較高。其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致演算法的低效。
2. The k-means algorithm 即K-Means演算法
k-means algorithm演算法是一個聚類演算法,把n的對象根據他們的屬性分為k個分割,k < n。它與處理混合正態分布的最大期望演算法很相似,因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自於空間向量,並且目標是使各個群組內部的均 方誤差總和最小。
3. Support vector machines
支持向量機,英文為Support Vector Machine,簡稱SV機(論文中一般簡稱SVM)。它是一種監督式學習的方法,它廣泛的應用於統計分類以及回歸分析中。支持向量機將向量映射到一個更 高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假 定平行超平面間的距離或差距越大,分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其他分類器進行了比較。
4. The Apriori algorithm
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里,所有支持度大於最小支持度的項集稱為頻繁項集,簡稱頻集。
5. 最大期望(EM)演算法
在統計計算中,最大期望(EM,Expectation–Maximization)演算法是在概率(probabilistic)模型中尋找參數最大似然 估計的演算法,其中概率模型依賴於無法觀測的隱藏變數(Latent Variabl)。最大期望經常用在機器學習和計算機視覺的數據集聚(Data Clustering)領域。
6. PageRank
PageRank是Google演算法的重要內容。2001年9月被授予美國專利,專利人是Google創始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指網頁,而是指佩奇,即這個等級方法是以佩奇來命名的。
PageRank根據網站的外部鏈接和內部鏈接的數量和質量倆衡量網站的價值。PageRank背後的概念是,每個到頁面的鏈接都是對該頁面的一次投票, 被鏈接的越多,就意味著被其他網站投票越多。這個就是所謂的「鏈接流行度」——衡量多少人願意將他們的網站和你的網站掛鉤。PageRank這個概念引自 學術中一篇論文的被引述的頻度——即被別人引述的次數越多,一般判斷這篇論文的權威性就越高。
7. AdaBoost
Adaboost是一種迭代演算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然後把這些弱分類器集合起來,構成一個更強的最終分類器 (強分類器)。其演算法本身是通過改變數據分布來實現的,它根據每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的准確率,來確定每個樣本的權 值。將修改過權值的新數據集送給下層分類器進行訓練,最後將每次訓練得到的分類器最後融合起來,作為最後的決策分類器。
8. kNN: k-nearest neighbor classification
K最近鄰(k-Nearest Neighbor,KNN)分類演算法,是一個理論上比較成熟的方法,也是最簡單的機器學習演算法之一。該方法的思路是:如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。
9. Naive Bayes
在眾多的分類模型中,應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC)。 樸素貝葉斯模型發源於古典數學理論,有著堅實的數學基礎,以 及穩定的分類效率。同時,NBC模型所需估計的參數很少,對缺失數據不太敏感,演算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。 但是實際上並非總是如此,這是因為NBC模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。在屬 性個數比較多或者屬性之間相關性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時,NBC模型的性能最為良好。10. CART: 分類與回歸樹
CART, Classification and Regression Trees。 在分類樹下面有兩個關鍵的思想。第一個是關於遞歸地劃分自變數空間的想法;第二個想法是用驗證數據進行剪枝。

以上是小編為大家分享的關於數據挖掘十大經典演算法及各自優勢的相關內容,更多信息可以關注環球青藤分享更多干貨

C. 誰有數學建模十大演算法的詳細介紹啊

1、蒙特卡羅演算法(該演算法又稱隨機性模擬演算法,是通過計算機模擬來解決問題的演算法,
同時可以通過模擬可以來檢驗自己模型的正確性,是比賽時必用的方法)
2、數據擬合、參數估計、插值等數據處理演算法(比賽中通常會遇到大量的數據需要處理,
而處理數據的關鍵就在於這些演算法,通常使用Matlab作為工具)
3、線性規劃、整數規劃、多元規劃、二次規劃等規劃類問題(建模競賽大多數問題屬於最優化問題,
很多時候這些問題可以用數學規劃演算法來描述,通常使用Lindo、Lingo軟體實現)
4、圖論演算法(這類演算法可以分為很多種,包括最短路、網路流、二分圖等演算法,
涉及到圖論的問題可以用這些方法解決,需要認真准備)
5、動態規劃、回溯搜索、分治演算法、分支定界等計算機演算法(這些演算法是演算法設計中比較常用的方法,很多場合可以用到競賽中)
6、最優化理論的三大非經典演算法:模擬退火法、神經網路、遺傳演算法
(這些問題是用來解決一些較困難的最優化問題的演算法,對於有些問題非常有幫助,
但是演算法的實現比較困難,需慎重使用)
7、網格演算法和窮舉法(網格演算法和窮舉法都是暴力搜索最優點的演算法,在很多競賽題中有應用,
當重點討論模型本身而輕視演算法的時候,可以使用這種暴力方案,最好使用一些高級語言作為編程工具)
8、一些連續離散化方法(很多問題都是實際來的,數據可以是連續的,而計算機只認的是離散的數據,因此將其離散化後進行差分代替微分、求和代替積分等思想是非常重要的)
9、數值分析演算法(如果在比賽中採用高級語言進行編程的話,那一些數值分析中常用的演算法比
如方程組求解、矩陣運算、函數積分等演算法就需要額外編寫庫函數進行調用)
10、圖象處理演算法(賽題中有一類問題與圖形有關,即使與圖形無關,論文中也應該要不乏圖片的,
這些圖形如何展示以及如何處理就是需要解決的問題,通常使用Matlab進行處理)

D. 計算機十大經典演算法有哪些

再把子問題分成更小的子問題……直到最後子問題可以簡單的直接求解,逆著這個行進方向,從終點向始點計算,在選定系統行進方向之後,常比線性規劃法更為有效,由每個階段都作出決策,從而使整個過程達到最優化。所謂多階段決策過程,特別是對於那些離散型問題。實際上,動態規劃法就是分多階段進行決策,其基本思路是,原問題的解即子問題的解的合並
不好意思啊,就是把研究問題分成若干個相互聯系的階段,逐次對每個階段尋找某種決策,用來解決多階段決策過程問題的一種最優化方法,就是把一個復雜的問題分成兩個或更多的相同或相似的子問題:按時空特點將復雜問題劃分為相互聯系的若干個階段。字面上的解釋是「分而治之」動態規劃法[dynamic
programming
method
(dp)]是系統分析中一種常用的方法。在水資源規劃中,往往涉及到地表水庫調度、水資源量的合理分配、優化調度等問題,而這些問題又可概化為多階段決策過程問題。動態規劃法是解決此類問題的有效方法。動態規劃法是20世紀50年代由貝爾曼(r,使整個過程達到最優.
bellman)等人提出。許多實際問題利用動態規劃法處理,故又稱為逆序決策過程。
回溯法是一種選優搜索法,按選優條件向前搜索,以達到目標。但當探索到某一步時,發現原先選擇並不優或達不到目標,就退回一步重新選擇,這種走不通就退回再走的技術為回溯法,而滿足回溯條件的某個狀態的點稱為「回溯點」。
在計算機科學中,分治法是一種很重要的演算法

E. <<算經十書>>的作者分別是誰

《周髀算經》作者不詳,有可能成書於公元前100年,它原名為《周髀》,到了唐代才改名為《周髀算經》.它不僅是一部數學著作,而且還是我國最古的天文學著作.主要闡明了蓋天說和四分歷法.
在數學上,《周髀》已經採用了相當復雜的分數乘除法,計算太陽在正東西方向離近的時候,運用到了勾股定理.
《九章算術》是一部現有傳本的,最古老的中國數學書.它的編寫年代大約是公元100年左右.作者不詳,共分為九章,所以稱為《九章算術》.
《九章算術》對我國的數學發展產生了巨大的影響.16世紀以前的中國數學書,原則上都遵循《九章算術》的體例.它的正文包括 " 題 " , " 答 " , " 術 " 三部分. " 術 " 就是解題的思路和方法.由於它的內容比較深奧,所以晉代劉徵對之作注,使得《九章算術》的解題方法等才能為人們所理解.
《海島算經》又名《重差》,作者是晉代劉徵.它原是《九章算術注》的最後一卷.因為在這一卷里依據兩個測望數據推算太陽高,遠的方法昌,要用到兩個差數,所以把這種測量方法稱為 " 重差術 " ,給這一捲起名為 " 重差. "
到了唐代選定十部選經進,把《九章算術》和《重差》分開.加之它的第一個題目是測望海島山峰,計算它的高和遠,所以又把《重差》改名為《海島算經》.作者劉徵總結和發展了 " 二重差方法 " ,進一步闡明了相似三角形的性質及其應用.
《 孫子算經》的作者不詳,估計是公元400年左右的數學著作.它是一部直接涉及到乘除運算,求面積和體積,處理分數以及開平方和立方的著作.對籌算的分數演算法和籌算開平方法以及當時的度量衡體系,都作了描繪,其中有關數論上原一個 " 物不知數 " 的計算問題,是世界上最早提出演算法的,被譽為 " 孫子定理 " 或 " 中國剩餘定理 " .其具體內容是,有一個數,用3除它餘2,用5除它餘3,用7除它餘2,求這個數.用現代數學符號來表示是,求一個最小正整數N,滿足聯立一次同餘式.
這個問題後來在民間廣為流傳,人們稱之為 " 韓信點兵 " .並根據它編了一首 " 孫子歌 " 來表示它的解法.具體內容是: " 三人同行七十,五樹梅花廿一枝,七子團圓月正半,除百零五便得知. "
意思是說,用3除餘1,算70;用5除餘1,算21;用7除餘1,算15;把70,21,15這些數的倍數加起來,連續減去105,最後得出的最小正整數就是答案.後來,秦九韶在總結 " 孫子定理 " 的基礎上,創立了 " 大衍求一術 " ,發表在《數書九章》上,提出了關於一次同餘式組問題的相當完整的理論和演算法,取得了興世公認的傑出成就.
《張邱建算經》的作者是張邱建,大約作於5世紀後期,裡面有對最大公約數,最小公倍數的應用問題,不有竺差級數問題,最著名的是提出了不定方程組 —— 百雞問題,但是沒有具體說明其解灶.《夏侯陽算經》估計是北魏時代的作品.裡面概括地敘述了乘除速演算法則,分數法則,解釋了 " 法除 " , " 步除 " , " 約除 " , " 開平方 " , " 方立 " 等法則,另外推廣了十進小數的應用,全與現在的表示法不同,計算結果有奇零時借用分,厘,毫,絲等長度單位名稱表示文以下的十進小數.
《五曹算經》是一部為地方行政人員所寫的應用算術書(作者不可詳,有的認為其作者是甄鸞),全書分為田曹,兵曹,集曹,倉曹,金曹等五個項目,所以稱為 " 五曹 " 算經.所講問題的解法都淺顯易懂,數字計算都盡可能地避免分數.
《五經算術》相傳為北周甄鸞所作.主要是應用數學知識或計算技巧,對我國古代經典著作〈尚書〉,《詩經》,《周易》,《論語》,《禮記》中的有關數字計算作以注釋.對保存古代數學,遺產,功勞較大.
《數術記遺》雖然記為漢徐岳所著,其實有可能是甄鸞自著折作品,還有些書稱〈數術記遺〉為徐岳所著,由甄鸞註解.在這部分中主要成就是大數進法,秦以前早有萬,億,兆等都是十進位,即十萬為億,十億兆.漢以後改為萬進,即萬萬為億,萬億為兆等.另外敘述了籌演算法,心演算法等13種演算法.
《綴術》是南北朝時期偉大的數學家祖沖之和他的兒子所著.裡面的問題比較深奧,現已失傳.根據其他著作中的記術,裡面主要有求圓周率,他是第一個把圓周率精確到六位小數的數學家,比西方要早1000年,另外還有球體積的計算公式:
V= π /4*2/3D 3= π/6D 3=4/3πR 3
其中V為球體積,D為球直徑,R為球半徑.
《緝古算經》是唐代王孝通所著.開始稱為《緝古》,公元656年立學官後,指定為算術用書,才稱為《緝古算經》.這部書最早提出了三次議程,利用三次方程求根方法,解決大規模土方工程計算問題.

F. 改變未來的九大演算法的作者簡介

約翰·麥考密克,JohnMacCormick,計算機科學的領頭人和導師。
獲得牛津大學博士學位,曾經在惠普和微軟從事研究工作。現在在迪金森學院擔任計算機學科的教授。並且是多項專利的所有者。

G. 大數據挖掘的演算法有哪些

大數據挖掘的演算法:
1.樸素貝葉斯,超級簡單,就像做一些數數的工作。如果條件獨立假設成立的話,NB將比鑒別模型收斂的更快,所以你只需要少量的訓練數據。即使條件獨立假設不成立,NB在實際中仍然表現出驚人的好。
2. Logistic回歸,LR有很多方法來對模型正則化。比起NB的條件獨立性假設,LR不需要考慮樣本是否是相關的。與決策樹與支持向量機不同,NB有很好的概率解釋,且很容易利用新的訓練數據來更新模型。如果你想要一些概率信息或者希望將來有更多數據時能方便的更新改進模型,LR是值得使用的。
3.決策樹,DT容易理解與解釋。DT是非參數的,所以你不需要擔心野點(或離群點)和數據是否線性可分的問題,DT的主要缺點是容易過擬合,這也正是隨機森林等集成學習演算法被提出來的原因。
4.支持向量機,很高的分類正確率,對過擬合有很好的理論保證,選取合適的核函數,面對特徵線性不可分的問題也可以表現得很好。SVM在維數通常很高的文本分類中非常的流行。

如果想要或許更多更詳細的訊息,建議您去參加CDA數據分析課程。大數據分析師現在有專業的國際認證證書了,CDA,即「CDA 數據分析師」,是在數字經濟大背景和人工智慧時代趨勢下,面向全行業的專業權威國際資格認證, 旨在提升全民數字技能,助力企業數字化轉型,推動行業數字化發展。 「CDA 數據分析師」具體指在互聯網、金融、零售、咨詢、電信、醫療、旅遊等行業專門從事數據的採集、清洗、處理、分析並能製作業務報告、 提供決策的新型數據分析人才。點擊預約免費試聽課。

H. 關於 世紀 和年代的演算法我不是很明白【100分】

世紀公元和年代的演算法 本世紀初,美國物理學會(American Institute of Physics)和IEEE計算機社團 (IEEE Computer Society)的一本聯合刊物《科學與工程中的計算》發表了由田納西大學的Jack Dongarra和橡樹嶺國家實驗室的Francis Sullivan 聯名撰寫的「世紀十大演算法」一文,該文「試圖整理出在20世紀對科學和工程領域的發展產生最大影響力的十大演算法」。作者苦於「任何選擇都將是充滿爭議的, 因為實在是沒有最好的演算法」,他們只好用編年順序依次列出了這十項演算法領域人類智慧的巔峰之作——給出了一份沒有排名的演算法排行榜。有趣的是,該期雜志還 專門邀請了這些演算法相關領域的「大拿」為這十大演算法撰寫十篇綜述文章,實在是蔚為壯觀。本文的目的,便是要帶領讀者走馬觀花,一同回顧當年這一演算法界的盛 舉。

1946 蒙特卡洛方法

在廣場上畫一個邊長一米的正方形,在正方形內部隨意用粉筆畫一個不規則的形 狀,呃,能幫我算算這個不規則圖形的面積么?蒙特卡洛(Monte Carlo)方法便是解決這個問題的巧妙方法:隨機向該正方形內扔N(N 是一個很大的自然數)個黃豆,隨後數數有多少個黃豆在這個不規則幾何形狀內部,比如說有M個:那麼,這個奇怪形狀的面積便近似於M/N,N越大,算出來的 值便越精確。別小看這個數黃豆的笨辦法,大到國家的民意測驗,小到中子的移動軌跡,從金融市場的風險分析,到軍事演習的沙盤推演,蒙特卡洛方法無處不在背 後發揮著它的神奇威力。

蒙特卡洛方法由美國拉斯阿莫斯國家實驗室的三位科學家John von Neumann(看清楚了,這位可是馮諾伊曼同志!),Stan Ulam 和 Nick Metropolis共同發明。就其本質而言,蒙特卡洛方法是用類似於物理實驗的近似方法求解問題,它的魔力在於,對於那些規模極大的問題,求解難度隨著 問題的維數(自變數個數)的增加呈指數級別增長,出現所謂的「維數的災難」(Course of Dimensionality)。對此,傳統方法無能為力,而蒙特卡洛方法卻可以獨辟蹊徑,基於隨機模擬的過程給出近似的結果。

最後八卦一下,Monte Carlo這個名字是怎麼來的?它是摩納哥的一座以博彩業聞名的城市,賭博其實是門概率的高深學問,不是么?

1947 單純形法

單 純形法是由大名鼎鼎的「預測未來」的蘭德公司的Grorge Dantzig發明的,它成為線性規劃學科的重要基石。所謂線性規劃,簡單的說,就是給定一組線性(所有變數都是一次冪)約束條件(例如a1*x1+ b1*x2+c1*x3>0),求一個給定的目標函數的極值。這么說似乎也太太太抽象了,但在現實中能派上用場的例子可不罕見——比如對於一個公司 而言,其能夠投入生產的人力物力有限(「線性約束條件」),而公司的目標是利潤最大化(「目標函數取最大值」),看,線性規劃並不抽象吧!線性規劃作為運 籌學(operation research)的一部分,成為管理科學領域的一種重要工具。而Dantzig提出的單純形法便是求解類似線性規劃問題的一個極其有效的方法,說來慚 愧,本科二年級的時候筆者也學過一學期的運籌學,現在腦子里能想起的居然只剩下單純形法了——不過這不也正說明了該方法的簡單和直觀么?

順便說句題外話,寫過《萬曆十五年》的黃仁宇曾說中國的傳統是「不能從數目字上管理」,我們習慣於「拍腦袋」,而不是基於嚴格的數據做決定,也許改變這一傳統的方法之一就是全民動員學習線性規劃喔。

1950 Krylov子空間迭代法
1951 矩陣計算的分解方法

50 年代初的這兩個演算法都是關於線性代數中的矩陣計算的,看到數學就頭大的讀者恐怕看到演算法的名字已經開始皺眉毛了。Krylov子空間疊代法是用來求解形如 Ax=b 的方程,A是一個n*n 的矩陣,當n充分大時,直接計算變得非常困難,而Krylov方法則巧妙地將其變為Kxi+1=Kxi+b-Axi的迭代形式來求解。這里的K(來源於作 者俄國人Nikolai Krylov姓氏的首字母)是一個構造出來的接近於A的矩陣,而迭代形式的演算法的妙處在於,它將復雜問題化簡為階段性的易於計算的子步驟。

1951年由橡樹嶺國家實驗室的AlstonHouseholder提出的矩陣計算的分解方法,則證明了任何矩陣都可以分解為三角、對角、正交和其他特殊形式的矩陣,該演算法的意義使得開發靈活的矩陣計算軟體包成為可能。

1957 優化的Fortran編譯

說 實話,在這份學術氣息無比濃郁的榜單里突然冒出一個編譯器(Compiler)如此工程化的東東實在讓人有「關公戰秦瓊」的感覺。不過換個角度想 想,Fortran這一門幾乎為科學計算度身定製的編程語言對於科學家(尤其是數學家,物理學家)們實在是太重要了,簡直是他們形影不離的一把瑞士軍刀, 這也難怪他們紛紛搶著要把票投給了它。要知道,Fortran是第一種能將數學公式轉化為計算機程序的高級語言,它的誕生使得科學家們真正開始利用計算機 作為計算工具為他們的研究服務,這是計算機應用技術的一個里程碑級別的貢獻。

話說回來,當年這幫開發Fortran的傢伙真是天 才——只用23500行匯編指令就完成了一個Fortran編譯器,而且其效率之高令人嘆為觀止:當年在IBM 主持這一項目的負責人JohnBackus在數十年後,回首這段往事的時候也感慨,說它生成代碼的效率「出乎了所有開發者的想像」。看來作為程序員,自己 寫的程序跑起來「出乎自己的想像」,有時候還真不一定是件壞事!

1959-61 計算矩陣特徵值的QR演算法

呼, 又是一個和線性代數有關的演算法,學過線性代數的應該還記得「矩陣的特徵值」吧?計算特徵值是矩陣計算的最核心內容之一,傳統的求解方案涉及到高次方程求 根,當問題規模大的時候十分困難。QR演算法把矩陣分解成一個正交矩陣(什麼是正交矩陣?!還是趕緊去翻書吧!)與一個上三角矩陣的積,和前面提到的 Krylov 方法類似,這又是一個迭代演算法,它把復雜的高次方程求根問題化簡為階段性的易於計算的子步驟,使得用計算機求解大規模矩陣特徵值成為可能。這個演算法的作者 是來自英國倫敦的J.G.F. Francis。

1962 快速排序演算法

不少讀者恐怕和我一樣,看到「快 速排序演算法」(Quick Sort)這個條目時,心裡的感覺是——「這可總算找到組織了」。相比於其他一些對程序員而言高深莫測的數學物理公式,快速排序演算法真是我們朝夕相處的好 夥伴——老闆讓你寫個排序演算法,如果你寫出來的不是快速排序,你都不好意思跟同事打招呼。其實根本不用自己動手實現, 不論是ANSI C,C++ STL,還是Java SDK,天下幾乎所有的SDK里都能找到它的某種實現版本。

快速排序演算法最早由Tony Hoare爵士設計,它的基本思想是將待排序列分為兩半,左邊的一半總是「小的」,右邊的一半總是「大的」,這一過程不斷遞歸持續下去,直到整個序列有 序。說起這位Tony Hoare爵士,快速排序演算法其實只是他不經意間的小小發現而已,他對於計算機貢獻主要包括形式化方法理論,以及ALGOL60 編程語言的發明等,他也因這些成就獲得1980 年圖靈獎。

快速排序的平均時間復雜度僅僅為O(Nlog(N)),相比於普通選擇排序和冒泡排序等而言,實在是歷史性的創舉。

1965 快速傅立葉變換

如 果要評選對我們的日常生活影響最大的演算法,快速傅立葉變換演算法應該是當仁不讓的總冠軍——每天當拿起話筒,打開手機,聽mp3,看DVD,用DC拍照 ——毫不誇張的說,哪裡有數字信號處理,哪裡就有快速傅立葉變換。快速傅立葉演算法是離散傅立葉演算法(這可是數字信號處理的基石)的一種快速演算法,它有 IBM 華生研究院的James Cooley和普林斯頓大學的John Tukey共同提出,其時間復雜度僅為O(Nlog(N));比時間效率更為重要的是,快速傅立葉演算法非常容易用硬體實現,因此它在電子技術領域得到極其 廣泛的應用。

1977 整數關系探測演算法

整數關系探測是個古老的問題,其歷史甚至可以追溯到歐幾里德的時代。具體的說:

給 定—組實數X1,X2,...,Xn,是否存在不全為零的整數a1,a2,...an,使得:a 1 x 1 +a 2 x 2 + . . . + a n x n = 0 這一年BrighamYoung大學的Helaman Ferguson 和Rodney Forcade解決了這一問題。至於這個演算法的意義嘛,呃,該演算法應用於「簡化量子場論中的Feynman圖的計算」——太深奧的學問拉!

1987 快速多極演算法

日 歷翻到了1987 年,這一年的演算法似乎更加玄奧了,耶魯大學的Leslie Greengard和Vladimir Rokhlin提出的快速多極演算法用來計算「經由引力或靜電力相互作用的N 個粒子運動的精確計算——例如銀河系中的星體,或者蛋白質中的原子間的相互作用」,天哪,不是我不明白,這世界真是變得快!

所謂浪花淘盡英雄,這些演算法的發明者許多已經駕鶴西去。二十一世紀的頭五年也已經在不知不覺中從我們指尖滑過,不知下一次十大演算法評選的盛事何時再有,也許我們那時已經垂垂老去,也許我們早已不在人世,只是心中唯一的希望——裡面該有個中國人的名字吧!

I. 機器學習新手必看十大演算法

機器學習新手必看十大演算法
本文介紹了機器學習新手需要了解的 10 大演算法,包括線性回歸、Logistic 回歸、樸素貝葉斯、K 近鄰演算法等。
在機器學習中,有一種叫做「沒有免費的午餐」的定理。簡而言之,它指出沒有任何一種演算法對所有問題都有效,在監督學習(即預測建模)中尤其如此。
例如,你不能說神經網路總是比決策樹好,反之亦然。有很多因素在起作用,例如數據集的大小和結構。
因此,你應該針對具體問題嘗試多種不同演算法,並留出一個數據「測試集」來評估性能、選出優勝者。
當然,你嘗試的演算法必須適合你的問題,也就是選擇正確的機器學習任務。打個比方,如果你需要打掃房子,你可能會用吸塵器、掃帚或拖把,但是你不會拿出鏟子開始挖土。
大原則
不過也有一個普遍原則,即所有監督機器學習演算法預測建模的基礎。
機器學習演算法被描述為學習一個目標函數 f,該函數將輸入變數 X 最好地映射到輸出變數 Y:Y = f(X)
這是一個普遍的學習任務,我們可以根據輸入變數 X 的新樣本對 Y 進行預測。我們不知道函數 f 的樣子或形式。如果我們知道的話,我們將會直接使用它,不需要用機器學習演算法從數據中學習。
最常見的機器學習演算法是學習映射 Y = f(X) 來預測新 X 的 Y。這叫做預測建模或預測分析,我們的目標是盡可能作出最准確的預測。
對於想了解機器學習基礎知識的新手,本文將概述數據科學家使用的 top 10 機器學習演算法。
1. 線性回歸
線性回歸可能是統計學和機器學習中最知名和最易理解的演算法之一。
預測建模主要關注最小化模型誤差或者盡可能作出最准確的預測,以可解釋性為代價。我們將借用、重用包括統計學在內的很多不同領域的演算法,並將其用於這些目的。
線性回歸的表示是一個方程,它通過找到輸入變數的特定權重(稱為系數 B),來描述一條最適合表示輸入變數 x 與輸出變數 y 關系的直線。
線性回歸
例如:y = B0 + B1 * x
我們將根據輸入 x 預測 y,線性回歸學習演算法的目標是找到系數 B0 和 B1 的值。
可以使用不同的技術從數據中學習線性回歸模型,例如用於普通最小二乘法和梯度下降優化的線性代數解。
線性回歸已經存在了 200 多年,並得到了廣泛研究。使用這種技術的一些經驗是盡可能去除非常相似(相關)的變數,並去除噪音。這是一種快速、簡單的技術,可以首先嘗試一下。
2. Logistic 回歸
Logistic 回歸是機器學習從統計學中借鑒的另一種技術。它是解決二分類問題的首選方法。
Logistic 回歸與線性回歸相似,目標都是找到每個輸入變數的權重,即系數值。與線性回歸不同的是,Logistic 回歸對輸出的預測使用被稱為 logistic 函數的非線性函數進行變換。
logistic 函數看起來像一個大的 S,並且可以將任何值轉換到 0 到 1 的區間內。這非常實用,因為我們可以規定 logistic 函數的輸出值是 0 和 1(例如,輸入小於 0.5 則輸出為 1)並預測類別值。
Logistic 回歸
由於模型的學習方式,Logistic 回歸的預測也可以作為給定數據實例(屬於類別 0 或 1)的概率。這對於需要為預測提供更多依據的問題很有用。
像線性回歸一樣,Logistic 回歸在刪除與輸出變數無關的屬性以及非常相似(相關)的屬性時效果更好。它是一個快速的學習模型,並且對於二分類問題非常有效。
3. 線性判別分析(LDA)
Logistic 回歸是一種分類演算法,傳統上,它僅限於只有兩類的分類問題。如果你有兩個以上的類別,那麼線性判別分析是首選的線性分類技術。
LDA 的表示非常簡單直接。它由數據的統計屬性構成,對每個類別進行計算。單個輸入變數的 LDA 包括:
每個類別的平均值;
所有類別的方差。
線性判別分析
進行預測的方法是計算每個類別的判別值並對具備最大值的類別進行預測。該技術假設數據呈高斯分布(鍾形曲線),因此最好預先從數據中刪除異常值。這是處理分類預測建模問題的一種簡單而強大的方法。
4. 分類與回歸樹
決策樹是預測建模機器學習的一種重要演算法。
決策樹模型的表示是一個二叉樹。這是演算法和數據結構中的二叉樹,沒什麼特別的。每個節點代表一個單獨的輸入變數 x 和該變數上的一個分割點(假設變數是數字)。
決策樹
決策樹的葉節點包含一個用於預測的輸出變數 y。通過遍歷該樹的分割點,直到到達一個葉節點並輸出該節點的類別值就可以作出預測。
決策樹學習速度和預測速度都很快。它們還可以解決大量問題,並且不需要對數據做特別准備。
5. 樸素貝葉斯
樸素貝葉斯是一個簡單但是很強大的預測建模演算法。
該模型由兩種概率組成,這兩種概率都可以直接從訓練數據中計算出來:1)每個類別的概率;2)給定每個 x 的值,每個類別的條件概率。一旦計算出來,概率模型可用於使用貝葉斯定理對新數據進行預測。當你的數據是實值時,通常假設一個高斯分布(鍾形曲線),這樣你可以簡單的估計這些概率。
貝葉斯定理
樸素貝葉斯之所以是樸素的,是因為它假設每個輸入變數是獨立的。這是一個強大的假設,真實的數據並非如此,但是,該技術在大量復雜問題上非常有用。
6. K 近鄰演算法
KNN 演算法非常簡單且有效。KNN 的模型表示是整個訓練數據集。是不是很簡單?
KNN 演算法在整個訓練集中搜索 K 個最相似實例(近鄰)並匯總這 K 個實例的輸出變數,以預測新數據點。對於回歸問題,這可能是平均輸出變數,對於分類問題,這可能是眾數(或最常見的)類別值。
訣竅在於如何確定數據實例間的相似性。如果屬性的度量單位相同(例如都是用英寸表示),那麼最簡單的技術是使用歐幾里得距離,你可以根據每個輸入變數之間的差值直接計算出來其數值。
K 近鄰演算法
KNN 需要大量內存或空間來存儲所有數據,但是只有在需要預測時才執行計算(或學習)。你還可以隨時更新和管理訓練實例,以保持預測的准確性。
距離或緊密性的概念可能在非常高的維度(很多輸入變數)中會瓦解,這對演算法在你的問題上的性能產生負面影響。這被稱為維數災難。因此你最好只使用那些與預測輸出變數最相關的輸入變數。
7. 學習向量量化
K 近鄰演算法的一個缺點是你需要遍歷整個訓練數據集。學習向量量化演算法(簡稱 LVQ)是一種人工神經網路演算法,它允許你選擇訓練實例的數量,並精確地學習這些實例應該是什麼樣的。
學習向量量化
LVQ 的表示是碼本向量的集合。這些是在開始時隨機選擇的,並逐漸調整以在學習演算法的多次迭代中最好地總結訓練數據集。在學習之後,碼本向量可用於預測(類似 K 近鄰演算法)。最相似的近鄰(最佳匹配的碼本向量)通過計算每個碼本向量和新數據實例之間的距離找到。然後返回最佳匹配單元的類別值或(回歸中的實際值)作為預測。如果你重新調整數據,使其具有相同的范圍(比如 0 到 1 之間),就可以獲得最佳結果。
如果你發現 KNN 在你的數據集上達到很好的結果,請嘗試用 LVQ 減少存儲整個訓練數據集的內存要求。
8. 支持向量機(SVM)
支持向量機可能是最受歡迎和最廣泛討論的機器學習演算法之一。
超平面是分割輸入變數空間的一條線。在 SVM 中,選擇一條可以最好地根據輸入變數類別(類別 0 或類別 1)對輸入變數空間進行分割的超平面。在二維中,你可以將其視為一條線,我們假設所有的輸入點都可以被這條線完全的分開。SVM 學習演算法找到了可以讓超平面對類別進行最佳分割的系數。
支持向量機
超平面和最近的數據點之間的距離被稱為間隔。分開兩個類別的最好的或最理想的超平面具備最大間隔。只有這些點與定義超平面和構建分類器有關。這些點被稱為支持向量,它們支持或定義了超平面。實際上,優化演算法用於尋找最大化間隔的系數的值。
SVM 可能是最強大的立即可用的分類器之一,值得一試。
9. Bagging 和隨機森林
隨機森林是最流行和最強大的機器學習演算法之一。它是 Bootstrap Aggregation(又稱 bagging)集成機器學習演算法的一種。
bootstrap 是從數據樣本中估算數量的一種強大的統計方法。例如平均數。你從數據中抽取大量樣本,計算平均值,然後平均所有的平均值以便更好的估計真實的平均值。
bagging 使用相同的方法,但是它估計整個統計模型,最常見的是決策樹。在訓練數據中抽取多個樣本,然後對每個數據樣本建模。當你需要對新數據進行預測時,每個模型都進行預測,並將所有的預測值平均以便更好的估計真實的輸出值。
隨機森林
隨機森林是對這種方法的一種調整,在隨機森林的方法中決策樹被創建以便於通過引入隨機性來進行次優分割,而不是選擇最佳分割點。
因此,針對每個數據樣本創建的模型將會與其他方式得到的有所不同,不過雖然方法獨特且不同,它們仍然是准確的。結合它們的預測可以更好的估計真實的輸出值。
如果你用方差較高的演算法(如決策樹)得到了很好的結果,那麼通常可以通過 bagging 該演算法來獲得更好的結果。
10. Boosting 和 AdaBoost
Boosting 是一種集成技術,它試圖集成一些弱分類器來創建一個強分類器。這通過從訓練數據中構建一個模型,然後創建第二個模型來嘗試糾正第一個模型的錯誤來完成。一直添加模型直到能夠完美預測訓練集,或添加的模型數量已經達到最大數量。
AdaBoost 是第一個為二分類開發的真正成功的 boosting 演算法。這是理解 boosting 的最佳起點。現代 boosting 方法建立在 AdaBoost 之上,最顯著的是隨機梯度提升。
AdaBoost
AdaBoost與短決策樹一起使用。在第一個決策樹創建之後,利用每個訓練實例上樹的性能來衡量下一個決策樹應該對每個訓練實例付出多少注意力。難以預測的訓練數據被分配更多權重,而容易預測的數據分配的權重較少。依次創建模型,每個模型在訓練實例上更新權重,影響序列中下一個決策樹的學習。在所有決策樹建立之後,對新數據進行預測,並且通過每個決策樹在訓練數據上的精確度評估其性能。
因為在糾正演算法錯誤上投入了太多注意力,所以具備已刪除異常值的干凈數據非常重要。
總結
初學者在面對各種機器學習演算法時經常問:「我應該用哪個演算法?」這個問題的答案取決於很多因素,包括:(1)數據的大小、質量和特性;(2)可用的計算時間;(3)任務的緊迫性;(4)你想用這些數據做什麼。
即使是經驗豐富的數據科學家在嘗試不同的演算法之前,也無法分辨哪種演算法會表現最好。雖然還有很多其他的機器學習演算法,但本篇文章中討論的是最受歡迎的演算法。如果你是機器學習的新手,這將是一個很好的學習起點。

閱讀全文

與十大演算法作者是誰相關的資料

熱點內容
程序員用得到數字區嗎 瀏覽:174
python求商 瀏覽:477
ipad能用c語言編譯器嗎 瀏覽:561
軟泥解壓球最新版 瀏覽:998
4萬程序員辭職創業 瀏覽:759
thinkingphp 瀏覽:597
安卓相冊移動文件夾 瀏覽:6
耳朵清潔解壓聲控99的人都睡得著 瀏覽:205
叉車出租網站源碼 瀏覽:874
共享單車的app是什麼 瀏覽:408
不帶gui的伺服器什麼意思 瀏覽:373
金剛經及PDF 瀏覽:102
php中冒號 瀏覽:358
php5432 瀏覽:352
命令在哪使用 瀏覽:172
php獲取網頁元素 瀏覽:708
為什麼需要硬體驅動編譯 瀏覽:885
pm編程怎樣看導柱孔對不對稱 瀏覽:138
農業大學選課找不到伺服器怎麼辦 瀏覽:659
路由配置網關命令 瀏覽:935