分布式機器學習演算法_機器學習演算法中GBDT和XGBOOST的區別有哪些

『壹』常用機器學習方法有哪些

機器學習中常用的方法有：

(1) 歸納學習

符號歸納學習：典型的符號歸納學習有示例學習、決策樹學習。

函數歸納學習(發現學習)：典型的函數歸納學習有神經網路學習、示例學習、發現學習、統計學習。

(2) 演繹學習

(3) 類比學習：典型的類比學習有案例(範例)學習。

(4) 分析學習：典型的分析學習有解釋學習、宏操作學習。

(1)分布式機器學習演算法擴展閱讀：

機器學習常見演算法：

1、決策樹演算法

決策樹及其變種是一類將輸入空間分成不同的區域，每個區域有獨立參數的演算法。決策樹演算法充分利用了樹形模型，根節點到一個葉子節點是一條分類的路徑規則，每個葉子節點象徵一個判斷類別。先將樣本分成不同的子集，再進行分割遞推，直至每個子集得到同類型的樣本，從根節點開始測試，到子樹再到葉子節點，即可得出預測類別。此方法的特點是結構簡單、處理數據效率較高。

2、樸素貝葉斯演算法

樸素貝葉斯演算法是一種分類演算法。它不是單一演算法，而是一系列演算法，它們都有一個共同的原則，即被分類的每個特徵都與任何其他特徵的值無關。樸素貝葉斯分類器認為這些「特徵」中的每一個都獨立地貢獻概率，而不管特徵之間的任何相關性。然而，特徵並不總是獨立的，這通常被視為樸素貝葉斯演算法的缺點。簡而言之，樸素貝葉斯演算法允許我們使用概率給出一組特徵來預測一個類。與其他常見的分類方法相比，樸素貝葉斯演算法需要的訓練很少。在進行預測之前必須完成的唯一工作是找到特徵的個體概率分布的參數，這通常可以快速且確定地完成。這意味著即使對於高維數據點或大量數據點，樸素貝葉斯分類器也可以表現良好。

3、支持向量機演算法

基本思想可概括如下：首先，要利用一種變換將空間高維化，當然這種變換是非線性的，然後，在新的復雜空間取最優線性分類表面。由此種方式獲得的分類函數在形式上類似於神經網路演算法。支持向量機是統計學習領域中一個代表性演算法，但它與傳統方式的思維方法很不同，輸入空間、提高維度從而將問題簡短化，使問題歸結為線性可分的經典解問題。支持向量機應用於垃圾郵件識別，人臉識別等多種分類問題。

『貳』機器學習演算法中GBDT和XGBOOST的區別有哪些

機器學習演算法中GBDT和XGBOOST的區別有哪些？

在昨天阿里的面試中被問到了，我只簡單的說了下xgboost能自動利用cpu的多線程，而且適當改進了gradient boosting，加了剪枝，控制了模型的復雜程度

添加評論

默認排序按時間排序

9 個回答

weponML/DM,https://github.com/wepe

252人贊同

xgboost相比傳統gbdt有何不同？xgboost為什麼快？xgboost如何支持並行？

看了陳天奇大神的文章和slides，略抒己見，沒有面面俱到，不恰當的地方歡迎討論：

傳統GBDT以CART作為基分類器，xgboost還支持線性分類器，這個時候xgboost相當於帶L1和L2正則化項的邏輯斯蒂回歸（分類問題）或者線性回歸（回歸問題）。

傳統GBDT在優化時只用到一階導數信息，xgboost則對代價函數進行了二階泰勒展開，同時用到了一階和二階導數。順便提一下，xgboost工具支持自定義代價函數，只要函數可一階和二階求導。

xgboost在代價函數里加入了正則項，用於控制模型的復雜度。正則項里包含了樹的葉子節點個數、每個葉子節點上輸出的score的L2模的平方和。從Bias-variance tradeoff角度來講，正則項降低了模型的variance，使學習出來的模型更加簡單，防止過擬合，這也是xgboost優於傳統GBDT的一個特性。

Shrinkage（縮減），相當於學習速率（xgboost中的eta）。xgboost在進行完一次迭代後，會將葉子節點的權重乘上該系數，主要是為了削弱每棵樹的影響，讓後面有更大的學習空間。實際應用中，一般把eta設置得小一點，然後迭代次數設置得大一點。（補充：傳統GBDT的實現也有學習速率）

列抽樣（column subsampling）。xgboost借鑒了隨機森林的做法，支持列抽樣，不僅能降低過擬合，還能減少計算，這也是xgboost異於傳統gbdt的一個特性。

對缺失值的處理。對於特徵的值有缺失的樣本，xgboost可以自動學習出它的分裂方向。

xgboost工具支持並行。boosting不是一種串列的結構嗎?怎麼並行的？注意xgboost的並行不是tree粒度的並行，xgboost也是一次迭代完才能進行下一次迭代的（第t次迭代的代價函數里包含了前面t-1次迭代的預測值）。xgboost的並行是在特徵粒度上的。我們知道，決策樹的學習最耗時的一個步驟就是對特徵的值進行排序（因為要確定最佳分割點），xgboost在訓練之前，預先對數據進行了排序，然後保存為block結構，後面的迭代中重復地使用這個結構，大大減小計算量。這個block結構也使得並行成為了可能，在進行節點的分裂時，需要計算每個特徵的增益，最終選增益最大的那個特徵去做分裂，那麼各個特徵的增益計算就可以開多線程進行。

可並行的近似直方圖演算法。樹節點在進行分裂時，我們需要計算每個特徵的每個分割點對應的增益，即用貪心法枚舉所有可能的分割點。當數據無法一次載入內存或者在分布式情況下，貪心演算法效率就會變得很低，所以xgboost還提出了一種可並行的近似直方圖演算法，用於高效地生成候選的分割點。

=============

回復@肖岩在評論里的問題，因為有些公式放正文比較好。評論里討論的問題的大意是「xgboost代價函數里加入正則項，是否優於cart的剪枝」。其實陳天奇大神的slides裡面也是有提到的，我當一下搬運工。
決策樹的學習過程就是為了找出最優的決策樹，然而從函數空間里所有的決策樹中找出最優的決策樹是NP-C問題，所以常採用啟發式（Heuristic）的方法，如CART裡面的優化GINI指數、剪枝、控制樹的深度。這些啟發式方法的背後往往隱含了一個目標函數，這也是大部分人經常忽視掉的。xgboost的目標函數如下：

這個公式形式上跟ID3演算法（採用entropy計算增益）、CART演算法（採用gini指數計算增益）是一致的，都是用分裂後的某種值減去分裂前的某種值，從而得到增益。為了限制樹的生長，我們可以加入閾值，當增益大於閾值時才讓節點分裂，上式中的gamma即閾值，它是正則項里葉子節點數T的系數，所以xgboost在優化目標函數的同時相當於做了預剪枝。另外，上式中還有一個系數lambda，是正則項里leaf score的L2模平方的系數，對leaf score做了平滑，也起到了防止過擬合的作用，這個是傳統GBDT里不具備的特性。

『叄』如何選擇合適的分布式機器學習平台

如何為分類問題選擇合適的機器學習演算法若要達到一定的准確率，需要嘗試各種各樣的分類器，並通過交叉驗證選擇最好的一個。但是，如果你只是為你的問題尋找一個「足夠好」的演算法或者一個起點，以下准則有利於選擇合適的分類器

『肆』如何評價Petuum分布式機器學習系統

機器學習演算法和計算機領域的其他演算法相比，有自己的一些獨特特點，
（1）迭代性：模型的更新並非一次完成，需要循環迭代多次；
（2）容錯性：即使在每個循環中產生一些錯誤，模型最終的收斂不受影響；
（3）參數收斂的非均勻性：模型中有些參數經過幾個循環便不再改變，其他參數需要很長時間收斂。
這些特點決定了分布式機器學習系統的設計和其他分布式計算系統（例如Spark）的設計有很大不同。
Petuum是一個專門針對機器學習演算法特點的分布式平台，而通用的分布式計算系統Spark以數據流應用為主，所以二者的應用對象不同。Spark有一個機器學習庫MLLib, 但構建於數據流操作之上，並非針對機器學習演算法的特點而設計。
Petuum的系統設計建立於機器學習的特徵之上，目前包含兩個主要模塊：key-value store和scheler，主要處理兩類並行化方法：（1）數據並行；（2）模型並行。
數據並行，簡單而言，就是把數據分布到不同機器上，每台機器計算一個模型的更新（update)，然後對這些update進行匯總並用之更新模型。
模型並行，把模型參數進行切分並放置到不同機器上，每台機器對自己那部分進行更新。
Key-value store模塊負責數據並行，採用的架構是parameter server，一致性協議是Staleness Synchronous Parallel (SSP)。SSP的基本思想是允許各機器以不同步調對模型進行更新，但是加一個限制，使得最快的機器的進度和最慢機器的進度之差不要太大。這樣做的好處是：既減輕慢的機器拖整個系統的後腿，又能保證模型的最終收斂。通過調節SSP的staleness參數，SSP可以轉化成數據流系統常用的BSP（Bulk Synchronous Parallel) 協議或者早期機器學習系統（如Yahoo LDA）使用的ASP(Asynchronous Parallel)。
另外一個模塊scheler用於模型並行。scheler提供的編程介面主要包含三個操作：（1）schele: 調度節點根據模型參數的相互依賴性和收斂的不均勻性，自動選擇一個待更新的參數子集；（2）push: 調度節點令計算節點並行地為選好的參數計算update；（3）pull：調度節點從計算節點收集update，並更新參數。
Petuum的主要特性包括：（1）高性能；（2）可編程性；提供了簡單易用的編程介面，用戶可在Petuum上實現自己的機器學習演算法。（3）豐富的機器學習庫。我們用Petuum的統一編程介面實現了14個重要的機器學習演算法。
相比於李沐的parameter server系統，Petuum作為一個機器學習框架，共享參數模型採用哈希表存儲，更新時採用延遲一致性協議，這種模型決定了Petuum在集群規模和可支持的參數數量上都要比Parameter Server少1到2個數量級，當然對比Spark MLLib列表數據存儲和BSP同步模式，在相同集群規模下是可以多訓練2到3個數量級的參數的。另外，Spark數據處理部分和Petuum其實沒什麼太大聯系，前景的話，如果處理數據就直接spark吧，機器學習就直接Parameter Server好了。

『伍』機器學習處理問題如何選擇一個合適的演算法

我們在進行數據分析或者數據挖掘工作的時候，總會遇到很多的問題，而解決這些問題的方式有很多。如果需要我們用機器學習來處理，那麼就需要我們根據演算法去選擇一個合適的演算法。但問題是，用機器學習處理問題，該如何選擇一個合適的演算法呢？下面我們就給大家介紹一下選擇演算法的流程，希望這篇文章能夠更好地幫助大家理解機器學習。
選擇演算法是一個比較麻煩的事情，但是並不是不能選擇，選擇就需要我們十分細心，這樣我們才能夠選擇出一個合適的演算法，以便於我們更好的處理問題。選擇演算法首先需要分析業務需求或者場景，這一步完成以後，就需要我們初探數據，看看自己是否需要預測目標值，如果需要的話，那麼就使用監督學習，當然，使用監督學習的時候，如果發現了目標變數，如果是離散型，那麼就使用分類演算法，如果是連續型，那麼就使用回歸演算法。當然，如果我們發現不需要預測目標值，那麼就使用無監督學習，具體使用的演算法就是K-均值演算法、分層聚類演算法等其他演算法。
當我們充分了解數據及其特性，有助於我們更有效地選擇機器學習演算法。採用以上步驟在一定程度上可以縮小演算法的選擇范圍，使我們少走些彎路，但在具體選擇哪種演算法方面，一般並不存在最好的演算法或者可以給出最好結果的演算法，在實際做項目的過程中，這個過程往往需要多次嘗試，有時還要嘗試不同演算法。但是對於初學者，還是根據上面選擇演算法的方式選擇演算法為好。
說完了選擇演算法的步驟，下面我們就說一下spark在機器學習方面的優勢，在大數據上進行機器學習，需要處理全量數據並進行大量的迭代計算，這要求機器學習平台具備強大的處理能力。Spark與Hadoop兼容，它立足於內存計算，天然的適應於迭代式計算，Spark是一個大數據計算平台，在這個平台上，有我SQL式操作組件Spark SQL;功能強大、性能優良的機器學習庫Spark MLlib；還有圖像處理的Spark Graphx及用於流式處理的Spark Streaming等，其優勢十分明顯。
優勢一：在完整的大數據生態系統中，有我們熟悉的SQL式操作組件Spark SQL，還有功能強大、性能優良的機器學習庫、圖像計算及用於流式處理等演算法。
優勢二：在高性能的大數據計算平台中，由於數據被載入到集群主機的分布式內存中。數據可以被快速的轉換迭代，並緩存後續的頻繁訪問需求。基於內存運算，Spark可以比Hadoop快100倍，在磁碟中運算也比hadoop快10倍左右。
優勢三：這個演算法能夠與Hadoop、Hive、HBase等無縫連接：Spark可以直接訪問Hadoop、Hive、Hbase等的數據，同時也可使用Hadoop的資源管理器。
在這篇文章中我們給大家介紹了機器學習處理問題如何選擇一個合適的演算法以及spark演算法的優勢的內容，通過這篇文章相信大家已經找到了使用機器學習解決數據分析以及數據挖掘問題的方法了吧？希望這篇文章能夠幫助到大家。

『陸』寫分布式機器學習演算法，哪種編程介面比較好

SVM方面，首選的肯定是LIBSVM這個庫，應該是應用最廣的機器學習庫了。下面主要推薦一些DeepLearning的GitHub項目吧！ 1. convnetjs - Star:2200+ 實現了卷積神經網路，可以用來做分類，回歸，強化學習等。 2. DeepLearn Toolbox - Star:1000+ Matlab實現中最熱的庫存，包括了CNN,DBN,SAE,CAE等主流模型。 3. Deep Learning(yusugomo) - Star:800+ 實現了深度學習網路，從演算法與實現上都比較全，提供了5種語言的實現：Python,C/C++,Java,Scala，實現的模型有DBN/CDBN/RBM/CRBM/dA/SdA/LR等。 4. Neural-Networks-And-Deep-Learning - Star:500+ 這是同名書的配套代碼，語言是Python。 5. rbm-mnist - Star:200+ 這個是hinton matlab代碼的C++改寫版，還實現了Rasmussen的共軛梯度Conjugate Gradient演算法。

『柒』新興機器學習之社會機器學習

機器學習發展到現在，已經衍生了很多新型的機器學習方法，比如說深度學習、強化學習等等，而這些方法都能夠幫助大家更好的去理解機器學習。在這篇文章中我們給大家介紹一下一種新型的機器學習，那就是社會機器學習，聽到這名字相信大家已經有所疑惑，什麼是社會機器學習呢？下面我們就給大家介紹一下這個社會機器學習。
首先需要我們知道的是，機器學習的目的是模擬人類的學習過程。機器學習雖然取得很大的成功，但是到目前為止，它忽視了一個重要的因素，也就是人的社會屬性。我們每個人都是社會的一個個體，不管怎麼說，我們很難從出生就脫離社會獨自生存、學習並不斷進步。所以說我們是離不開社會的，當然，我們的機器學習也是不能離開社會的。既然人類的智能離不開社會，那麼我們能否讓機器們也具有某種意義的社會屬性，模擬人類社會中的關鍵元素進行演化，從而實現比現在的機器學習方法更為有效、智能、可解釋的社會機器學習？這個問題是一個十分新鮮的問題，引起了廣大科學家的思考。
其實我們的社會中有很多人類個體組成的，要想發展機器學習，我們的社會機器學習也應該是有機器學習智能體構成的體系。而每一個機器學習演算法除了按照現在的機器學習方法獲取數據的規律，還參與社會活動。它們會聯合其他的機器學習智能體按照社會機制積極獲取信息、分工、合作、獲得獎勵。當然，我們還希望社會機器學習能夠自主總結經驗、學習知識、相互學習來調整行為。不過，令人滿意的是，現如今的機器學習方法中已經開始出現有了社會的味道了。機器學習智能體之間最簡單的行為影響也開始產生，其實這也可能是初步獲取知識的方式。分布式機器學習演算法中模型平均、模型集成、投票等方法是最簡單的社會決策機制。強化學習提供了智能體基於酬勞反饋調整行為的框架。所以說由於社會屬性是人類的本質屬性，社會機器學習也將會是我們利用機器學習從獲取人工智慧到獲取社會智能的重要方向。因此我們可以照著這個方向繼續前進。
在這篇文章中我們給大家介紹了很多關於機器學習的相關知識，從中我們可以看出社會機器學習是一個十分新鮮的想法，相信在未來機器學習能夠為我們解決更多的問題。

『捌』如何利用機器學習和分布式計算對用戶事件

給你解釋一下這些術語：雲計算：就是個炒得很熱的商業概念，其實說白了就是將計算任務轉移到伺服器端，用戶只需要個顯示器就行了，不過伺服器的計算資源可以轉包。當然，要想大規模商業化，這里還有些問題，特別是隱私保護問題。大數據：說白了就是數據太多了。如今幾兆的數據在20年前也是大數據。但如今所說的大數據特殊在哪呢？如今的問題是數據實在是太多了，這已經超過了傳統計算機的處理能力（區別與量子計算機），所以對於大數據我們不得不用一些折衷的法（比如數據挖掘），就是說沒必要所有數據都需要精確管理，實際上有效數據很有限，用數據挖掘的方法把這些有限的知識提取出來就行了。·此外，數據抽樣，數據壓縮也是解決大數據問題的一些策略。數據挖掘：從數據中提取潛在知識，這些知識可以描述或者預測數據的特性。有代表性的數據挖掘任務包括關聯規則分析、數據分類、數據聚類等，這些你在任一本數據挖掘教材都可以了解。下面我說說和大數據的區別：數據挖掘只是大數據處理的一個方法。馬雲所說的大數據，或者如今商業領域所說的大數據，實際上指的就是數據挖掘，其實真正所謂大數據，或者Science雜志中提到的大數據，或者奧巴馬提出的大數據發展戰略，我的理解是，這些都遠遠大於數據挖掘的范疇，當然數據挖掘是其中很重要的一個方法。真正目的是如何將大數據進行有效管理。機器學習：這個詞很虛，泛指了一大類計算機演算法。重點是學習這個詞，如果想讓計算機有效學習，目前絕大多數方法都採用了迭代的方法。所以在科研界，只要是採用了這種迭代並不斷逼近的策略，一般都可以歸到機器學習的范疇。此外，所謂學習，肯定要知道學什麼，這就是所謂訓練集，從訓練集數據中計算機要學到其中的某個一般規律，然後用一些別的數據（即測試集）來看看學得好不好，之後才能用於實際應用。所以，選取合適的訓練集也是個學問。模式識別：意思就是模式的識別。模式多種多樣，可以是語言，可以是圖像，可以是事物一些有意義的模塊，這些都算。所以總體來說，模式識別這個詞我是覺得有點虛，倒是具體的人臉圖像識別、聲音識別等，這些倒是挺實在的。也許是我不太了解吧。另外說說你的其他問題。傳統分析方法不包括數據挖掘。對於數據分析這塊我不是很了解，不過可以肯定的是，傳統分析都有一定的分析方向，比如我就想知道這兩個商品的關聯情況，那我查查資料庫就行了。數據挖掘雖說有些歷史，不過也挺時髦的，它是自動將那些關聯程度大的商品告訴你，這期間不需要用戶指定數據分析的具體對象。如果想應對大數據時代，數據挖掘這門課是少不了的。此外對資料庫，特別是並行資料庫、分布式資料庫，最好了解點。至於機器學習和模式識別，這些總的來說和數據挖掘關系不太大，除了一些特殊的領域外。總之，概念挺熱，但大數據還很不成熟，無論從研究上還是商業化上。我目前在作大數據背景下的演算法研究，說實話，目前基本沒有拓展性非常強的演算法，所以未來大數據的發展方向，我也挺迷茫。PS：將數據挖掘應用於商業，最最重要的就是如何確定挖掘角度，這需要你對具體應用的領域知識非常了解，需要你有非常敏銳的眼光。至於數據挖掘的具體演算法，這些就交給我們專門搞研究的吧！（對演算法的理解也很重要，這可以把演算法拓展到你的應用領域）

『玖』構建機器學習系統的20個經驗教訓

構建機器學習系統的20個經驗教訓

數據科學家對優化演算法和模型以進一步發掘數據價值的追求永無止境。在這個過程中他們不僅需要總結前人的經驗教訓，還需要有自己的理解與見地，雖然後者取決於人的靈動性，但是前者卻是可以用語言來傳授的。最近Devendra Desale就在KDnuggets上發表了一篇文章，總結了Quora的工程副總裁Xavier Amatriain在Netflix和Quora從事推薦系統和機器學習工作時所總結的20條經驗教訓。
更多的數據 & 更好的模型
並不是數據越多結果就越好，高質量的數據才能產生高質量的結果。多並不意味著好，事實上，有些情況下較少的數據反而效果更好，因此數據要適量，質量要高。

可能並不需要所有的大數據
組織可能積累了不同種類的大數據，但是並不是每一個場景都會用到所有的數據。大部分情況下，通過一些樣本數據就能獲得比較好甚至是比使用全量數據更好的效果。

有時候更復雜的模型並沒有帶來任何提升，但這並不意味著就不需要它了
如果將一個線性模型的特徵數據作為另一個更復雜模型（例如非線性模型）的輸入，而復雜模型產生的結果並沒有任何提升，那並不意味著這個復雜模型就毫無意義。因為通常情況下只有更復雜的特徵數據才需要更復雜的模型，對於簡單的特徵數據復雜模型往往難以發揮出自身優勢。

學會處理展現偏見
系統通常會將那些預測的比較正確的結果展示給用戶，用戶會選擇性的查看，但是用戶不看的那部分並不一定就毫無吸引力。更好的選擇是通過關注模型或者MAB分析用戶的點擊概率，合理地呈現內容。

認真思考訓練數據
構建訓練和測試數據的時候需要充分考慮結果和各種不同的場景。例如，如果要訓練一個預測用戶是否喜歡某部電影的分類器，那麼產生數據的可能場景包括：用戶看完電影並給出了一星的評價，用戶看了5分鍾、15分鍾或者一小時之後離開，用戶再次查看電影等，如何選擇這些數據是需要經過深思熟慮的。

UI是用戶與演算法通信的唯一方式
系統通過UI展現演算法結果，用戶通過UI提供演算法反饋，它們應該是相互對應的關系，任何一個發生變化另一個也需要進行改變。數據和模型是否已經足夠好了？

要有正確的評估方法
產品決策始終應該是數據驅動的。對於不同的問題，要選擇正確的評估方法，例如，通過A/B測試來衡量不同特徵數據，不同演算法的優劣；通過離線測試使用 (IR) 度量測試模型的性能。

分布式演算法重要，但是理解它的分布式程度更重要
分布式/並行演算法分三級：第一級針對總體的每一個子集，第二級針對超參數的每一種組合，第三級針對訓練數據的每一個子集，每一級都有不同的要求。

慎重地選擇超參數
要選擇正確的度量標准自動化超參數的優化。有些事情能線下做，有些不能，有些介於兩者之間，為此需要支持多層次的機器學習。
隱式信號幾乎總是打敗顯式信號
許多數據科學家認為隱式反饋更有用。但真的是這樣么？實際上有些情況下結合不同形式的隱式和顯式信號能更好地表示長期目標。

模型會學習你教給他的內容
機器學習演算法並不是一個隨意的過程，它的每一步都涉及到科學方法。模型要從訓練數據、目標函數和度量中學習。

有監督的 + 無監督的學習
開發模型的時候不能簡單地選擇有監督的或者無監督的學習，它們各有長處，適用場景不同，用戶需要根據具體情況同時迭代地使用它們，通過兩種方法的融合獲得更好的效果。
所有的事情都是一種集成（Ensemble）
使用機器學習的大部分應用程序都是一個集合體。你可以添加完全不同的方法（例如CF和基於內容的方式）,你也可以在集成層使用許多不同的模型（例如LR、GDBT、RF和ANN）。
一個模型的輸出可能是另一個模型的輸入
確保模型的輸出具有良好的數據依賴關系，例如可以容易地改變值的分布而不影響依賴它的其他模型。要盡量避免反饋循環，因為這樣會在管道中造成依賴和瓶頸。另外，機器學習的模式設計也需要遵循最佳的軟體工程實踐，例如封裝、抽象、高內聚和松耦合。

特徵工程的失與得
良好的機器學習特徵可重用、可轉換、可解釋並且可靠。捕獲的特徵越好，結果越精確。為了量化數據的屬性必須將維度翻譯成特徵。

機器學習基礎設施的兩面性
任何機器學習基礎設施都需要考慮兩種不同的模式。模式1：機器學習實驗需要擴展性、易用性和可重用性。模式2：機器學習產品不僅需要模式1的特性，還需要性能和可伸縮性。理想情況下，應該保持這兩種模式盡可能地相近。

要能回答有關於模型的問題
必須能夠向產品所有者解釋模型的行為，知道如何使用模型，它需要哪些特徵，導致失敗的原因是什麼；同時還需要知道產品所有者或投資者的期望，能夠向他們介紹模型為產品帶來了什麼價值。

不需要分發機器學習演算法
Hadoop/Spark這些「容易的」分布式計算平台也有一些陷阱，例如成本和網路延遲，實際上有些情況不使用它們也能很好的完成工作，通過智能數據樣本、離線模式以及高效的並行代碼等方法訓練模型所花費的時間甚至比這些分布式平台要少的多。

數據科學 vs. 機器學習工程不為人知的故事
擁有強大的能夠挖掘數據價值的數據科學家是非常值得的。但是既懂數據又有扎實工程技能的數據科學家非常稀少，通常情況下，構建數據科學家團隊和機器學習工程團隊並讓他們通力配合才是比較好的方案。

『拾』機器學習的研究方向有哪些，剛上研一，大方向是機器學習，有懂的人可以推薦介紹一個具體的研究方向，參考

近年來，有很多新型的機器學習技術受到人們的廣泛關注，也在解決實際問題中，提供了有效的方案。這里，我們簡單介紹一下深度學習、強化學習、對抗學習、對偶學習、遷移學習、分布式學習、以及元學習，讓大家可以明確機器學習的方向都有哪些，這樣再選擇自己感興趣或擅長的研究方向，我覺得這是非常理智的做法。
▌深度學習
不同於傳統的機器學習方法，深度學習是一類端到端的學習方法。基於多層的非線性神經網路，深度學習可以從原始數據直接學習，自動抽取特徵並逐層抽象，最終實現回歸、分類或排序等目的。在深度學習的驅動下，人們在計算機視覺、語音處理、自然語言方面相繼取得了突破，達到或甚至超過了人類水平。深度學習的成功主要歸功於三大因素——大數據、大模型、大計算，因此這三個方向都是當前研究的熱點。
在過去的幾十年中，很多不同的深度神經網路結構被提出，比如，卷積神經網路，被廣泛應用於計算機視覺，如圖像分類、物體識別、圖像分割、視頻分析等等；循環神經網路，能夠對變長的序列數據進行處理，被廣泛應用於自然語言理解、語音處理等；編解碼模型（Encoder-Decoder）是深度學習中常見的一個框架，多用於圖像或序列生成，例如比較熱的機器翻譯、文本摘要、圖像描述（image captioning）問題。
▌強化學習
2016 年 3 月，DeepMInd 設計的基於深度卷積神經網路和強化學習的 AlphaGo 以 4:1 擊敗頂尖職業棋手李世乭，成為第一個不藉助讓子而擊敗圍棋職業九段棋手的電腦程序。此次比賽成為AI歷史上里程碑式的事件，也讓強化學習成為機器學習領域的一個熱點研究方向。
強化學習是機器學習的一個子領域，研究智能體如何在動態系統或者環境中以「試錯」的方式進行學習，通過與系統或環境進行交互獲得的獎賞指導行為，從而最大化累積獎賞或長期回報。由於其一般性，該問題在許多其他學科中也進行了研究，例如博弈論、控制理論、運籌學、資訊理論、多智能體系統、群體智能、統計學和遺傳演算法。
▌遷移學習
遷移學習的目的是把為其他任務（稱其為源任務）訓練好的模型遷移到新的學習任務（稱其為目標任務）中，幫助新任務解決訓練樣本不足等技術挑戰。之所以可以這樣做，是因為很多學習任務之間存在相關性（比如都是圖像識別任務），因此從一個任務中總結出來的知識（模型參數）可以對解決另外一個任務有所幫助。遷移學習目前是機器學習的研究熱點之一，還有很大的發展空間。
▌對抗學習
傳統的深度生成模型存在一個潛在問題：由於最大化概率似然，模型更傾向於生成偏極端的數據，影響生成的效果。對抗學習利用對抗性行為（比如產生對抗樣本或者對抗模型）來加強模型的穩定性，提高數據生成的效果。近些年來，利用對抗學習思想進行無監督學習的生成對抗網路（GAN）被成功應用到圖像、語音、文本等領域，成為了無監督學習的重要技術之一。
▌對偶學習
對偶學習是一種新的學習範式，其基本思想是利用機器學習任務之間的對偶屬性獲得更有效的反饋/正則化，引導、加強學習過程，從而降低深度學習對大規模人工標注數據的依賴。對偶學習的思想已經被應用到機器學習很多問題里，包括機器翻譯、圖像風格轉換、問題回答和生成、圖像分類和生成、文本分類和生成、圖像轉文本和文本轉圖像等等。
▌分布式學習
分布式技術是機器學習技術的加速器，能夠顯著提高機器學習的訓練效率、進一步增大其應用范圍。當「分布式」遇到「機器學習」，不應只局限在對串列演算法進行多機並行以及底層實現方面的技術，我們更應該基於對機器學習的完整理解，將分布式和機器學習更加緊密地結合在一起。
▌元學習
元學習（meta learning）是近年來機器學習領域的一個新的研究熱點。字面上來理解，元學習就是學會如何學習，重點是對學習本身的理解和適應，而不僅僅是完成某個特定的學習任務。也就是說，一個元學習器需要能夠評估自己的學習方法，並根據特定的學習任務對自己的學習方法進行調整。

導航:首頁 > 源碼編譯 > 分布式機器學習演算法

分布式機器學習演算法

與分布式機器學習演算法相關的資料