隨機森林是基於分類樹的演算法嗎_隨機森林演算法是什麼

㈠什麼是隨機森林

隨機森林指的是利用多棵樹對樣本進行訓練並預測的一種分類器。該分類器最早由Leo Breiman和Adele Cutler提出，並被注冊成了商標。

㈡隨機森林可以檢驗變數間的關系嗎

隨機森林市可以檢驗變數間的關系
隨機森林是一種基於決策樹的機器學習演算法，可以用於樣本分類或回歸任務，屬於非線性分類器。
因此它可以挖掘變數之間復雜的非線性的相互依賴關系。通過隨機森林分析，可以找出區分兩組樣本間差異的關鍵成分。

㈢隨機森林的釋義

在機器學習中，隨機森林是一個包含多個決策樹的分類器，並且其輸出的類別是由個別樹輸出的類別的眾數而定。 Leo Breiman和Adele Cutler發展出推論出隨機森林的演算法。而 Random Forests 是他們的商標。這個術語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機決策森林（random decision forests）而來的。這個方法則是結合 Breimans 的 Bootstrap aggregating 想法和 Ho 的random subspace method以建造決策樹的集合.

㈣我想知道隨機聚類森林演算法和隨機森林演算法有什麼不同，希望大家可以幫助我，謝謝。

通常隨機森林聚類演算法指代的是語義紋元森林，而隨機森林演算法是通常理解的基於決策樹的組合分類器演算法

㈤隨機森林演算法是什麼

隨機森林演算法是以決策樹為基學習器構建bagging的基礎上，進一步在決策樹的訓練過程中引入隨機屬性的演算法。

在機器學習中，隨機森林是一個包含多個決策樹的分類器，並且其輸出的類別是由個別樹輸出的類別的眾數而定。 Leo Breiman和Adele Cutler發展出推論出隨機森林的演算法。

而 "Random Forests" 是他們的商標。這個術語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機決策森林（random decision forests）而來的。這個方法則是結合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造決策樹的集合。

隨機森林演算法之根據下列演算法而建造每棵樹：

用N來表示訓練用例（樣本）的個數，M表示特徵數目。

輸入特徵數目m，用於確定決策樹上一個節點的決策結果；其中m應遠小於M。

從N個訓練用例（樣本）中以有放回抽樣的方式，取樣N次，形成一個訓練集（即bootstrap取樣），並用未抽到的用例（樣本）作預測，評估其誤差。

對於每一個節點，隨機選擇m個特徵，決策樹上每個節點的決定都是基於這些特徵確定的。根據這m個特徵，計算其最佳的分裂方式。

每棵樹都會完整成長而不會剪枝，這有可能在建完一棵正常樹狀分類器後會被採用）。

㈥隨機森林的介紹

隨機森林指的是利用多棵樹對樣本進行訓練並預測的一種分類器。該分類器最早由Leo Breiman和Adele Cutler提出,並被注冊成了商標。

㈦求問隨機森林演算法的簡單實現過程

隨機森林（Random forest）指的是利用多棵樹對樣本進行訓練並預測的一種分類器。並且其輸出的類別是由個別樹輸出的類別的眾數而定。在機器學習中有一個地位很重要的包scikit-learn可實現隨機森林演算法。

原理：（隨機森林的分類預測和回歸預測sklearn.ensemble.RandomForestRegressor方法）
(1)給定訓練集S，測試集T，特徵維數F。確定參數：使用到的CART的數量t，每棵樹的深度d，每個節點使用到的特徵數量f，終止條件：節點上最少樣本數s，節點上最少的信息增益m，對於第1-t棵樹，i=1-t：
(2)從S中有放回的抽取大小和S一樣的訓練集S(i)，作為根節點的樣本，從根節點開始訓練
(3)如果當前節點上達到終止條件，則設置當前節點為葉子節點，如果是分類問題，該葉子節點的預測輸出為當前節點樣本集合中數量最多的那一類c(j)，概率p為c(j)占當前樣本集的比例；如果是回歸問題，預測輸出為當前節點樣本集各個樣本值的平均值。然後繼續訓練其他節點。如果當前節點沒有達到終止條件，則從F維特徵中無放回的隨機選取f維特徵。利用這f維特徵，尋找分類效果最好的一維特徵k及其閾值th，當前節點上樣本第k維特徵小於th的樣本被劃分到左節點，其餘的被劃分到右節點。繼續訓練其他節點。
(4)重復(2)(3)直到所有節點都訓練過了或者被標記為葉子節點。
(5)重復(2),(3),(4)直到所有CART都被訓練過。
隨機森林的簡單實現過程如下：
一、開發環境、編譯環境：
PyCharm Community Edition 2016.2.3
python2.7.10
二、所用庫及安裝方法：
pandas[python自帶]
sklearn：命令行pip install sklearn;如果沒有安裝pip,先使用easy_install pip安裝pip；如果在MAC上沒有許可權，使用sudo pip install sklearn;
三、代碼介紹
1. 使用pandas讀取本地excel的訓練集和測試集，將屬性集賦給X_train和Y_train;將要預測的集合賦給X_test和Y_test;
2. 使用DictVectorizer對數據進行規范化、標准化
3. 生成RandomForestRegressor對象，並將訓練集傳入fit方法中進行訓練
4. 調用predict函數進行預測，並將結果存入y_predict變數中；
5. 使用mean_squared_error、score方法輸出MSE、NMSE值對擬合度、穩定度進行分析；輸出feature_importance，對影響最終結果的屬性進行分析；
6. 詳細代碼見附錄
四、附錄
# coding:utf-8
import pandas as pd
data_train = pd.read_excel('/Users/xiaoliu/Desktop/data_train.xlsx')
X_train = data_train[['CPI', 'GDP', 'PPI', 'AJR', 'BJFJ', 'FBDR', 'PCFD', 'PCFDED', 'BDR']]
y_train = data_train['FJ']

data_test = pd.read_excel('/Users/xiaoliu/Desktop/data_test.xlsx')
X_test = data_test[['CPI', 'GDP', 'PPI', 'AJR', 'BJFJ', 'FBDR', 'PCFD', 'PCFDED', 'BDR']]
y_test = data_test['FJ']

from sklearn.feature_extraction import DictVectorizer

vec = DictVectorizer(sparse=False)
X_train = vec.fit_transform(X_train.to_dict(orient='records'))
X_test = vec.transform(X_test.to_dict(orient='records'))

from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor()
rf.fit(X_train,y_train)
y_predict = rf.predict(X_test)
print 'predict value:',y_predict

from sklearn.metrics import mean_squared_error
print 'MSE:', mean_squared_error(y_test, y_predict)
print 'NMES:',rf.score(X_test, y_test)
print rf.feature_importances_

㈧隨機森林演算法是什麼

隨機森林是一種比較新的機器學習模型。

經典的機器學習模型是神經網路，有半個多世紀的歷史了。神經網路預測精確，但是計算量很大。上世紀八十年代Breiman等人發明分類樹的演算法（Breiman et al. 1984），通過反復二分數據進行分類或回歸，計算量大大降低。

2001年Breiman把分類樹組合成隨機森林（Breiman 2001a），即在變數（列）的使用和數據（行）的使用上進行隨機化，生成很多分類樹，再匯總分類樹的結果。隨機森林在運算量沒有顯著提高的前提下提高了預測精度。

隨機森林對多元共線性不敏感，結果對缺失數據和非平衡的數據比較穩健，可以很好地預測多達幾千個解釋變數的作用（Breiman 2001b），被譽為當前最好的演算法之一（Iverson et al. 2008）。

隨機森林優點：

隨機森林是一個最近比較火的演算法，它有很多的優點：

a、在數據集上表現良好，兩個隨機性的引入，使得隨機森林不容易陷入過擬合。

b、在當前的很多數據集上，相對其他演算法有著很大的優勢，兩個隨機性的引入，使得隨機森林具有很好的抗雜訊能力。

c、它能夠處理很高維度（feature很多）的數據，並且不用做特徵選擇，對數據集的適應能力強：既能處理離散型數據，也能處理連續型數據，數據集無需規范化。

㈨隨機森林只能做二分類嗎

隨機森林當然不是只能做二分類了，還支持多分類以及回歸。隨機森林是以決策樹作為基礎模型的集成演算法。隨機森林是機器學習模型中用於分類和回歸的最成功的模型之一。通過組合大量的決策樹來降低過擬合的風險。與決策樹一樣，隨機森林處理分類特徵，擴展到多類分類設置，不需要特徵縮放，並且能夠捕獲非線性和特徵交互。隨機森林分別訓練一系列的決策樹，所以訓練過程是並行的。因演算法中加入隨機過程，所以每個決策樹又有少量區別。通過合並每個樹的預測結果來減少預測的方差，提高在測試集上的性能表現。

㈩隨機森林分類適用於何種數據

適用於大規模的數據上。
隨機森林是一種集成演算法（Ensemble Learning），它屬於Bagging類型，通過組合多個弱分類器，最終結果通過投票或取均值，使得整體模型的結果具有較高的精確度和泛化性能。其可以取得不錯成績，主要歸功於「隨機」和「森林」，一個使它具有抗過擬合能力，一個使它更加精準。

導航:首頁 > 源碼編譯 > 隨機森林是基於分類樹的演算法嗎

隨機森林是基於分類樹的演算法嗎

與隨機森林是基於分類樹的演算法嗎相關的資料