① 隨機森林只能做二分類嗎
隨機森林當然不是只能做二分類了,還支持多分類以及回歸。隨機森林是以決策樹作為基礎模型的集成演算法。隨機森林是機器學習模型中用於分類和回歸的最成功的模型之一。通過組合大量的決策樹來降低過擬合的風險。與決策樹一樣,隨機森林處理分類特徵,擴展到多類分類設置,不需要特徵縮放,並且能夠捕獲非線性和特徵交互。隨機森林分別訓練一系列的決策樹,所以訓練過程是並行的。因演算法中加入隨機過程,所以每個決策樹又有少量區別。通過合並每個樹的預測結果來減少預測的方差,提高在測試集上的性能表現。
② 怎樣用隨機森林演算法實現文本分類
不了解什麼是隨機森林。
感覺應該是一種演算法。
如果做計算機視覺建議你用OpenCV,
R語言主要用在統計分析、機器學習領域。
你找幾篇這方面的文獻看看別人跟你做類似課題時是用C++還是R。
③ 如何根據隨機森林模型做空間分布圖
分類模型——隨機森林
用於數據分析演算法的分類模型有很多種,比如決策樹、人工神經網路、樸素貝葉斯,隨機森林等。本次我們重點介紹「隨機森林」模型如何繪製成圖形。隨機森林(Random Forest)是一種由決策樹構成的集成學習演算法,基本單元是決策樹,通過建立多個決策樹模型的組合來解決預測問題。單個的決策樹模型如下:
第五步:繪制完成後,點擊左上角「文件」選項卡,可以選擇保存、另存為其他格式:網路、圖片、矢量圖、PDF、word、PPT……也可以保存在雲盤(億圖圖示自帶雲盤),也可以選擇「導出(各類格式),或者發送(鏈接到電腦郵件,直接發送)。輸出的選擇很多,具體看自己的需要了。
④ 隨機森林演算法是什麼
隨機森林是一種比較新的機器學習模型。
經典的機器學習模型是神經網路,有半個多世紀的歷史了。神經網路預測精確,但是計算量很大。上世紀八十年代Breiman等人發明分類樹的演算法(Breiman et al. 1984),通過反復二分數據進行分類或回歸,計算量大大降低。
2001年Breiman把分類樹組合成隨機森林(Breiman 2001a),即在變數(列)的使用和數據(行)的使用上進行隨機化,生成很多分類樹,再匯總分類樹的結果。隨機森林在運算量沒有顯著提高的前提下提高了預測精度。
隨機森林對多元共線性不敏感,結果對缺失數據和非平衡的數據比較穩健,可以很好地預測多達幾千個解釋變數的作用(Breiman 2001b),被譽為當前最好的演算法之一(Iverson et al. 2008)。
隨機森林優點:
隨機森林是一個最近比較火的演算法,它有很多的優點:
a、在數據集上表現良好,兩個隨機性的引入,使得隨機森林不容易陷入過擬合。
b、在當前的很多數據集上,相對其他演算法有著很大的優勢,兩個隨機性的引入,使得隨機森林具有很好的抗雜訊能力。
c、它能夠處理很高維度(feature很多)的數據,並且不用做特徵選擇,對數據集的適應能力強:既能處理離散型數據,也能處理連續型數據,數據集無需規范化。
⑤ 如何用python實現隨機森林分類
大家如何使用scikit-learn包中的類方法來進行隨機森林演算法的預測。其中講的比較好的是各個參數的具體用途。
這里我給出我的理解和部分翻譯:
參數說明:
最主要的兩個參數是n_estimators和max_features。
n_estimators:表示森林裡樹的個數。理論上是越大越好。但是伴隨著就是計算時間的增長。但是並不是取得越大就會越好,預測效果最好的將會出現在合理的樹個數。
max_features:隨機選擇特徵集合的子集合,並用來分割節點。子集合的個數越少,方差就會減少的越快,但同時偏差就會增加的越快。根據較好的實踐經驗。如果是回歸問題則:
max_features=n_features,如果是分類問題則max_features=sqrt(n_features)。
如果想獲取較好的結果,必須將max_depth=None,同時min_sample_split=1。
同時還要記得進行cross_validated(交叉驗證),除此之外記得在random forest中,bootstrap=True。但在extra-trees中,bootstrap=False。
這里也給出一篇老外寫的文章:調整你的隨機森林模型參數http://www.analyticsvidhya.com/blog/2015/06/tuning-random-forest-model/
這里我使用了scikit-learn自帶的iris數據來進行隨機森林的預測:
[python]view plain
fromsklearn.
fromsklearn.
importnumpyasnp
fromsklearn.datasetsimportload_iris
iris=load_iris()
#printiris#iris的4個屬性是:萼片寬度萼片長度花瓣寬度花瓣長度標簽是花的種類:setosaversicolourvirginica
printiris['target'].shape
rf=RandomForestRegressor()#這里使用了默認的參數設置
rf.fit(iris.data[:150],iris.target[:150])#進行模型的訓練
#
#隨機挑選兩個預測不相同的樣本
instance=iris.data[[100,109]]
printinstance
print'instance0prediction;',rf.predict(instance[0])
print'instance1prediction;',rf.predict(instance[1])
printiris.target[100],iris.target[109]
[python]view plain
fromsklearn.cross_validationimportcross_val_score,ShuffleSplit
X=iris["data"]
Y=iris["target"]
names=iris["feature_names"]
rf=RandomForestRegressor()
scores=[]
foriinrange(X.shape[1]):
score=cross_val_score(rf,X[:,i:i+1],Y,scoring="r2",
cv=ShuffleSplit(len(X),3,.3))
scores.append((round(np.mean(score),3),names[i]))
printsorted(scores,reverse=True)
⑥ 隨機森林的釋義
在機器學習中,隨機森林是一個包含多個決策樹的分類器, 並且其輸出的類別是由個別樹輸出的類別的眾數而定。 Leo Breiman和Adele Cutler發展出推論出隨機森林的演算法。 而 Random Forests 是他們的商標。 這個術語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機決策森林(random decision forests)而來的。這個方法則是結合 Breimans 的 Bootstrap aggregating 想法和 Ho 的random subspace method以建造決策樹的集合.
⑦ 為什麼隨機森林演算法一定會帶來性能提升
隨機森林是一種集成分類器,對影響隨機森林性能的參數進行了分析,結果表明隨機森林中樹的數量對隨機森林的性能影響至關重要。對樹的數量的確定方法以及隨機森林性能指標的評價方法進行了研究與總結。以分類精度為評價方法,利用UCI數據集對隨機森
⑧ 求助大神 怎樣用envi進行隨機森林演算法分類
隨機森林演算法(Randomforestalgorithm)是對bagging演算法的擴展。除了仍然根據從訓練數據樣本建立復合模型之外,隨機森林對用做構建樹(tree)的數據特徵做了一定限制,使得生成的決策樹之間沒有關聯,從而提升演算法效果。
⑨ 求問隨機森林演算法的簡單實現過程
隨機森林(Random forest)指的是利用多棵樹對樣本進行訓練並預測的一種分類器。 並且其輸出的類別是由個別樹輸出的類別的眾數而定。在機器學習中有一個地位很重要的包scikit-learn可實現隨機森林演算法。
原理:(隨機森林的分類預測和回歸預測sklearn.ensemble.RandomForestRegressor方法)
(1)給定訓練集S,測試集T,特徵維數F。確定參數:使用到的CART的數量t,每棵樹的深度d,每個節點使用到的特徵數量f,終止條件:節點上最少樣本數s,節點上最少的信息增益m,對於第1-t棵樹,i=1-t:
(2)從S中有放回的抽取大小和S一樣的訓練集S(i),作為根節點的樣本,從根節點開始訓練
(3)如果當前節點上達到終止條件,則設置當前節點為葉子節點,如果是分類問題,該葉子節點的預測輸出為當前節點樣本集合中數量最多的那一類c(j),概率p為c(j)占當前樣本集的比例;如果是回歸問題,預測輸出為當前節點樣本集各個樣本值的平均值。然後繼續訓練其他節點。如果當前節點沒有達到終止條件,則從F維特徵中無放回的隨機選取f維特徵。利用這f維特徵,尋找分類效果最好的一維特徵k及其閾值th,當前節點上樣本第k維特徵小於th的樣本被劃分到左節點,其餘的被劃分到右節點。繼續訓練其他節點。
(4)重復(2)(3)直到所有節點都訓練過了或者被標記為葉子節點。
(5)重復(2),(3),(4)直到所有CART都被訓練過。
隨機森林的簡單實現過程如下:
一、 開發環境、編譯環境:
PyCharm Community Edition 2016.2.3
Python2.7.10
二、 所用庫及安裝方法:
pandas[python自帶]
sklearn:命令行pip install sklearn;如果沒有安裝pip,先使用easy_install pip安裝pip;如果在MAC上沒有許可權,使用sudo pip install sklearn;
三、 代碼介紹
1. 使用pandas讀取本地excel的訓練集和測試集,將屬性集賦給X_train和Y_train;將要預測的集合賦給X_test和Y_test;
2. 使用DictVectorizer對數據進行規范化、標准化
3. 生成RandomForestRegressor對象,並將訓練集傳入fit方法中進行訓練
4. 調用predict函數進行預測,並將結果存入y_predict變數中;
5. 使用mean_squared_error、score方法輸出MSE、NMSE值對擬合度、穩定度進行分析;輸出feature_importance,對影響最終結果的屬性進行分析;
6. 詳細代碼見附錄
四、 附錄
# coding:utf-8
import pandas as pd
data_train = pd.read_excel('/Users/xiaoliu/Desktop/data_train.xlsx')
X_train = data_train[['CPI', 'GDP', 'PPI', 'AJR', 'BJFJ', 'FBDR', 'PCFD', 'PCFDED', 'BDR']]
y_train = data_train['FJ']
data_test = pd.read_excel('/Users/xiaoliu/Desktop/data_test.xlsx')
X_test = data_test[['CPI', 'GDP', 'PPI', 'AJR', 'BJFJ', 'FBDR', 'PCFD', 'PCFDED', 'BDR']]
y_test = data_test['FJ']
from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer(sparse=False)
X_train = vec.fit_transform(X_train.to_dict(orient='records'))
X_test = vec.transform(X_test.to_dict(orient='records'))
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor()
rf.fit(X_train,y_train)
y_predict = rf.predict(X_test)
print 'predict value:',y_predict
from sklearn.metrics import mean_squared_error
print 'MSE:', mean_squared_error(y_test, y_predict)
print 'NMES:',rf.score(X_test, y_test)
print rf.feature_importances_