⑴ 決策樹演算法--CART分類樹演算法
決策樹演算法中,CART分類回歸樹演算法的獨特之處在於,它能夠同時處理分類和回歸問題,區別於ID3和C4.5演算法只能處理分類問題。分類樹的輸出是對樣本的類別分類,而回歸樹的輸出則是一個實數值。
CART演算法在選擇特徵時,採用了基尼系數來衡量特徵的優劣,這與ID3和C4.5演算法採用的信息增益(率)相反。基尼系數越小,表示數據集的純度越高,特徵的質量越好。在構建CART分類樹時,演算法基於基尼系數來決定如何分割數據集,形成二叉樹結構。
CART演算法處理離散特徵與連續特徵的方式也有所不同。對於離散特徵,CART會進行不斷的二分劃分,同一特徵可能參與多個節點的構建。而對於連續特徵,CART則會將其離散化,然後基於基尼系數選擇最優的劃分點。
在CART演算法中,通過構建決策樹對數據進行預測時,如果測試樣本落在某個葉子節點,其預測結果即為該葉子節點上訓練樣本類別出現概率最大的結果。
為了避免過度擬合,CART演算法通過剪枝技術對生成的決策樹進行優化。剪枝分為前剪枝和後剪枝,其中後剪枝是在構建完決策樹後,通過計算非葉子節點的表面誤差率增益值,找出最優的節點進行剪枝,以減少模型的復雜度,提高泛化能力。
總結而言,CART分類回歸樹演算法通過採用基尼系數作為特徵選擇的依據,以及對離散和連續特徵的不同處理方式,使得它成為一種既適用於分類問題,又適用於回歸問題的強大工具。此外,通過剪枝技術,CART能夠有效避免模型過擬合,提升預測性能。
相關資源包括書籍《機器學習實戰》、周志華的西瓜書《機器學習》、以及關於CART演算法和相關技術的參考鏈接。
⑵ 決策樹有哪些分類
決策樹主要有以下三種分類:
ID3決策樹:
C4.5決策樹:
CART決策樹:
每一種決策樹演算法都有其特定的優勢和適用場景,理解它們的分類和原理對於選擇最適合的數據分析工具至關重要。
⑶ 基尼系數 是如何計算出來的
計算方法:
假設一個國家有100個人,計算這個國家的基尼系數分為下面四步:1.將這100人按收入從低往高排列,第一名是收入最低的,第一百名是收入最高的;2.畫一個邊長為一的正方形,並將左下角與右上角的對角線相連;3.依次計算前十名,前二十名,前三十名……一直到前九十名所擁有的收入占整個100人的收入的比值;4.以正方形的左下角為原點,用水平邊標記累計人口,垂直邊標記累積的收入比,將在上面計算出的累計收入比值,在正方形中標出。然後,將這些點同原點以及正方形的右上角連接,就可以得到一條曲線。這條曲線被稱為勞倫斯曲線(Lorenze Cruve)。基尼系數就是對角線與勞倫斯曲線之間的面積,與對角線以下的三角形的面積之比。如果收入是均勻分布的,勞倫斯曲線就和對角線重合,基尼系數就是零,如果收入是極端不平均的,比如前99人收入為零,勞倫斯曲線就和正方形的右邊線重合,基尼系數就是1。