『壹』 決策樹法的步驟
決策樹法的幾個關鍵步驟是:
1、畫出決策樹,畫決策樹的過程也就是對未來可能發生的各種事件進行周密思考、預測的過程,把這些情況用樹狀圖表示出來.先畫決策點,再找方案分枝和方案點.最後再畫出概率分枝。
(1)決策樹演算法過程擴展閱讀
決策樹的優點
1、決策樹易於理解和實現. 人們在通過解釋後都有能力去理解決策樹所表達的意義。
2、對於決策樹,數據的准備往往是簡單或者是不必要的 . 其他的技術往往要求先把數據一般化,比如去掉多餘的或者空白的屬性。
3、能夠同時處理數據型和常規型屬性。其他的技術往往要求數據屬性的單一。
4、 在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。
5、對缺失值不敏感
6、可以處理不相關特徵數據
7、效率高,決策樹只需要一次構建,反復使用,每一次預測的最大計算次數不超過決策樹的深度。
決策樹的缺點
1、對連續性的欄位比較難預測。
2、對有時間順序的數據,需要很多預處理的工作。
3、當類別太多時,錯誤可能就會增加的比較快。
4、一般的演算法分類的時候,只是根據一個欄位來分類。
5、在處理特徵關聯性比較強的數據時表現得不是太好
『貳』 決策樹演算法的典型演算法
決策樹的典型演算法有ID3,C4.5,CART等。
國際權威的學術組織,數據挖掘國際會議ICDM (the IEEE International Conference on Data Mining)在2006年12月評選出了數據挖掘領域的十大經典演算法中,C4.5演算法排名第一。C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3演算法。C4.5演算法產生的分類規則易於理解,准確率較高。不過在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,在實際應用中因而會導致演算法的低效。
決策樹演算法的優點如下:
(1)分類精度高;
(2)生成的模式簡單;
(3)對雜訊數據有很好的健壯性。
因而是目前應用最為廣泛的歸納推理演算法之一,在數據挖掘中受到研究者的廣泛關注。
『叄』 決策樹演算法是按什麼來進行分類的
決策樹演算法是一種逼近離散函數值的方法。它是一種典型的分類方法,首先對數據進行處理,利用歸納演算法生成可讀的規則和決策樹,然後使用決策對新數據進行分析。本質上決策樹是通過一系列規則對數據進行分類的過程。
決策樹方法最早產生於上世紀60年代,到70年代末。由J Ross Quinlan提出了ID3演算法,此演算法的目的在於減少樹的深度。但是忽略了葉子數目的研究。C4.5演算法在ID3演算法的基礎上進行了改進,對於預測變數的缺值處理、剪枝技術、派生規則等方面作了較大改進,既適合於分類問題,又適合於回歸問題。
決策樹演算法構造決策樹來發現數據中蘊涵的分類規則.如何構造精度高、規模小的決策樹是決策樹演算法的核心內容。決策樹構造可以分兩步進行。第一步,決策樹的生成:由訓練樣本集生成決策樹的過程。一般情況下,訓練樣本數據集是根據實際需要有歷史的、有一定綜合程度的,用於數據分析處理的數據集。第二步,決策樹的剪枝:決策樹的剪枝是對上一階段生成的決策樹進行檢驗、校正和修下的過程,主要是用新的樣本數據集(稱為測試數據集)中的數據校驗決策樹生成過程中產生的初步規則,將那些影響預衡准確性的分枝剪除。
『肆』 決策樹之ID3演算法及其Python實現
決策樹之ID3演算法及其Python實現
1. 決策樹背景知識
??決策樹是數據挖掘中最重要且最常用的方法之一,主要應用於數據挖掘中的分類和預測。決策樹是知識的一種呈現方式,決策樹中從頂點到每個結點的路徑都是一條分類規則。決策樹演算法最先基於資訊理論發展起來,經過幾十年發展,目前常用的演算法有:ID3、C4.5、CART演算法等。
2. 決策樹一般構建過程
??構建決策樹是一個自頂向下的過程。樹的生長過程是一個不斷把數據進行切分細分的過程,每一次切分都會產生一個數據子集對應的節點。從包含所有數據的根節點開始,根據選取分裂屬性的屬性值把訓練集劃分成不同的數據子集,生成由每個訓練數據子集對應新的非葉子節點。對生成的非葉子節點再重復以上過程,直到滿足特定的終止條件,停止對數據子集劃分,生成數據子集對應的葉子節點,即所需類別。測試集在決策樹構建完成後檢驗其性能。如果性能不達標,我們需要對決策樹演算法進行改善,直到達到預期的性能指標。
??註:分裂屬性的選取是決策樹生產過程中的關鍵,它決定了生成的決策樹的性能、結構。分裂屬性選擇的評判標準是決策樹演算法之間的根本區別。
3. ID3演算法分裂屬性的選擇——信息增益
??屬性的選擇是決策樹演算法中的核心。是對決策樹的結構、性能起到決定性的作用。ID3演算法基於信息增益的分裂屬性選擇。基於信息增益的屬性選擇是指以信息熵的下降速度作為選擇屬性的方法。它以的資訊理論為基礎,選擇具有最高信息增益的屬性作為當前節點的分裂屬性。選擇該屬性作為分裂屬性後,使得分裂後的樣本的信息量最大,不確定性最小,即熵最小。
??信息增益的定義為變化前後熵的差值,而熵的定義為信息的期望值,因此在了解熵和信息增益之前,我們需要了解信息的定義。
??信息:分類標簽xi 在樣本集 S 中出現的頻率記為 p(xi),則 xi 的信息定義為:?log2p(xi) 。
??分裂之前樣本集的熵:E(S)=?∑Ni=1p(xi)log2p(xi),其中 N 為分類標簽的個數。
??通過屬性A分裂之後樣本集的熵:EA(S)=?∑mj=1|Sj||S|E(Sj),其中 m 代表原始樣本集通過屬性A的屬性值劃分為 m 個子樣本集,|Sj| 表示第j個子樣本集中樣本數量,|S| 表示分裂之前數據集中樣本總數量。
??通過屬性A分裂之後樣本集的信息增益:InfoGain(S,A)=E(S)?EA(S)
??註:分裂屬性的選擇標准為:分裂前後信息增益越大越好,即分裂後的熵越小越好。
4. ID3演算法
??ID3演算法是一種基於信息增益屬性選擇的決策樹學習方法。核心思想是:通過計算屬性的信息增益來選擇決策樹各級節點上的分裂屬性,使得在每一個非葉子節點進行測試時,獲得關於被測試樣本最大的類別信息。基本方法是:計算所有的屬性,選擇信息增益最大的屬性分裂產生決策樹節點,基於該屬性的不同屬性值建立各分支,再對各分支的子集遞歸調用該方法建立子節點的分支,直到所有子集僅包括同一類別或沒有可分裂的屬性為止。由此得到一棵決策樹,可用來對新樣本數據進行分類。
ID3演算法流程:
(1) 創建一個初始節點。如果該節點中的樣本都在同一類別,則演算法終止,把該節點標記為葉節點,並用該類別標記。
(2) 否則,依據演算法選取信息增益最大的屬性,該屬性作為該節點的分裂屬性。
(3) 對該分裂屬性中的每一個值,延伸相應的一個分支,並依據屬性值劃分樣本。
(4) 使用同樣的過程,自頂向下的遞歸,直到滿足下面三個條件中的一個時就停止遞歸。
??A、待分裂節點的所有樣本同屬於一類。
??B、訓練樣本集中所有樣本均完成分類。
??C、所有屬性均被作為分裂屬性執行一次。若此時,葉子結點中仍有屬於不同類別的樣本時,選取葉子結點中包含樣本最多的類別,作為該葉子結點的分類。
ID3演算法優缺點分析
優點:構建決策樹的速度比較快,演算法實現簡單,生成的規則容易理解。
缺點:在屬性選擇時,傾向於選擇那些擁有多個屬性值的屬性作為分裂屬性,而這些屬性不一定是最佳分裂屬性;不能處理屬性值連續的屬性;無修剪過程,無法對決策樹進行優化,生成的決策樹可能存在過度擬合的情況。
『伍』 決策樹演算法的介紹
決策樹演算法是一種逼近離散函數值的方法。它是一種典型的分類方法,首先對數據進行處理,利用歸納演算法生成可讀的規則和決策樹,然後使用決策對新數據進行分析。本質上決策樹是通過一系列規則對數據進行分類的過程。決策樹方法最早產生於上世紀60年代,到70年代末。由J Ross Quinlan提出了ID3演算法,此演算法的目的在於減少樹的深度。但是忽略了葉子數目的研究。C4.5演算法在ID3演算法的基礎上進行了改進,對於預測變數的缺值處理、剪枝技術、派生規則等方面作了較大改進,既適合於分類問題,又適合於回歸問題。決策樹演算法構造決策樹來發現數據中蘊涵的分類規則.如何構造精度高、規模小的決策樹是決策樹演算法的核心內容。決策樹構造可以分兩步進行。第一步,決策樹的生成:由訓練樣本集生成決策樹的過程。一般情況下,訓練樣本數據集是根據實際需要有歷史的、有一定綜合程度的,用於數據分析處理的數據集。第二步,決策樹的剪技:決策樹的剪枝是對上一階段生成的決策樹進行檢驗、校正和修下的過程,主要是用新的樣本數據集(稱為測試數據集)中的數據校驗決策樹生成過程中產生的初步規則,將那些影響預衡准確性的分枝剪除。
『陸』 決策樹的演算法
C4.5演算法繼承了ID3演算法的優點,並在以下幾方面對ID3演算法進行了改進:
1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構造過程中進行剪枝;
3) 能夠完成對連續屬性的離散化處理;
4) 能夠對不完整數據進行處理。
C4.5演算法有如下優點:產生的分類規則易於理解,准確率較高。其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致演算法的低效。此外,C4.5隻適合於能夠駐留於內存的數據集,當訓練集大得無法在內存容納時程序無法運行。
具體演算法步驟如下;
1創建節點N
2如果訓練集為空,在返回節點N標記為Failure
3如果訓練集中的所有記錄都屬於同一個類別,則以該類別標記節點N
4如果候選屬性為空,則返回N作為葉節點,標記為訓練集中最普通的類;
5for each 候選屬性 attribute_list
6if 候選屬性是連續的then
7對該屬性進行離散化
8選擇候選屬性attribute_list中具有最高信息增益率的屬性D
9標記節點N為屬性D
10for each 屬性D的一致值d
11由節點N長出一個條件為D=d的分支
12設s是訓練集中D=d的訓練樣本的集合
13if s為空
14加上一個樹葉,標記為訓練集中最普通的類
15else加上一個有C4.5(R - {D},C,s)返回的點 背景:
分類與回歸樹(CART——Classification And Regression Tree)) 是一種非常有趣並且十分有效的非參數分類和回歸方法。它通過構建二叉樹達到預測目的。
分類與回歸樹CART 模型最早由Breiman 等人提出,已經在統計領域和數據挖掘技術中普遍使用。它採用與傳統統計學完全不同的方式構建預測准則,它是以二叉樹的形式給出,易於理解、使用和解釋。由CART 模型構建的預測樹在很多情況下比常用的統計方法構建的代數學預測准則更加准確,且數據越復雜、變數越多,演算法的優越性就越顯著。模型的關鍵是預測准則的構建,准確的。
定義:
分類和回歸首先利用已知的多變數數據構建預測准則, 進而根據其它變數值對一個變數進行預測。在分類中, 人們往往先對某一客體進行各種測量, 然後利用一定的分類准則確定該客體歸屬那一類。例如, 給定某一化石的鑒定特徵, 預測該化石屬那一科、那一屬, 甚至那一種。另外一個例子是, 已知某一地區的地質和物化探信息, 預測該區是否有礦。回歸則與分類不同, 它被用來預測客體的某一數值, 而不是客體的歸類。例如, 給定某一地區的礦產資源特徵, 預測該區的資源量。
『柒』 機器學習故事匯-決策樹演算法
機器學習故事匯-決策樹演算法
【咱們的目標】系列演算法講解旨在用最簡單易懂的故事情節幫助大家掌握晦澀無趣的機器學習,適合對數學很頭疼的同學們,小板凳走起!
決策樹模型是機器學習中最經典的演算法之一啦,用途之廣泛我就不多吹啦,其實很多機器學習演算法都是以樹模型為基礎的,比如隨機森林,Xgboost等一聽起來就是很牛逼的演算法(其實用起來也很牛逼)。
首先我們來看一下在上面的例子中我想根據人的年齡和性別(兩個特徵)對5個人(樣本數據)進行決策,看看他們喜不喜歡玩電腦游戲。首先根據年齡(根節點)進行了一次分支決策,又對左節點根據性別進行了一次分支決策,這樣所有的樣本都落到了最終的葉子節點,可以把每一個葉子節點當成我們最終的決策結果(比如Y代表喜歡玩游戲,N代表不喜歡玩游戲)。這樣我們就通過決策樹完成了非常簡單的分類任務!
再來看一下樹的組成,主要結構有根節點(數據來了之後首先進行判斷的特徵),非葉子節點(中間的一系列過程),葉子節點(最終的結果),這些都是我們要建立的模塊!
在決策中樹中,我們剛才的喜歡玩電腦游戲的任務看起來很簡單嘛,從上往下去走不就OK了嗎!但是難點在於我們該如何構造這棵決策樹(節點的選擇以及切分),這個看起來就有些難了,因為當我們手裡的數據特徵比較多的時候就該猶豫了,到底拿誰當成是根節點呢?
這個就是我們最主要的問題啦,節點究竟該怎麼選呢?不同的位置又有什麼影響?怎麼對特徵進行切分呢?一些到這,我突然想起來一個段子,咱們來樂呵樂呵!
武林外傳中這個段子夠我笑一年的,其實咱們在推導機器學習演算法的時候,也需要這么去想想,只有每一步都是有意義的我們才會選擇去使用它。回歸正題,我們選擇的根節點其實意味著它的重要程度是最大的,相當於大當家了,因為它會對數據進行第一次切分,我們需要把最重要的用在最關鍵的位置,在決策樹演算法中,為了使得演算法能夠高效的進行,那麼一開始就應當使用最有價值的特徵。
接下來咱們就得嘮嘮如何選擇大當家了,我們提出了一個概念叫做熵(不是我提出的。。。穿山甲說的),這里並不打算說的那麼復雜,一句話解釋一下,熵代表你經過一次分支之後分類的效果的好壞,如果一次分支決策後都屬於一個類別(理想情況下,也是我們的目標)這時候我們認為效果很好嘛,那熵值就很低。如果分支決策後效果很差,什麼類別都有,那麼熵值就會很高,公式已經給出,log函數推薦大家自己畫一下,然後看看概率[0,1]上的時候log函數值的大小(你會豁然開朗的)。
不確定性什麼時候最大呢?模稜兩可的的時候(就是你猶豫不決的時候)這個時候熵是最大的,因為什麼類別出現的可能性都有。那麼我們該怎麼選大當家呢?(根節點的特徵)當然是希望經過大當家決策後,熵值能夠下降(意味著類別更純凈了,不那麼混亂了)。在這里我們提出了一個詞叫做信息增益(就當是我提出的吧。。。),信息增益表示經過一次決策後整個分類後的數據的熵值下降的大小,我們希望下降越多越好,理想情況下最純凈的熵是等於零的。
一個栗子:准備一天一個哥們打球的時候,包括了4個特徵(都是環境因素)以及他最終有木有去打球的數據。
第一個問題:大當家該怎麼選?也就是我們的根節點用哪個特徵呢?
一共有4個特徵,看起來好像用誰都可以呀,這個時候就該比試比試了,看看誰的能力強(使得熵值能夠下降的最多)
在歷史數據中,首先我們可以算出來當前的熵值,計算公式同上等於0.940,大當家的競選我們逐一來分析,先看outlook這個特徵,上圖給出了基於天氣的劃分之後的熵值,計算方式依舊同上,比如outlook=sunny時,yes有2個,no有三個這個時候熵就直接將2/5和3/5帶入公式就好啦。最終算出來了3種情況下的熵值。
再繼續來看!outlook取不同情況的概率也是不一樣的,這個是可以計算出來的相當於先驗概率了,直接可以統計出來的,這個也需要考慮進來的。然後outlook競選大當家的分值就出來啦(就是信息增益)等於0.247。同樣的方法其餘3個特徵的信息增益照樣都可以計算出來,誰的信息增益多我們就認為誰是我們的大當家,這樣就完成了根節點的選擇,接下來二當家以此類推就可以了!
我們剛才給大家講解的是經典的ID3演算法,基於熵值來構造決策樹,現在已經有很多改進,比如信息增益率和CART樹。簡單來說一下信息增益率吧,我們再來考慮另外一個因素,如果把數據的樣本編號當成一個特徵,那麼這個特徵必然會使得所有數據完全分的開,因為一個樣本只對應於一個ID,這樣的熵值都是等於零的,所以為了解決這類特徵引入了信息增益率,不光要考慮信息增益還要考慮特徵自身的熵值。說白了就是用 信息增益/自身的熵值 來當做信息增益率。
我們剛才討論的例子中使用的是離散型的數據,那連續值的數據咋辦呢?通常我們都用二分法來逐一遍歷來找到最合適的切分點!
下面再來嘮一嘮決策樹中的剪枝任務,為啥要剪枝呢?樹不是好好的嗎,剪個毛線啊!這個就是機器學習中老生常談的一個問題了,過擬合的風險,說白了就是如果一個樹足夠龐大,那麼所有葉子節點可能只是一個數據點(無限制的切分下去),這樣會使得我們的模型泛化能力很差,在測試集上沒辦法表現出應有的水平,所以我們要限制決策樹的大小,不能讓枝葉太龐大了。
最常用的剪枝策略有兩種:
(1)預剪枝:邊建立決策樹邊開始剪枝的操作
(2)後剪枝:建立完之後根據一定的策略來修建
這些就是我們的決策樹演算法啦,其實還蠻好的理解的,從上到下基於一種選擇標准(熵,GINI系數)來找到最合適的當家的就可以啦!
『捌』 常見決策樹分類演算法都有哪些
在機器學習中,有一個體系叫做決策樹,決策樹能夠解決很多問題。在決策樹中,也有很多需要我們去學習的演算法,要知道,在決策樹中,每一個演算法都是實用的演算法,所以了解決策樹中的演算法對我們是有很大的幫助的。在這篇文章中我們就給大家介紹一下關於決策樹分類的演算法,希望能夠幫助大家更好地去理解決策樹。
1.C4.5演算法
C4.5演算法就是基於ID3演算法的改進,這種演算法主要包括的內容就是使用信息增益率替換了信息增益下降度作為屬性選擇的標准;在決策樹構造的同時進行剪枝操作;避免了樹的過度擬合情況;可以對不完整屬性和連續型數據進行處理;使用k交叉驗證降低了計算復雜度;針對數據構成形式,提升了演算法的普適性等內容,這種演算法是一個十分使用的演算法。
2.CLS演算法
CLS演算法就是最原始的決策樹分類演算法,基本流程是,從一棵空數出發,不斷的從決策表選取屬性加入數的生長過程中,直到決策樹可以滿足分類要求為止。CLS演算法存在的主要問題是在新增屬性選取時有很大的隨機性。
3.ID3演算法
ID3演算法就是對CLS演算法的最大改進是摒棄了屬性選擇的隨機性,利用信息熵的下降速度作為屬性選擇的度量。ID3是一種基於信息熵的決策樹分類學習演算法,以信息增益和信息熵,作為對象分類的衡量標准。ID3演算法結構簡單、學習能力強、分類速度快適合大規模數據分類。但同時由於信息增益的不穩定性,容易傾向於眾數屬性導致過度擬合,演算法抗干擾能力差。
3.1.ID3演算法的優缺點
ID3演算法的優點就是方法簡單、計算量小、理論清晰、學習能力較強、比較適用於處理規模較大的學習問題。缺點就是傾向於選擇那些屬性取值比較多的屬性,在實際的應用中往往取值比較多的屬性對分類沒有太大價值、不能對連續屬性進行處理、對雜訊數據比較敏感、需計算每一個屬性的信息增益值、計算代價較高。
3.2.ID3演算法的核心思想
根據樣本子集屬性取值的信息增益值的大小來選擇決策屬性,並根據該屬性的不同取值生成決策樹的分支,再對子集進行遞歸調用該方法,當所有子集的數據都只包含於同一個類別時結束。最後,根據生成的決策樹模型,對新的、未知類別的數據對象進行分類。
在這篇文章中我們給大家介紹了決策樹分類演算法的具體內容,包括有很多種演算法。從中我們不難發現決策樹的演算法都是經過不不斷的改造趨於成熟的。所以說,機器學習的發展在某種程度上就是由於這些演算法的進步而來的。