决策树启发性算法_决策树算法原理

❶ 拉卡拉手机收款宝，都有什么功能

您好，感谢您对拉卡拉的支持！

拉卡拉手机收款宝功能：刷卡收款、撤销交易，信用卡还款、手机充值、转账汇款、余额查询，交易查询，及其他附加功能：计算器。

拉卡拉手机收款宝产品特点：

1、体积小：体积只有名片盒大小，可随身携带；

2、价格低：售价远远低于市场上的POS价格，仅需299元；

3、开通简单：无需繁琐资料，10分钟即可开通，即开即用；

4、移动收款：可全国移动收款，不受地域限制；

5、支持金融IC卡：支持带有银联标志的磁条和芯片银行卡；

6、蓝牙连接：可通过蓝牙与手机连接，摆脱数据线束缚；

7、电子签购单：付款人手写签名确认交易，保障商户权益；

您可以拨打拉卡拉客服热线或者登陆拉卡拉天猫旗舰店和拉卡拉官网购买

若您还有其他问题您也可以通过以下方式联系我们，我们将更加快速的帮您解决问题
1.拉卡拉微博：拉卡拉
2.拉卡拉微信：ilakala
3.拉卡拉热线：

拉卡拉祝您生活愉快！

❷ 什么是NP完全问题

在学习决策树的时候，我们知道，其一大特点是：寻找最佳的决策树是NP完成问题。什么是NP完全问题，决策树的这一特点又是什么意思？

这里的NP其实是 Non-deterministic Polynomial 的缩写，即多项式复杂程度的非确定性问题，NP完全问题有时也会简称为NP-C问题。与此概念相关的还有P类问题、NP类问题等。要理解什么是NP完全问题，首先得从P类问题开始理解。

判定问题 是指回答结果输出为 Yes 或 No 的问题，比如：3233是否可以写成两个大于1的数字的乘积？是否存在一条路线有且仅有一次的走过七桥问题的每一座桥？

在设计程序时，我们经常需要评估这个程序的时间复杂度，即衡量当问题规模变大后，程序执行所需的时间增长会有多快。如O(1)表示常数级别，即不管问题的规模变大多少倍，所耗的时间不会改变；O(N^2) 表示平方级别，即当问题规模增大至2倍时，所花费的时间则放大至4倍；O(2^N) 表示指数级别，即当问题规模倍数扩大时，所用时间会呈指数放大。

多项式时间 则是指O(1)、O(logN)、O(N^2) 等这类可用多项式表示的时间复杂度，通常我们认为计算机可解决的问题只限于多项式时间内。而O(2^N)、O(N!)这类非多项式级别的问题，其复杂度往往已经到了计算机都接受不了的程度。

NP类问题将问题分为求解和验证两个阶段，问题的求解是非确定性的，无法在多项式时间内得到答案，而问题的验证却是确定的，能够在多项式时间里确定结果。

比如：是否存在一个公式可以计算下一个质数是多少？这个问题的答案目前是无法直接计算出来的，但是如果某人给出了一个公式，我们却可以在多项式时间里对这个公式进行验证。

可以说NP完全问题是NP类问题的一种特殊情况，总结这几类问题的特点，可参考如下这个表格：

注：表格中的问题类型的困难程度依次递增

由表可知，NP类问题是否能在多项式时间内求解，其答案并不明确，如果回答为“是”，岂不是跟P类问题一样了？值得一题的是，P=NP？是千禧七大难题的首个难题，是一个价值百万美元的问题，这个问题本质是求证：能用多项式时间验证解的问题是否内在多项式时间内找出解。

在决策树算法中，寻找最优决策树是一个NP完全问题。决策树的这一特点，说明我们无法利用计算机在多项式时间内，找出全局最优的解。

也正因为如此，大多数决策树算法都采用启发式的算法，如贪心算法，来指导对假设空间的搜索。可以说，决策树最后的结果，是在每一步、每一个节点上做的局部最优选择。决策树得到的结果，是没法保证为全局最优的。

（全文完）

参考文章：
1、什么是P问题、NP问题和NPC问题
2、 what are the differences between np, np-complete and np-hard

❸ 决策树是什么东东

小白自学路上的备忘记录。。。

参考：
决策树(分类树、回归树)
决策树 :这个博客的图真好看，通俗易懂。哈哈
决策树详解

决策树（Decision Tree）是一种有监督学习算法，常用于分类和回归。本文仅讨论分类问题。

决策树模型是运用于分类以及回归的一种树结构。决策树由节点和有向边组成，一般一棵决策树包含一个根节点、若干内部节点和若干叶节点。决策树的决策过程需要从决策树的根节点开始，待测数据与决策树中的特征节点进行比较，并按照比较结果选择选择下一比较分支，直到叶子节点作为最终的决策结果。

简而言之，决策树是一个利用树的模型进行决策的多分类模型

为了找到最优的划分特征，我们需要先了解一些信息论的知识：

纯度：
你可以把决策树的构造过程理解成为寻找纯净划分的过程。数学上，我们可以用纯度来表示，纯度换一种方式来解释就是让目标变量的分歧最小

信息熵 ：表示信息的不确定度
在信息论中，随机离散事件出现的概率存在着不确定性。为了衡量这种信息的不确定性，信息学之父香农引入了信息熵的概念.
当不确定性越大时，它所包含的信息量也就越大，信息熵也就越高 。
信息熵越大，纯度越低。当集合中的所有样本均匀混合时，信息熵最大，纯度最低

经典的 “不纯度”的指标有三种，分别是信息增益（ID3 算法）、信息增益率（C4.5 算法）以及基尼指数（Cart 算法）
信息增益 ：
信息增益指的就是划分可以带来纯度的提高，信息熵的下降。它的计算公式，是父亲节点的信息熵减去所有子节点的信息熵。
信息增益率
信息增益率 = 信息增益 / 属性熵
基尼指数
基尼指数（基尼不纯度）：表示在样本集合中一个随机选中的样本被分错的概率。
即基尼指数（基尼不纯度）= 样本被选中的概率 * 样本被分错的概率
基尼系数的性质与信息熵一样：度量随机变量的不确定度的大小；
G 越大，数据的不确定性越高；
G 越小，数据的不确定性越低；
G = 0，数据集中的所有样本都是同一类别
详细参考：机器学习——基尼指数

ID3 算法是建立在奥卡姆剃刀（用较少的东西，同样可以做好事情）的基础上：越是小型的决策树越优于大的决策树
ID3算法的核心是在决策树各个节点上根据信息增益来选择进行划分的特征，然后递归地构建决策树。算法采用自顶向下的贪婪搜索遍历可能的决策树空间。

具体方法 ：

ID3的局限 ：

C4.5与ID3相似，但大的特点是克服了 ID3 对特征数目的偏重这一缺点，引入信息增益率来作为分类标准。

C4.5的实现基于ID3的改进 ：

信息增益率对可取值较少的特征有所偏好（分母越小，整体越大），因此 C4.5 并不是直接用增益率最大的特征进行划分，而是使用一个 启发式方法 ：先从候选划分特征中找到信息增益高于平均值的特征，再从中选择增益率最高的。

C4.5的局限 ：

ID3 和 C4.5 生成的决策树分支、规模都比较大，CART 算法的二分法可以简化决策树的规模，提高生成决策树的效率。
CART(),分类回归树算法，既可用于分类也可用于回归，在这一部分我们先主要将其分类树的生成。区别于ID3和C4.5,CART假设决策树是二叉树，内部节点特征的取值为“是”和“否”，左分支为取值为“是”的分支，右分支为取值为”否“的分支。这样的决策树等价于递归地二分每个特征，将输入空间(即特征空间)划分为有限个单元。
CART的分类树用基尼指数来选择最优特征的最优划分点，具体过程如下

剪枝就是给决策树瘦身，这一步想实现的目标就是，不需要太多的判断，同样可以得到不错的结果。之所以这么做，是为了防止“过拟合”（Overfitting）现象的发生。
过拟合：指的是模型的训练结果“太好了”，以至于在实际应用的过程中，会存在“死板”的情况，导致分类错误。
欠拟合：指的是模型的训练结果不理想.
剪枝的方法 ：

参考：【机器学习】决策树（上）——ID3、C4.5、CART（非常详细）

更多模型不断更新中。。。。

❹ 决策树（Decision Tree）

决策树（Decision Tree）是一种基本的分类与回归方法，其模型呈树状结构，在分类问题中，表示基于特征对实例进行分类的过程。本质上，决策树模型就是一个定义在特征空间与类空间上的条件概率分布。决策树学习通常包括三个步骤：特征选择、决策树的生成和决策树的修剪。

分类决策树模型是一种描述对实例进行分类的树形结构，决策树由节点（node）和有向边（directed edge）组成。节点有两种类型：内部节点（internal node）和叶节点（leaf node）。内部节点表示一个特征或属性，叶节点表示一个类。

利用决策树进行分类，从根节点开始，对实例的某一特征进行测试，根据测试结果将实例分配到其子节点；这时，每一个子节点对应着该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶节点。最后将实例分到叶节点的类中。

决策树是给定特征条件下类的条件概率分布，这一条件概率分布定义在特征区间的一个划分（partiton）上。将特征空间划分为互不相交的单元（cell）或区域（region），并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应划分中的一个单元，决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。假设X为表示特征的随机变量，Y为表示类的随机变量，那么这个条件概率分布可以表示成P(Y|X)。X取值于给定划分下单元的集合，Y取值于类的集合，各叶节点（单元）上的条件概率往往偏向于某一个类，即属于某一类的概率较大，决策树分类时将该节点的实例分到条件概率大的那一类去。也就以为着决策树学习的过程其实也就是由数据集估计条件概率模型的过程，这些基于特征区间划分的类的条件概率模型由无穷多个，在进行选择时，不仅要考虑模型的拟合能力还要考虑其泛化能力。

为了使模型兼顾模型的拟合和泛化能力，决策树学习使用正则化的极大似然函数来作为损失函数，以最小化损失函数为目标，寻找最优的模型。显然从所有可能的决策树中选取最优决策树是NP完全问题，所以在实际中通常采用启发式的方法，近似求解这一最优化问题： 通过递归的选择最优特征，根据该特征对训练数据进行划分直到使得各个子数据集有一个最好的分类，最终生成特征树 。当然，这样得到的决策树实际上是次最优（sub-optimal）的。进一步的，由于决策树的算法特性，为了防止模型过拟合，需要对已生成的决策树自下而上进行剪枝，将树变得更简单，提升模型的泛化能力。具体来说，就是去掉过于细分的叶节点，使其退回到父节点，甚至更高的节点，然后将父节点或更高的节点改为新的叶节点。如果数据集的特征较多，也可以在进行决策树学习之前，对数据集进行特征筛选。

由于决策树是一个条件概率分布，所以深浅不同的决策树对应着不同复杂度的概率模型，决策树的生成对应模型的局部选择，决策树的剪枝对应着模型的全局选择。

熵（Entropy）的概念最早起源于物理学，最初物理学家用这个概念度量一个热力学系统的无序程度。在1948年，克劳德·艾尔伍德·香农将热力学的熵，引入到信息论，因此它又被称为 香农熵 。在信息论中，熵是对不确定性的量度，在一条信息的熵越高则能传输越多的信息，反之，则意味着传输的信息越少。

如果有一枚理想的硬币，其出现正面和反面的机会相等，则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么，因此每一次抛硬币都是不可预测的。因此，使用一枚正常硬币进行若干次抛掷，这个事件的熵是一比特，因为结果不外乎两个——正面或者反面，可以表示为 0, 1 编码，而且两个结果彼此之间相互独立。若进行 n 次独立实验，则熵为 n ，因为可以用长度为 n 的比特流表示。但是如果一枚硬币的两面完全相同，那个这个系列抛硬币事件的熵等于零，因为结果能被准确预测。现实世界里，我们收集到的数据的熵介于上面两种情况之间。

另一个稍微复杂的例子是假设一个随机变量 X ，取三种可能值，概率分别为，那么编码平均比特长度是：。其熵为。因此熵实际是对随机变量的比特量和顺次发生概率相乘再总和的 数学期望。

依据玻尔兹曼H定理，香农把随机变量X的熵定义为：

其中是随机变量X的信息量，当随机变量取自有限样本时，熵可以表示为：

若，则定义。

同理可以定义条件熵 :

很容易看出，条件熵（conditional entropy）就是X给定条件下Y的条件概率分布的熵对X的数学期望。当熵和条件熵中的概率有极大似然估计得到时，所对应的熵和条件熵分别称为检验熵（empirical entropy）和经验条件熵（empirical conditional entropy）.

熵越大，随机变量的不确定性就越大，从定义可以验证:

当底数时，熵的单位是；当时，熵的单位是 ;而当时，熵的单位是 .

如英语有26个字母，假如每个字母在文章中出现的次数平均的话，每个字母的信息量为：

同理常用汉字2500有个，假设每个汉字在文章中出现的次数平均的话，每个汉字的信息量为：

事实上每个字母和汉字在文章中出现的次数并不平均，少见字母和罕见汉字具有相对较高的信息量，显然，由期望的定义，熵是整个消息系统的平均消息量。

熵可以用来表示数据集的不确定性，熵越大，则数据集的不确定性越大。因此使用 划分前后数据集熵的差值 量度使用当前特征对于数据集进行划分的效果（类似于深度学习的代价函数）。对于待划分的数据集，其划分前的数据集的熵是一定的，但是划分之后的熵是不定的，越小说明使用此特征划分得到的子集的不确定性越小（也就是纯度越高）。因此越大，说明使用当前特征划分数据集时，纯度上升的更快。而我们在构建最优的决策树的时候总希望能更快速到达纯度更高的数据子集，这一点可以参考优化算法中的梯度下降算法，每一步沿着负梯度方法最小化损失函数的原因就是负梯度方向是函数值减小最快的方向。同理：在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展，因此我们总是选择使得信息增益最大的特征来划分当前数据集。

显然这种划分方式是存在弊端的，按信息增益准则的划分方式，当数据集的某个特征B取值较多时，依此特征进行划分更容易得到纯度更高的数据子集，使得偏小，信息增益会偏大，最终导致信息增益偏向取值较多的特征。

设是个数据样本的集合，假定类别属性具有个不同的值： ,设是类中的样本数。对于一个给定样本，它的信息熵为：

其中，是任意样本属于的概率，一般可以用估计。

设一个属性A具有个不同的值，利用属性A将集合划分为个子集，其中包含了集合中属性取值的样本。若选择属性A为测试属性，则这些子集就是从集合的节点生长出来的新的叶节点。设是子集中类别为的样本数，则根据属性A划分样本的信息熵为：

其中 , 是子集中类别为的样本的概率。最后，用属性A划分样本子集后所得的信息增益(Gain) 为：

即，属性A的信息增益=划分前数据的熵-按属性A划分后数据子集的熵。 信息增益（information gain）又称为互信息（matual information）表示得知特征X的信息而使得类Y的信息的不确定性减少的程度 。信息增益显然越小，的值越大，说明选择测试属性A对于分类提供的信息越多，选择A之后对分类的不确定程度越小。

经典算法 ID3 使用的信息增益特征选择准则会使得划分更偏相遇取值更多的特征，为了避免这种情况。ID3的提出者 J.Ross Quinlan 提出了 C4.5 ,它在ID3的基础上将特征选择准则由信息增益改为了信息增益率。在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大（类似于正则化）。这个惩罚参数就是分裂信息度量的倒数。

不同于 ID3 和 C4.5 , CART 使用基尼不纯度来作为特征选择准则。基尼不纯度也叫基尼指数 , 表示在样本集合中一个随机选中的样本被分错的概率则基尼指数（基尼不纯度）= 样本被选中的概率 * 样本被分错的概率。Gini指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。

样本集合的基尼指数：
样本集合有m个类别，表示第个类别的样本数量,则的Gini指数为：

基于某个特征划分样本集合S之后的基尼指数：
CART是一个二叉树，也就是当使用某个特征划分样本集合后，得到两个集合：a.等于给定的特征值的样本集合；b.不等于给定特征值的样本集合。实质上是对拥有多个取值的特征的二值处理。

对于上述的每一种划分，都可以计算出基于划分特=某个特征值将样本集合划分为两个子集的纯度：

因而对于一个具有多个取值（超过2个）的特征，需要计算以每个取值为划分点，对样本集合划分后子集的纯度 ( 表示特征的可能取值)然后从所有的划分可能中找出Gini指数最小的划分，这个划分的划分点，就是使用特征对样本集合进行划分的最佳划分点。

参考文献 ：

决策树--信息增益，信息增益比，Geni指数的理解

【机器学习】深入理解--信息熵（Information Entropy）

统计学习方法（李航）

为了便于理解，利用以下数据集分别使用三种方法进行分类：

在进行具体分析之前，考虑到收入是数值类型，要使用决策树算法，需要先对该属性进行离散化。
在机器学习算法中，一些分类算法（ID3、Apriori等）要求数据是分类属性形式，因此在处理分类问题时经常需要将一些连续属性变换为分类属性。一般来说，连续属性的离散化都是通过在数据集的值域内设定若干个离散的划分点，将值域划分为若干区间，然后用不同的符号或整数数值代表落在每个子区间中的数据值。所以，离散化最核心的两个问题是：如何确定分类数以及如何将连续属性映射到这些分类值。常用的离散化方法有等宽法，等频法以及一维聚类法等。

在实际使用时往往使用Pandas的 cut() 函数实现等宽离散化:

可以看到与手工计算的离散化结果相同，需要注意的是， 等宽法对于离群点比较敏感，倾向于不均匀地把属性值分布到各个区间，导致某些区间数据较多，某些区间数据很少，这显然不利用决策模型的建立。

使用四个分位数作为边界点，对区间进行划分：

等频率离散化虽然避免了等宽离散化的数据分布不均匀的问题,却可能将相同的数据值分到不同的区间以满足每个区间具有相同数量的属性取值的要求。

使用一维聚类的离散化方法后得到数据集为：

在本次实例中选择使用基于聚类的离散化方法后得到的数据集进行指标计算。为了预测客户能否偿还债务，使用A（拥有房产）、B（婚姻情况）、C（年收入）等属性来进行数据集的划分最终构建决策树。

单身：

离婚：

已婚：

显然，由B属性取值'已婚'划分得到的子数据集属于同一个叶节点，无法再进行分类。
接下来，对由B属性取值'单身'划分得到的子数据集再进行最优特征选择：

1）计算数据集总的信息熵，其中4个数据中，能否偿还债务为'是'数据有3，'否'数据有1,则总的信息熵：

2）对于A(拥有房产)属性，其属性值有'是'和'否'两种。其中，在A为'是'的前提下，能否偿还债务为'是'的有1、'否'的有0；在A为'否'的前提下，能否偿还债务为'是'的有2、为'否'的有1，则A属性的信息熵为：

3)对于B（婚姻情况）属性，由于已被确定，在这个数据子集信息熵为0

4)对于C（年收入）属性，其属性值有'中等输入'、'低收入'两种。在C为'中等收入'的前提下，能否偿还作为为'是'的有1,为'否'的有0；在C为'低收入'的前提下，能否偿还作为为'是'的有2,为'否'的有1;则C属性的信息熵为：

5）最后分别计算两个属性的信息增益值：

信息增益值相同，说明以两个属性对数据子集进行划分后决策树的纯度上升是相同的，此时任选其一成为叶节点即可。
同理，对数据子集进行最优特征选择，发现信息熵为0：
整理得到最终的决策树：

❺ 学大数据需要什么基础

其实笼统地说大数据原理和基础都在数学这边，当然有很多偏应用和软件使用的技术，例如“深度学习调参”等，这些报个培训速成班就能学会的技术含量不那么高的东西，不在讨论范围内。

深度学习：目前非常火，打败了非常多几十年积累起来的经典方法。

增强学习：也很火，游戏AI、自动驾驶、机器人等等，它都是核心。

概率图模型：深度学习之前非常popular的“学习”方法，有严格的数学模型和优美的算法，虽然目前被前俩者盖过了风头，但是依然有它的立足之处。

再比如有用偏微分方程做图像处理的（比较小众），那么这时候你肯定要去学一下偏微分方程了，大都是以科研为主导的。

❻ 决策树算法原理

决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。

如果不考虑效率等，那么样本所有特征的判断级联起来终会将某一个样本分到一个类终止块上。实际上，样本所有特征中有一些特征在分类时起到决定性作用，决策树的构造过程就是找到这些具有决定性作用的特征，根据其决定性程度来构造一个倒立的树--决定性作用最大的那个特征作为根节点，然后递归找到各分支下子数据集中次大的决定性特征，直至子数据集中所有数据都属于同一类。所以，构造决策树的过程本质上就是根据数据特征将数据集分类的递归过程，我们需要解决的第一个问题就是，当前数据集上哪个特征在划分数据分类时起决定性作用。

一棵决策树的生成过程主要分为以下3个部分:

特征选择：特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准，如何选择特征有着很多不同量化评估标准标准，从而衍生出不同的决策树算法。

决策树生成：根据选择的特征评估标准，从上至下递归地生成子节点，直到数据集不可分则停止决策树停止生长。树结构来说，递归结构是最容易理解的方式。

剪枝：决策树容易过拟合，一般来需要剪枝，缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。

划分数据集的最大原则是：使无序的数据变的有序。如果一个训练数据中有20个特征，那么选取哪个做划分依据？这就必须采用量化的方法来判断，量化划分方法有多重，其中一项就是“信息论度量信息分类”。基于信息论的决策树算法有ID3、CART和C4.5等算法，其中C4.5和CART两种算法从ID3算法中衍生而来。

CART和C4.5支持数据特征为连续分布时的处理，主要通过使用二元切分来处理连续型变量，即求一个特定的值-分裂值：特征值大于分裂值就走左子树，或者就走右子树。这个分裂值的选取的原则是使得划分后的子树中的“混乱程度”降低，具体到C4.5和CART算法则有不同的定义方式。

ID3算法由Ross Quinlan发明，建立在“奥卡姆剃刀”的基础上：越是小型的决策树越优于大的决策树（be simple简单理论）。ID3算法中根据信息论的信息增益评估和选择特征，每次选择信息增益最大的特征做判断模块。ID3算法可用于划分标称型数据集，没有剪枝的过程，为了去除过度数据匹配的问题，可通过裁剪合并相邻的无法产生大量信息增益的叶子节点（例如设置信息增益阀值）。使用信息增益的话其实是有一个缺点，那就是它偏向于具有大量值的属性--就是说在训练集中，某个属性所取的不同值的个数越多，那么越有可能拿它来作为分裂属性，而这样做有时候是没有意义的，另外ID3不能处理连续分布的数据特征，于是就有了C4.5算法。CART算法也支持连续分布的数据特征。

C4.5是ID3的一个改进算法，继承了ID3算法的优点。C4.5算法用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足在树构造过程中进行剪枝；能够完成对连续属性的离散化处理；能够对不完整数据进行处理。C4.5算法产生的分类规则易于理解、准确率较高；但效率低，因树构造过程中，需要对数据集进行多次的顺序扫描和排序。也是因为必须多次数据集扫描，C4.5只适合于能够驻留于内存的数据集。

CART算法的全称是Classification And Regression Tree，采用的是Gini指数（选Gini指数最小的特征s）作为分裂标准,同时它也是包含后剪枝操作。ID3算法和C4.5算法虽然在对训练样本集的学习中可以尽可能多地挖掘信息，但其生成的决策树分支较大，规模较大。为了简化决策树的规模，提高生成决策树的效率，就出现了根据GINI系数来选择测试属性的决策树算法CART。

决策树算法的优点：

（1）便于理解和解释，树的结构可以可视化出来

（2）基本不需要预处理，不需要提前归一化，处理缺失值

（3）使用决策树预测的代价是O(log2m)，m为样本数

（4）能够处理数值型数据和分类数据

（5）可以处理多维度输出的分类问题

（6）可以通过数值统计测试来验证该模型，这使解释验证该模型的可靠性成为可能

（7）即使该模型假设的结果与真实模型所提供的数据有些违反，其表现依旧良好

决策树算法的缺点:

（1）决策树模型容易产生一个过于复杂的模型,这样的模型对数据的泛化性能会很差。这就是所谓的过拟合.一些策略像剪枝、设置叶节点所需的最小样本数或设置数的最大深度是避免出现该问题最为有效地方法。

（2）决策树可能是不稳定的，因为数据中的微小变化可能会导致完全不同的树生成。这个问题可以通过决策树的集成来得到缓解。

（3）在多方面性能最优和简单化概念的要求下，学习一棵最优决策树通常是一个NP难问题。因此，实际的决策树学习算法是基于启发式算法，例如在每个节点进行局部最优决策的贪心算法。这样的算法不能保证返回全局最优决策树。这个问题可以通过集成学习来训练多棵决策树来缓解,这多棵决策树一般通过对特征和样本有放回的随机采样来生成。

（4）有些概念很难被决策树学习到,因为决策树很难清楚的表述这些概念。例如XOR，奇偶或者复用器的问题。

（5）如果某些类在问题中占主导地位会使得创建的决策树有偏差。因此，我们建议在拟合前先对数据集进行平衡。

（1）当数据的特征维度很高而数据量又很少的时候，这样的数据在构建决策树的时候往往会过拟合。所以我们要控制样本数量和特征的之间正确的比率；

（2）在构建决策树之前，可以考虑预先执行降维技术（如PCA，ICA或特征选择），以使我们生成的树更有可能找到具有辨别力的特征；

（3）在训练一棵树的时候，可以先设置max_depth=3来将树可视化出来，以便我们找到树是怎样拟合我们数据的感觉，然后在增加我们树的深度；

（4）树每增加一层，填充所需的样本数量是原来的2倍，比如我们设置了最小叶节点的样本数量，当我们的树层数增加一层的时候，所需的样本数量就会翻倍，所以我们要控制好树的最大深度，防止过拟合；

（5）使用min_samples_split（节点可以切分时拥有的最小样本数）和 min_samples_leaf（最小叶节点数）来控制叶节点的样本数量。这两个值设置的很小通常意味着我们的树过拟合了，而设置的很大意味着我们树预测的精度又会降低。通常设置min_samples_leaf=5；

（6）当树的类比不平衡的时候，在训练之前一定要先平很数据集，防止一些类别大的类主宰了决策树。可以通过采样的方法将各个类别的样本数量到大致相等，或者最好是将每个类的样本权重之和(sample_weight)规范化为相同的值。另请注意，基于权重的预剪枝标准（如min_weight_fraction_leaf）将比不知道样本权重的标准（如min_samples_leaf）更少偏向主导类别。

（7）如果样本是带权重的，使用基于权重的预剪枝标准将更简单的去优化树结构，如mn_weight_fraction_leaf，这确保了叶节点至少包含了样本权值总体总和的一小部分；

（8）在sklearn中所有决策树使用的数据都是np.float32类型的内部数组。如果训练数据不是这种格式，则将复制数据集，这样会浪费计算机资源。

（9）如果输入矩阵X非常稀疏，建议在调用fit函数和稀疏csr_matrix之前转换为稀疏csc_matrix，然后再调用predict。当特征在大多数样本中具有零值时，与密集矩阵相比，稀疏矩阵输入的训练时间可以快几个数量级。

❼ 蒙特卡洛树搜索 - 以蛮力对抗智慧

蒙特卡洛树搜索（Monte Carlo tree search；简称：MCTS）是一种用于某些决策过程的启发式搜索算法，最引人注目的是在游戏中的使用。一个主要例子是计算机围棋程序，它也用于其他棋盘游戏、即时电子游戏以及不确定性游戏。

比如围棋，棋手需要针对盘面的情况，选择下一步走哪个位置。这个决策过程可以认为是一个决策函数
a = f(s) ，即面对 可能的状态s ， 决策函数f 会提供一个 行动a （落子位置）。当然，我们希望 f 尽可能优秀，其决策a能够尽可能赢棋。

我们也可以将f构造为一颗决策树。从盘面初始状态开始（没有棋子），令初始状态为根节点，第一手棋有19*19=361个位置，因此根节点下面有361个子节点，第二手棋有360个可能的位置，即361个节点下，每个节点又有360个子节点......随着双方的落子，树的分枝越来越多，每个分支最终会进入叶子状态（对局结束，黑胜或白胜）。理论上可以列举所有可能的情况，做一棵完整的决策树，但实际上这个数据量大到不可能实现。因此，我们必须在有限的时间和空间之内，高效的构建一个子树，这是一个不完整但 尽量好的决策树 。

即便只是尽量好的决策，也是很困难的。因为一步棋的好坏通常不能立即判断出来，最终的评判要到下完的时候才能决定谁赢，况且即便赢了棋，也不代表其中每一步都是好的。

但是，无论怎样，必须提供某种方法让AI知道一步棋好不好，也就是要提供一些启发，于是我们可以采用蒙特卡洛树搜索方法。

刚才我们说到下一盘棋不能判定其中走法的好坏，但如果下很多次呢？比如在某个特定盘面s1情况下，进行n次对局（接着s1盘面往后走），如果统计下来黑棋赢得多，说明s1情况对黑棋比较有利。这就是蒙特卡洛方法的思想，用大量随机事件逼近真实情况。

虽然通过蒙特卡罗方法可以近似估计一个状态的好坏，但我们依然无法对太多状态进行估算。因此，我们需要有选择的集中力量对决策树中的可能更有价值的那些节点进行估算。这就需要使用蒙特卡洛树搜索，它提供了一种选择机制，使我们能够尽量选择决策树中比较有潜力的节点进行蒙特卡洛模拟，从而使得树可以尽量集中在“较好”的策略上进行“生长”。

蒙特卡洛树搜索有四个主要步骤：

从根节点R开始，选择连续的子节点向下至叶子节点L。让决策树向最优的方向扩展，这是蒙特卡洛树搜索的精要所在。也就是要选择一个尽量”有潜力“的树节点，那么怎样的节点是有潜力呢？ 一个是胜率高，另一个是被考察的次数少 。
胜率高的节点（状态）意味着最后赢棋的概率较大，当然应该多花些精力分析其后续走法。被考察次数少的节点意味着该节点（状态）尚未经过充分研究，有成为黑马的可能。

具体来说，通常用UCB1（Upper Confidence Bound，上置信区间）公式来计算一个节点的”潜力“：

wi：第 i 次移动后取胜的次数
ni：第 i 次移动后仿真的次数
c：探索参数/权衡参数，理论上等于根号2，在实际中通常可凭经验选择
t：仿真总次数，等于所有 ni 的和

看一个例子（参考 28 天自制你的 AlphaGo（五））

上图中每个节点代表一个局面。而 A/B 代表这个节点被访问 B 次，黑棋胜利了 A 次。例如一开始的根节点是 12/21，代表总共模拟了 21 次，黑棋胜利了 12 次。

图中展示了蒙特卡洛树搜索的四个步骤，我们先看左边第一个树（Selection）。假设根节点是轮到黑棋走。那么我们首先需要在 7/10、5/8、0/3 之间选择，采用上面的UCB1公式：

假设 C 比较小（比如C=1），上述3个分数为 1.25 1.245 1，于是我们选择 7/10 节点（它得分1.25是最高的）。然后接下来 7/10 下面的 2/4 和 5/6 之间选择。注意，由于现在是白棋走，需要把胜率估计倒过来。即图上黑棋胜率是 2/4 和 5/6，则白棋胜率是 (1 - 2/4) 和 (1 - 5/6)：

那么白棋应该选 2/4 节点。（图中扩展的是 5/6 节点，这不是很合理）。

在所选的叶子节点L，如果已经能判定输赢，则该轮游戏结束，否则创建一个或多个子节点并选取其中一个节点C。

看上图第2个树（Expansion），假设黑棋选择了（当前的）叶子节点 3/3，然后创建了一个子节点，初始状态 0/0。

从节点C开始，用随机策略进行游戏，直到分出输赢（获得一次准确的回报）。这一步骤又称为playout或者rollout。

虽然原则上蒙特卡洛方法是采用随机策略，不过实际中也可以采用一些“有经验”的策略，或者两者的结合。所谓有经验的策略就像一个有一定水平的棋手，ta 可以下出一些比较好的走法。我们可以在仿真的某个阶段采用棋手的走法，另外一些阶段采用随机走法。
不过总的来说，仿真需要很快速的完成，这样才能得到尽量多的仿真结果，使统计结果逼近真实的胜率。

看上图第3个树（Simulation），黑棋从 0/0 节点开始进行模拟游戏直到终局，假设黑棋输，所以得分是 0/1。

使用随机游戏的结果，更新从C到R的路径上的节点信息。

看上图第4个树（Backpropagation），从 0/0 节点开始遍历父节点，直到根节点R，这条路径上的每个节点都添加一个 0/1。

当构建了一棵蒙特卡洛树以后，需要用它来做决策时，应该选择访问量最大的节点，而不是胜率最高的节点，也不是UCB分数最高的节点。

访问量不够大的节点，即使胜率高，也不够可靠（因为模拟次数不够多）。而访问量最大的节点，通常也有一定的胜率，想想UCB公式，如果胜率不高是不会经常被选中的（访问量不会大）。所以采用访问量最大的节点，AI的表现会更加稳定。

对于围棋AI，仅使用蒙特卡洛树搜索是不够的，尤其是 AlphaGO 这样的顶级AI，更多分析请参考：
左右互搏，青出于蓝而胜于蓝？阿尔法狗原理解析

28 天自制你的 AlphaGo（五）
AlphaGo背后的力量：蒙特卡洛树搜索入门指南
蒙特卡洛树搜索（MCTS）算法
维基网络——蒙特卡洛树搜索
维基网络——蒙特卡罗方法

❽ 决策树分裂到最后，各个类别相等怎么办

决策树分类算法的一般流程如下：一开始，所有的实例均位于根节点，所有参数的取值均离散化；根据启发规则选择一个参数，根据参数取值的不同对实例集进行分割；对分割后得到的节点进行同样的启发式参数选择分割过程，如此往复，直到(a)分割得到的实例集合属于同一类；(b)参数用完，以子集中绝大多数的实例类别作为该叶节点的类别。在每一个节点进行参数选择时，由于有众多的选项，需要一个选择规则。基本的原则是使最后构造出的决策树规模最小。基于这个基本原则，我们启发式地定义规则为使分割后得到的子节点纯度最大。于是参数选择规则问题就转化为了纯度定义的问题。

❾ Xgboost原理分析

从陈天奇的PPT中进行总结，重点了解模型的构建，策略的选择和优化算法的选取。

机器学习的目标函数基本都是：

也就是损失函数和正则化项的组合。

在目标函数，偏差和方差之间做trade-off

也称分类回归树

上图可以看出来，每个叶子结点都有一个分数，那么被分到该结点的数据获得这个分数。

我们通过将多个这样的回归树集成起来，获得我们的集成算法。

上图可以看出来，对于小男孩的总体分数，就是两棵树的加和结果。

集成树的特点有：

模型假设我们有K棵树（上面提到的回归树）：

F就是我们的假设空间（函数空间，包含k个回归树）

这个模型中的参数包括：

定义目标函数，然后去优化这个目标函数

上图中，是以时间为变量，来构建回归树，评价个人随着时间t是否喜欢浪漫音乐。

将一个回归树等价到一个分段函数中，那么我们从中需要学习的“参数”也就是我们的：

上面四幅图中，给出了不同划分位置和划分高度，最后的参数模型也就是图四的效果。

那么从一棵树开始，我们可以来定义我们模型的目标函数。

我们有K棵树

目标函数是:

第一项是我们的损失函数项，第二项是我们的正则化项。

当我们讨论决策树的时候，都是启发式的从一些方面进行考虑：

我们使用决策树算法时候，就是通过信息增益来划分分支，那么这里我们可以用每一次划分的信息增益当做我们的损失函数。（划分后的信息增益-划分前的信息增益）

决策树中的剪枝，就是为了控制决策树的模型复杂度，这里我们也通过控制叶子节点的个数，来实现正则化，控制模型的复杂度。

限制树的深度，也是一定程度上限制我们的模型复杂度。

尽可能的让我们的叶子上的score平滑，使用L2正则化来控制叶子结点上的权重。

目标函数是:

那我们是如何学习这个目标函数的呢？

我们不能使用梯度下降算法来进行计算损失函数，因为我们这里的参数是回归树，而不是一些数值型数据（类比线性模型里面的参数 w）

从常数开始，然后每次加入一棵新树（一个新的函数）

其中，我们的是第t轮的训练模型，是t轮前我们的训练结果，是新加入的函数（新加入的一棵树）

那么我们怎么样决定一个新加入的树（函数），这个函数就是我们上面提到的我们的参数，即如何选择一个参数来优化我们的模型，当然从优化目标函数中找。

上述目标函数还是很复杂，于是作者引入了泰勒展开式来替换损失函数。

类比泰勒展开式的

在我们的目标函数中损失函数相当于函数

所以我们可以得到我们的目标函数带入泰勒展开之后的结果是：

这里面是我们前t-1轮的对预测和的目标的损失，这是一个常数项。因为我们优化的是第t轮，研究怎么选择第t轮需要加进去的树，所以前面的我们都可以看作是一个常量。

给目标函数对权重求偏导，得到一个能够使目标函数最小的权重，把这个权重代回到目标函数中，这个回代结果就是 求解后的最小目标函数值 。

是一个叶子结点上的每一个样本的梯度值，同理理解

从我们的损失函数，说起，看我们如何定义这个，不如这里我们以简单的为例子：

针对我们的平方差损失函数来说，就是如下式子：

其中项也就是我们常说的残差项。

从例子中理解各个参数的含义，

比如叶子结点1代表的权重（分数）是+2，叶子结点2对应的是+0.1，叶子结点3对应是-1

然后看我们的正则化项，其中T代表叶子结点的数目，从上面的例子可以很容易的计算得到我们的正则化结果。

我们定义：就是第i个数据属于第j个叶子结点。

然后我们将属于同一个叶子结点的数据放入一个group里面得到

也就是将从各个样本上的遍历，映射到了对叶子结点的遍历（叶子结点里可能包含多个样本）

重新定义G 和H ，也将其从单个样本上的遍历，映射到对叶子结点的遍历。

其中的是来评价一棵树的结构是否很好，分数越小，结构越好。

但是仍然有无数颗树可以进行选择，那么我们如何选择才能保证最优化呢？

从常数0开始，我们选择一个树加入，每一次尝试去对已有的叶子加入一个分割。

然后我们来计算分割后的结构分数（左子树+右子树）与我们不进行分割的结构分数进行做差，同时还要减去因为分割引入的结构复杂度。

也可以很好的处理非数值型特征，并且不需要将类别特征（离散的）和数值型特征（连续的）分开进行处理。

我们可以通过one-hot编码将离散的特征类别映射到数值型。

如果类别特别多，向量会非常稀疏，但是这个算法也很擅长处理稀疏的数据。

设置最大树深度，然后递归的去剪裁所有叶子节点出现负的Gain的分裂情况

更细节的问题是，我们不会每个树做到最优化，这样容易过拟合，我们赋予一个参数，来控制每次的优化（不让优化效果太好），这样留下更多的优化空间给后边的树。

分类回归树的集成算法可以用来做回归，分类，ranking等等，这取决于我们的损失函数如何定义。

（1）objective [ default=reg:linear ] 定义学习任务及相应的学习目标，可选的目标函数如下：

（2）’eval_metric’ The choices are listed below，评估指标:

（3）lambda [default=0] L2 正则的惩罚系数

（4）alpha [default=0] L1 正则的惩罚系数

（5）lambda_bias 在偏置上的L2正则。缺省值为0（在L1上没有偏置项的正则，因为L1时偏置不重要）

（6）eta [default=0.3]
为了防止过拟合，更新过程中用到的收缩步长。在每次提升计算之后，会直接获得新特征的权重。 eta通过缩减特征的权重使提升计算过程更加保守。缺省值为0.3
取值范围为：[0,1]

（7）max_depth [default=6] 数的最大深度。缺省值为6 ，取值范围为：[1,∞]

（8）min_child_weight [default=1]
孩子节点中最小的样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束。在现行回归模型中，这个参数是指建立每个模型所需要的最小样本数。该参数越大算法越保守。
取值范围为: [0,∞]

导航:首页 > 源码编译 > 决策树启发性算法

决策树启发性算法

与决策树启发性算法相关的资料