⑴ 决策树算法--CART分类树算法
决策树算法中,CART分类回归树算法的独特之处在于,它能够同时处理分类和回归问题,区别于ID3和C4.5算法只能处理分类问题。分类树的输出是对样本的类别分类,而回归树的输出则是一个实数值。
CART算法在选择特征时,采用了基尼系数来衡量特征的优劣,这与ID3和C4.5算法采用的信息增益(率)相反。基尼系数越小,表示数据集的纯度越高,特征的质量越好。在构建CART分类树时,算法基于基尼系数来决定如何分割数据集,形成二叉树结构。
CART算法处理离散特征与连续特征的方式也有所不同。对于离散特征,CART会进行不断的二分划分,同一特征可能参与多个节点的构建。而对于连续特征,CART则会将其离散化,然后基于基尼系数选择最优的划分点。
在CART算法中,通过构建决策树对数据进行预测时,如果测试样本落在某个叶子节点,其预测结果即为该叶子节点上训练样本类别出现概率最大的结果。
为了避免过度拟合,CART算法通过剪枝技术对生成的决策树进行优化。剪枝分为前剪枝和后剪枝,其中后剪枝是在构建完决策树后,通过计算非叶子节点的表面误差率增益值,找出最优的节点进行剪枝,以减少模型的复杂度,提高泛化能力。
总结而言,CART分类回归树算法通过采用基尼系数作为特征选择的依据,以及对离散和连续特征的不同处理方式,使得它成为一种既适用于分类问题,又适用于回归问题的强大工具。此外,通过剪枝技术,CART能够有效避免模型过拟合,提升预测性能。
相关资源包括书籍《机器学习实战》、周志华的西瓜书《机器学习》、以及关于CART算法和相关技术的参考链接。
⑵ 决策树有哪些分类
决策树主要有以下三种分类:
ID3决策树:
C4.5决策树:
CART决策树:
每一种决策树算法都有其特定的优势和适用场景,理解它们的分类和原理对于选择最适合的数据分析工具至关重要。
⑶ 基尼系数 是如何计算出来的
计算方法:
假设一个国家有100个人,计算这个国家的基尼系数分为下面四步:1.将这100人按收入从低往高排列,第一名是收入最低的,第一百名是收入最高的;2.画一个边长为一的正方形,并将左下角与右上角的对角线相连;3.依次计算前十名,前二十名,前三十名……一直到前九十名所拥有的收入占整个100人的收入的比值;4.以正方形的左下角为原点,用水平边标记累计人口,垂直边标记累积的收入比,将在上面计算出的累计收入比值,在正方形中标出。然后,将这些点同原点以及正方形的右上角连接,就可以得到一条曲线。这条曲线被称为劳伦斯曲线(Lorenze Cruve)。基尼系数就是对角线与劳伦斯曲线之间的面积,与对角线以下的三角形的面积之比。如果收入是均匀分布的,劳伦斯曲线就和对角线重合,基尼系数就是零,如果收入是极端不平均的,比如前99人收入为零,劳伦斯曲线就和正方形的右边线重合,基尼系数就是1。