1 CART算法
CART全称叫Classification and Regression Tree,即分类与回归树。CART假设决策树是二叉树,内部结点特征的取值只有“是”和“否”,左分支是取值为“是”的分支,有分支则相反。这样的决策树等价于递归地二分每个特征。
CART分类回归树可以做分类或者回归。如果待预测结果是离散型数据,则CART生成分类决策树;如果待预测结果是连续型数据,则CART生成回归决策树。数据对象的属性特征为离散型或连续型,并不是区别分类树与回归树的标准。CART作为分类决策树时,待预测样本落至某一叶子节点,则输出该叶子节点中所有样本所属类别最多的那一类(即叶子节点中的样本可能不是属于同一个类别,则多数为主);作为回归决策树时,待预测样本落至某一叶子节点,则输出该叶子节点中所有样本的均值。
1.1 CART分类树
CART分类树使用基尼指数作为节点划分依据,我们通过例题分析CART分类树实现过程。
1.1.1 例题
下表5-1为拖欠贷款人员训练样本数据集,使用CART算法基于该表数据构造决策树模型,并使用5-2表中测试样本集确定剪枝后的最优子树。
编号 | 房产状况 | 婚姻情况 | 年收(千元) | 拖欠贷款 |
1 | 是 | 单身 | 125 | 否 |
2 | 否 | 已婚 | 100 | 否 |
3 | 否 | 单身 | 70 | 否 |
4 | 是 | 已婚 | 120 | 否 |
5 | 否 | 高异 | 95 | 是 |
6 | 否 | 已婚 | 60 | 否 |
7 | 是 | 高异 | 220 | 否 |
8 | 否 | 单身 | 85 | 是 |
9 | 否 | 已婚 | 75 | 否 |
10 | 否 | 单身 | 90 | 是 |
编号 | 房产状况 | 婚姻情况 | 年收入(千元) | 拖欠贷款 |
1 | 否 | 已婚 | 225 | 否 |
2 | 否 | 已婚 | 50 | 是 |
3 | 否 | 单身 | 89 | 是 |
4 | 是 | 已婚 | 320 | 否 |
5 | 是 | 离异 | 150 | 是 |
6 | 否 | 离异 | 70 | 否 |
【解】对于房产状况特征,根据是否有房划分数据集:
标签:10,Gini,划分,CART,算法,已婚,决策树 From: https://www.cnblogs.com/opencv2015/p/16812774.html