决策树是根据条件分支语句if-else产生的,决策树是一种树形结构,每一个内部节点表示是一个属性上的判断,每一个分支表示判断结果的输出,每一个叶子节点表示分类结果,本质上就是多个判断节点的树。
在使用决策树的时候会提到熵的概念
熵:熵表示混乱程度,越混乱熵值越大,越有序熵值越小,在信息论里,有着信息熵的概念。
信息熵:p(x)表示第k类样本的数量除以样本总量
信息增益:信息增益是表示数据集中某个特征X的信息使类Y的信息的不确定性减少的程度(描述不清,上图看更直观)
案例体现:
信息增益率:
基尼值以及基尼指数:
案例体现:
总结:
明天更新一下决策树的剪枝,包括预剪枝,后剪枝以及cart剪枝
标签:剪枝,--,信息熵,信息,基尼,增益,决策树 From: https://www.cnblogs.com/copyjames/p/17875913.html