第4章：决策树

第4章：决策树

时间：2023-02-18 17:57:13浏览次数：33

标签：frac 样本增益划分决策树属性

划分选择

决策树中，最关键的是判断选择一个什么样的标准来划分样本来区分正负样本。也就是说我们希望划分后的样本尽量一致。下面将介绍如何描述一个样本集合中样本尽量一致的量化概念。

信息增益

信息熵：假设样本集合D中第k类元素所占比例为\(p_k\)，则D的信息熵为：

\[Ent(D)=-\sum_{k=1}^m{p_klog_2{p_k}} \]

当\(Ent(D)\)越小，则表示D越一致。

信息增益

信息增益：假设离散属性a有v中不同的取值\(\{a^1, a^2, ..,a^v\}\), 若使用a来对样本集D进行划分，则会产生v个分支。其中第v个分支包含了D中所有在属性a上取值为\(a^v\)的样本，记作\(D^v\)。则信息增益为：

\[Gain(D, a) = Ent(D)-\sum_{v=1}^V{\frac{|D|^v}{|D|}Ent(D^v)} \]

当信息增益越大，则说明使用a属性划分获得的纯度提升越大。

增益率

实际上，信息增益对属性可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不良影响。就提出了增益率。

增益率：

\[Gain_ratio(D, a)=\frac{Gain(D, a)}{IV(a)}, \ \ IV(a)=-\sum_{v=1}^{V}{\frac{|D^v|}{D}log_2{\frac{|D^v|}{|D|}}} \]

其中\(IV(a)\)是a的固有属性，当属性a的取值数量越大，则\(IV(a)\)的值也大，则\(IV(a)\)起着归一化的作用。同时，当属性a的取值数量少，则\(IV(a)\)就很小，则对其有放大作用。则说明增益率对属性a的取值数量少的属性有偏好作用。

基尼系数

假如数据集D中随机抽样两个样本，其类别标记不一致的概率，如果概率越小，则说明数据集D的纯度越高。这就是基尼系数的大概思想。

基尼系数：

\[Gini(D) = \sum_{k=1}^{|Y|}\sum_{k^{'}\neq k}{p_k * p_{k^{'}}}=1-\sum_{k=1}^{|Y|}p^2_{k} \]

举一个简单的例子，一个样本数量为150的样本集合，样本种类为3，其中每种样本数量为50。则基尼系数计算如下:

\[p_i=\frac{50}{150}=\frac{1}{3}, i \in \{1, 2, 3\}\\ Gini(D)=1-\sum_{k=1}^{|Y|}p_{k}^2=1-3*(\frac{1}{3})^2=0.666 \]

若样本按照属性a进行划分，则属性a的基尼系数为：

\[Gini\_index(D, a)=\sum_{v=1}^{V}{\frac{|D^v|}{|D|}Gini(D^v)} \]

在属性选择时，我们只需要选择基尼系数最小的属性，按照这个思路来进行划分。

决策树的生成流程

上面介绍了划分选择，划分选择解决了选择哪一个属性进行划分后让整体的样本集合变得更加纯洁。那么决策树的构造如图：

决策树主要是构造一个递归树的过程，如果了解地归树，就很容易理解这个过程。

剪枝处理

剪枝的基本策略有预剪枝和后剪枝。

预剪枝：指在决策树生成的过程中，对每个节点在划分前后进行评估，若当前节点的划分不能解决树泛化性能提升时，就停止划分将该节点为叶子节点。

后剪枝：先从数据集生成一个完整的决策树，然后使用验证集对每个分支节点计算泛化性能，如果对某个分支节点替换为叶子节点，泛化性能提高了，则将其替换为叶子节点。

连续和缺失值

上面的内容主要是样本的属性都为离散值的决策树，在实际任务中样本的属性可以是连续值。我们只需要对连续属性进行离散化即可。

二分法

给定样本集D和连续属性a，假定a在D中出现了n个不同的取值，对属性值进行大小排序，然后下去选取t为划分标准，则将样本集D划分为\(D_{-}=\{b_i| b_i=0, if\ a_i < t\}, D_{+}=\{b_i| b_i=1, if\ a_i \leq t\}\)则将连续属性a转化为离散属性b

区间法

给定样本集D和连续属性a，其中令k划分区间的数量，则将样本集合D划分为\(D_i=\{b_i|b_i=\left \lfloor \frac{a_i-min({a_0, a_1, ..,a_n})}{k} \right \rfloor \}\)

标签：frac,样本,增益,划分,决策树,属性
From： https://www.cnblogs.com/ALINGMAOMAO/p/17133182.html

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测|附代码数据
原文链接：http://tecdat.cn/?p=17950 最近我们被客户要求撰写关于的研究报告，包括一些图形和统计输出。在本文中，我们使用了逻辑回归、决策树和随机森林模型来对信用数......
机器学习-决策树
目录前言关键概念实现流程决策树优缺点优点：缺点：典型的决策树算法代码前言决策树是一种常用的机器学习算法，用于分类和回归问题。其主要思想是根据已知数据构建一棵树，通过......
数据分享|R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
全文链接：http://tecdat.cn/?p=22262最近我们被客户要求撰写关于心脏病数据的研究报告，包括一些图形和统计输出。在讨论分类时，我们经常分析二维数据（一个自变量，一个因变量）......
R语言Apriori关联规则、kmeans聚类、决策树挖掘研究京东商城网络购物用户行为数据可视
全文链接：http://tecdat.cn/?p=30360最近我们被客户要求撰写关于网络购物的研究报告，包括一些图形和统计输出。随着网络的迅速发展，依托于网络的购物作为一种新型的消费方式......
R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集
原文链接：http://tecdat.cn/?p=23344最近我们被客户要求撰写关于信用卡违约的研究报告，包括一些图形和统计输出。本文中我们介绍了决策树和随机森林的概念，并在R语言中用逻......
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN（K-最近邻居）分类分析银行拉新活动挖
原文链接：http://tecdat.cn/?p=23518最近我们被客户要求撰写关于银行拉新活动的研究报告，包括一些图形和统计输出。项目背景：银行的主要盈利业务靠的是贷款，这些客户中的大多......
数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病|附代码
全文链接：http://tecdat.cn/?p=23061最近我们被客户要求撰写关于预测心脏病的研究报告，包括一些图形和统计输出。这个数据集可以追溯到1988年，由四个数据库组成。克利夫兰、......
使用graphviz图形化展示路径（决策树用到此库）
问题：当出现错误graphviz.backend.execute.ExecutableNotFound:failedtoexecuteWindowsPath('dot'),makesuretheGraphvizexecutablesareonyoursystems'PATH......
机器学习——决策树
决策树原理决策树的一个重要任务是获取数据中所蕴含的知识信息，因此决策树可以使用不熟悉的数据集合，并从中提取出一系列规则，在这些机器根据数据集创建规则时，就是机器学习的......
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SV
全文下载链接：http://tecdat.cn/?p=26219最近我们被客户要求撰写关于银行机器学习的研究报告，包括一些图形和统计输出。该数据与银行机构的直接营销活动相关，营销活动基于电......

划分选择

信息增益

信息增益

增益率

基尼系数

决策树的生成流程

剪枝处理

连续和缺失值

相关文章

赞助商

阅读排行