首页 > 编程语言 >R机器学习:决策树算法的理解与实操

R机器学习:决策树算法的理解与实操

时间:2024-12-23 20:53:19浏览次数:4  
标签:剪枝 模型 增益 划分 算法 实操 节点 决策树

今天继续给大家介绍决策树算法,决策树本身是一种非常简单直观的机器学习算法,用于做分类或回归任务。它就像我们平常做决定时的过程,通过逐步排除可能的选项,最终得出结论。

A decision tree is a flowchart-like structure used to make decisions or predictions. It consists of nodes representing decisions or tests on attributes, branches representing the outcome of these decisions, and leaf nodes representing final outcomes or predictions.

一个典型的决策树的决策过程如下图:

 

从上图可以看到一个树的结构包括:

  1. 根节点(Root Node): 代表决策过程要问的第一个问题。
  2. 内部节点(Internal Nodes): 代表依据特征决策的后续过程,每一个节点根据结果有不同的分支。
  3. 分支(Branches): 代表决策的结果,通常会指向下一个节点。
  4. 叶节点(Leaf Nodes): 代表最终决策结果,叶节点不会出现分支。

可以看出来决策树至少有两个优点:一是直观易懂: 决策树的结构就像一棵树,每个节点代表一个属性测试,每条边代表一个测试结果,叶子节点代表最终的分类结果。这种结构非常符合人类的思维方式,让我们很容易理解模型是如何做出决策的。二是可解释性强: 通过观察决策树,我们可以清晰地看到哪些特征对分类结果影响最大,从而帮助我们更好地理解数据。

理解决策树

决策树有一连串的节点,所有的特征属性其实都可以用来划分支,这个时候至少有两个问题需要弄明白:选择哪些特征作为节点?如何对相应特征进行划分?

选择哪个特征作为节点的时候有一个原则就是先用对模型贡献最大的特征来划分节点,贡献的评估标准有很多:

第一个熵值Entropy:这个熵值是度量数据的不纯度的amount of uncertainty or impurity,我们记住熵值越大数据越不纯就好。那么按照熵值的标准我们希望通过节点后形成的分支数据越纯越好,对应的就是熵值越小越好。

第二个信息增益Information Gain:这个是数据划分前的熵值和通过节点划分后的平均熵值的差,刚刚说了熵值越小越好,那么这个差值应该是越大越好,也就是信息增益越大越好。

it is calculated by computing the total difference between the entropy before split and average entropy after the split of dataset based on the given attribute values.

第三个的基尼纯度Gini Impurity:

Gini Index is a metric to measure how often a randomly chosen element would be incorrectly identified.

可以用以上三个标准决定使用哪个特征以及特征使用的先后顺序,具体标准总结如图:

 

不同的模型贡献评估标准又形成了不同的算法比如,ID3算法就是用信息增益作为贡献标准: 选择信息增益最大的属性作为划分属性。C4.5算法用信息增益率,CART算法用基尼指数: CART算法采用基尼指数作为划分属性的选择标准。

那么决策树的整个划分过程又是怎么样的呢?

我们依然来看个例子:想象一下,我们想根据天气情况决定是否去打篮球。 我们可以用决策树来表示这个决策过程,步骤如下:

第一步收集数据,首先,我们收集了一些历史天气数据以及是否打篮球的,包括:

 

第二步选择根节点,假设我们是用ID3算法:

  • 信息增益最大化原则(ID3算法): 我们选择能提供最多信息、最能区分不同决策的属性作为根节点。
  • 在这个例子中, 我们计算每个属性(天气、温度、风力、是否下雨)的信息增益,假设计算结果是“是否下雨”的信息增益最大。
  • 所以, 我们将“是否下雨”作为根节点。

第三步划分数据集

  • 根据根节点的取值, 将数据集分成两个子集:下雨和不下雨。

第四步继续划分子集

  • 对于每个子集, 我们再次计算每个属性的信息增益,选择信息增益最大的属性作为划分属性。
  • 假设对于“不下雨”这个子集, “温度”的信息增益最大。
  • 那么, 我们将“不下雨”这个子集根据“温度”划分成“温度高”和“温度不高”两个子集。
  • 对于“下雨”这个子集, 由于样本太少或其他原因,我们可能直接将其作为叶子节点,即“不下篮球”。

就这么一个思考过程决策树就出来了,决策树也就相应出来了:

 

所以一个常规的树的生成总结起来就是下面四步

  1. 计算每个属性的信息增益、信息增益率或基尼指数。
  2. 选择增益最大的属性作为划分属性。
  3. 根据该属性的不同取值,将数据集划分成若干个子集。
  4. 对每个子集递归地重复上述过程,直到满足停止条件。

决策树的剪枝

大家也可以想想按照上面决策树的生成流程我一直划分一直划分下去,总是可以非常精确的,这就会产生过拟合问题,为了防止过拟合,通常需要对决策树进行剪枝。剪枝的方法主要分为预剪枝和后剪枝。

  • 预剪枝: 在树生成过程中提前停止分支生长。比如我们可以设置最大深度、设置节点包含的最小样本数、设置信息增益阈值。
  • 后剪枝: 先生成一棵完整的树,然后自底向上地剪掉一些分支。比如错误率降低剪枝 (Reduced-Error Pruning, REP) *代价复杂度剪枝 (Cost-Complexity Pruning, CCP)都属于后剪枝。

决策树实操

我们依然用iris数据集进行演示,上篇讲朴素贝叶斯的文章也是用的这个数据集,大家可以对比着看下结果。以Species作为因变量,其余变量作为自变量构建决策树代码如下:

tree_model<- ctree(Species ~ ., iris_train)
plot(tree_model)

运行代码得到决策树如图:

 

训练好的模型在验证集中的表现如下:

 

针对连续特征的回归树

刚刚讲的决策树都是针对分类结局的,决策树也可以用于连续结局,叫做回归树。

比如我现在有数据集,结局是年薪(连续变量),两个预测变量,一个是工作年限,一个是工作经验HmRun,通过数据可以形成一个如下图所示的决策树:

 

那么对于一个工作年限为8年,工作经验为10的个体来说,模型预测其年薪结果就为577.6

 

上面过程也有两个问题,一个是特征分割的条件标准,另一个问题是叶节点的值是如何来的。

选择最佳划分特征和划分点: 对于每个特征,遍历所有可能的划分点,计算划分后的子节点的均方误差(或其他指标),选择使均方误差最小的特征和划分点作为特征以及对应特征的划分点,回归树的叶节点输出的是该节点包含的所有训练样本目标值的平均值或中位数。

When the dependent variable is continuous, its value can be predicted using regression trees. These predict using the average values of ȳ within each subset

看一个回归树的例子,我现在有数据如下:

 

我想用数据集中的特征来预测medv: 房价中位数,做一个回归树,代码如下:

fit <- rpart(medv ~ ., data = Boston, method = "anova")
rpart.plot(fit, type = 4, extra = 101)

运行代码后输出结果如下:

 

 

这个是没有剪枝前的模型,我们看下模型的效果:

predictions <- predict(fit, newdata = Boston)
mse <- mean((predictions - Boston$medv)^2)
print(mse)

运行后可以得到模型的mse是16.24467,我们对模型进行剪枝过后再看变成下图:

 

相应的模型的mse也变成了10.3362。说明剪枝确实提高了拟合效果。

通过上面的叙述相信大家对剪枝带来的直观效果有印象了,继续带大家捋捋这个剪枝到底怎么减的。

Pruning剪枝实操

如果回归决策树的分支过多,容易造成过拟合。剪枝主要分为两种方法:预剪枝和后剪枝。

1. 预剪枝(Pre-Pruning):

预剪枝是在树的构建过程中进行的。它通过提前停止树的生长来达到剪枝的目的。具体方法包括:

  • 限制树的深度(max_depth): 设置树的最大深度,当树达到指定深度时就停止生长。例如,设置max_depth=3意味着树最多有3层。
  • 限制节点包含的最小样本数(min_samples_split): 规定一个节点如果要分裂,至少需要包含多少个样本。如果一个节点包含的样本数少于这个阈值,则该节点不再分裂。
  • 限制叶节点包含的最小样本数(min_samples_leaf): 规定一个叶节点至少需要包含多少个样本。如果一个节点分裂后,某个子节点包含的样本数少于这个阈值,则该分裂不进行。
  • 限制叶节点的最小权重总和(min_weight_fraction_leaf): 与min_samples_leaf类似,但使用样本权重的总和而不是样本数。
  • 设定分裂的阈值(如信息增益、基尼指数的阈值): 当分裂带来的增益小于设定的阈值时,停止分裂。

举例说明预剪枝:假设我们设置min_samples_split=10。这意味着只有当一个节点包含至少10个样本时,它才会被考虑分裂。如果一个节点只包含8个样本,即使它可以被分裂成更“纯”的子节点,也不会进行分裂,从而避免了树的过度生长。

2. 后剪枝(Post-Pruning):

后剪枝是先让树完整地生长,然后再自底向上地对树进行修剪。它通过删除一些子树或将子树替换为叶节点来简化树的结构。常用的后剪枝方法包括:

  • 降低错误剪枝(Reduced Error Pruning): 将数据集分成训练集和验证集。首先使用训练集构建完整的树,然后从底向上遍历每个非叶节点,尝试将其子树替换为叶节点。如果替换后在验证集上的错误率降低或保持不变,则进行替换;否则,不进行替换。
  • 代价复杂度剪枝(Cost-Complexity Pruning): 为树的每个非叶节点定义一个代价复杂度因子(α),它衡量了剪枝带来的误差减少量与剪掉的叶节点数量之间的权衡。通过调整α的值,可以得到一系列不同复杂度的树。然后使用交叉验证等方法选择最佳的α值,并根据该值对树进行剪枝。

举例说明后剪枝:假设我们构建了一棵完整的树,其中一个非叶节点A有两个子节点B和C。我们尝试将节点A的子树(包括B和C)替换为一个叶节点,该叶节点的值为B和C包含的所有样本目标值的平均值。如果替换后在验证集上的均方误差降低了,则进行替换;否则,保留原来的子树。

故决策树剪枝的主要思想是防止模型在训练集中出现过拟合现象,使模型在测试集中的表现更好。预剪枝的逻辑我们其实很清楚了,现在我们以代价复杂度剪枝为例子看看后剪枝到底是如何操作的:

首先我们得有一个代价函数,如下图:

 

代价函数通常由两部分组成: 误差项SSR: 反映模型在训练集上的预测误差。 复杂度项: 反映决策树的复杂度,通常用叶子节点的数量来表示。通过调整这两项的权重,α是调节参数,可以控制模型的拟合程度和复杂度。

剪枝过程:

  1. 从底向上遍历决策树的内部节点。
  2. 对于每个内部节点,计算剪枝前后的代价。
  3. 如果剪枝后代价降低,则进行剪枝,将该节点及其子树替换为一个叶子节点。
  4. 叶子节点的类别通常由该子树中样本最多的类别决定。

通常我们会使用交叉验证法求解最佳α取值,α约小决策树越长。不同的α取值将影响我们选择哪种亚决策树的决策。

交叉验证剪枝实操

我们依然是用鸢尾花数据集进行展示如何用交叉验证得到最优cp(代价复杂度因子(α))值从而完成剪枝提高模型的准确度。

下面的代码做了决策树模型,绘制cp值与交叉验证误差的关系图。并展示了剪枝前的模型:

fit <- rpart(Species ~ ., data = iris)
plotcp(fit)
rpart.plot(fit, type = 4, extra = 101)

代码运行结果如下:

 

 

 

 

接下来进行剪枝,并输出剪枝后的模型评估结果:

# 使用1-SE规则选择cp值
bestcp <- fit$cptable[which.min(fit$cptable[,"xerror"] + fit$cptable[,"xstd"]), "CP"]
# 剪枝
fit.pruned <- prune(fit, cp = bestcp)
predicted.classes <- fit.pruned %>% predict(iris,type = "class")
tab_tree <- table(predicted.classes, iris$Species)
caret::confusionMatrix(tab_tree)  

运行代码输出结果如下:

 

可以看到模型整体的正确性变成了96,这可确实比前面的算法提升了嘞,之前可是只有93哦。

标签:剪枝,模型,增益,划分,算法,实操,节点,决策树
From: https://www.cnblogs.com/Codewar/p/18625008

相关文章

  • node.js基于协同过滤算法的居民健康生活引导系统的设计与实现程序+论文 可用于毕业设
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容一、选题背景关于居民健康生活引导的研究,现有研究主要以健康生活方式的推广、健康意识的提升等宏观层面为主。在健康引导的技术实现方面,多集中于简单的信息推送系统,......
  • 数据结构与算法 - 排序 #直接插入排序 #希尔排序 #直接选择排序 #堆排序 #冒泡排序 #
    文章目录前言一、插入排序(一)、直接插入排序1、思路2、参考代码:3、复杂度计算:(二)、希尔排序1、思路2、参考代码:3、时间复杂度计算:二、选择排序(一)、直接选择排序1、思路2、参考代码3、时间复杂度计算(二)、堆排序三、交换排序(一)、冒泡排序(二)、快速......
  • c语言期末复习----排序算法
    一、冒泡排序 思想:两两相邻元素比较,不满足顺序就交换,满足顺序就找下一对升序代码:voidBubble_sort(int*a,intlen){//每一轮将最大的排到最后,n个元素需要n-1轮 for(inti=0;i<len-1;i++) {//i轮后i个已经排好就不用再两两比较了 for(intj=0;j<......
  • Java的垃圾回收机制介绍、工作原理、算法及分析调优
    Java的垃圾回收(GarbageCollection,GC)是Java虚拟机(JVM)提供的一种自动内存管理机制,用于自动回收不再使用的内存空间,以避免内存泄露和内存溢出等问题。下面主要介绍Java垃圾回收的基本概念、工作原理、算法等。一、JVM内存结构在了解垃圾回收之前,我们需要先了解JVM的内存结构。J......
  • 【算法】【优选算法】宽搜(BFS)中队列的使用
    目录一、429.N叉树的层序遍历二、103.⼆叉树的锯⻮形层序遍历三、662.⼆叉树最⼤宽度四、515.在每个树⾏中找最⼤值一、429.N叉树的层序遍历题目链接:429.N叉树的层序遍历题目描述:题目解析:层序遍历N叉树,每一层的节点是由null分开每一层节点的val值放入一个数......
  • 基于YOLO8水稻病虫害检测系统 水稻病虫害检测系统 YOLO目标检测算法 识别图片与视频支
    基于YOLO8的水稻病虫害检测系统水稻病虫害检测系统YOLO目标检测算法技术栈:yolo8+streamlit[1]可以识别图片与视频,也支持本地摄像头识别,图片识别支持统计检测到的物体数量,并返回到前端页面显示[2]可以通过UI界面动态调节模型置信度,可以动态选择模型权重[3]系统目录下......
  • 优化算法
    优化算法是一类旨在寻找给定问题最优解的算法,广泛应用于机器学习、金融、工程、物流等领域。根据不同的分类标准,优化算法可以分为多种类型。以下是一些常见的优化算法:一、按数学特性分类线性规划算法主要用于求解目标函数和约束条件均为线性的优化问题。常见的线性规划算法......
  • 线性规划和非线性规划算法
    线性规划和非线性规划是数学规划中的两个重要分支,它们在算法和应用上有着不同的特点。线性规划算法线性规划问题主要关注目标函数和约束条件均为线性的情况。其标准形式可以表示为:目标函数:最大化(或最小化)一个线性函数,即z=c1x1+c2x2+...+cnxn约束条件:一组线性不等式或等式,如a1......
  • 【超详细实操内容】django的身份验证系统之限制用户访问的三种方式
    目录1、使用request.user.is_authenticated属性2、装饰器login_required3、LoginRequiredMixin类通常情况下,网站都会对用户限制访问,例如,未登录的用户不可访问用户中心页面。Django框架中使用request.user.isauthenticated属性、装饰器loginrequired和LoginRequiredMixin类......
  • Dijkstra单源最短路堆优化算法
    Dijkstra单源最短路堆优化算法使用基于堆的优先队列,我们可以在进行松弛操作前对找边进行优化操作时间复杂度为\(O(m\logm)\),其中\(m\)为边的数量,优先队列找边的时间复杂度为\(O(\logm)\)优先队列默认为一个大根堆,即堆顶的元素的优先级最高,体现在某个变量的值上每次从队......