首页 > 其他分享 >决策树模型(1)总体介绍

决策树模型(1)总体介绍

时间:2024-03-23 14:00:30浏览次数:33  
标签:总体 剪枝 特征 模型 样本 特征选择 划分 决策树

决策树

总体介绍

决策树模型顾名思义就是通过一条条的决策来将样本划分来从而达到分类或回归的目的。决策树模型呈树形结构,下图粗略展示了一个分类决策树

其中圆表示特征,方块表示叶子节点也是最终分类的类别,我们通过利用样本中高价值的特征(房子拥有情况,工作的拥有情况)来构建这么一个决策树,那么每当有新样本来临时就可以通过构建完成的决策树来对其进行分类。其中所有路径互斥且完备,即不存在两个相同的样本被划分到不同的类别(互斥),任意一个样本都会被划分到一个类别。
我们还可以认为决策树是定义在特征空间与类空间上的条件概率分布,即将特征空间划分成一个个互不相交的单元,这与之前所讲的KNN算法的核心思想一致。下图展示了决策树在两个特征\(x_1,x_2\)下的划分情况。

这意味着,当所有样本的两个特征满足下面的情况时
\(x_1 \leq a_1\)且\(x_2 \leq a_2\)或者\(x_1 > a_1\)且\(x_2 > a_3\)
将被划分为正类。
同时我们也可以上上面的图转换为决策树进行对照,如下图所示。

在使用决策树模型时通常包含三个步骤:特征选择、决策树生成和决策树剪枝。

决策树学习

从上面的介绍中,我们可以知道决策树是通过对特征的取值不断进行分解从而构建成树的,但是基于特征空间划分的类的条件概率模型有无穷多个,我们选择的模型不仅要对训练数据有很好的拟合更应该注重其泛化能力。总体上来说,决策的学习包括下面三个注意部分:

  • 特征选择。特征选择的目的选择具有较强分类能力的特征,如果一个特征在对所有类别的区分不大,那么这个特征可能就没有较大的意义。衡量特征好坏有信息增益、信息增益比等指标。后面的内容会一步步剖析它们。
  • 决策树的生成。当通过特征选择得到有价值的特征后,下面的目的就是通过这些特征来构建决策树,常见的算法ID3和C4.5。
  • 决策树的剪枝。最后为了避免生成的决策树过于臃肿,我们需要使用剪枝算法对决策树进行约简,使其具有更好的泛化能力。相关剪枝算法也会在后面介绍。

标签:总体,剪枝,特征,模型,样本,特征选择,划分,决策树
From: https://www.cnblogs.com/hywang1211/p/18091003

相关文章

  • 机器学习——决策树(四)后剪枝
    观前提示:这是本人决策树相关的第四篇博文,前3篇的内容如下:1、建造训练集的决策树【完成结点类编写和建树过程】2、用验证集评估模型、选出泛化较好的数据划分方式训练模型3、预剪枝读者可根据需要从上方《机器学习》专栏中查阅对应文章第四章是后剪枝的内容,用到了许多前文......
  • 关于Vue MV 设计模型
      在Vue.js中,MV(Model-View)设计模型是一个非常重要的概念,它帮助我们组织和管理应用程序中的数据、用户界面和业务逻辑。在这篇文章中,我们将探讨如何在Vue.js中设计一个优秀的MV模型。###ModelModel层代表着应用程序的数据和业务逻辑。在Vue.js中,我们通常使用Vuex......
  • 学习人工智能:Attention Is All You Need-2-Transformer模型;Attention机制;位置编码
    3.2注意力机制Attention注意力函数可以描述为将查询和一组键值对映射到输出的过程,其中查询、键、值和输出都是向量。输出被计算为值的加权和,其中每个值的权重由查询与相应键的兼容性函数计算得出。3.2.1缩放点积注意力 ScaledDot-ProductAttention我们将我们特定的......
  • AI大模型与碳足迹评估结合模式及示范案例
            AI大模型与碳足迹评估相结合,可以提供更精确、更快速的碳排放量计算,优化减排策略,并促进可持续发展目标的实现。1.背景与挑战        企业和组织面临日益增加的压力,要求他们减少运营的环境影响,尤其是减少温室气体排放。传统的碳足迹评估方法往往耗时长......
  • 模型数据-如何放入request域中
    自动放入request域中springmvc会自动把获取的model模型,放入到request域中验证代码后端获取了master对象,这时就自动的把对象传到request域中了,为了验证这个猜想,我们需要从前端的jsp中看是否可以在request中取到master。//验证自动放入request域@RequestMapping("......
  • 决策树——泰坦尼克号
    具体步骤:1、导入相关扩展包fromsklearn.model_selectionimporttrain_test_split#划分数据集fromsklearn.feature_extractionimportDictVectorizer#字典特征值提取fromsklearn.treeimportDecisionTreeClassifier#决策树fromsklearn.treeimportexpor......
  • R语言DCC-GARCH模型对上证指数、印花税收入时间序列数据联动性预测可视化|附代码数据
    全文链接:http://tecdat.cn/?p=31630最近我们被客户要求撰写关于GARCH的研究报告,包括一些图形和统计输出。普通的模型对于两个序列的波动分析一般是静态的,但是dcc-garch模型可以实现他们之间动态相关的波动分析,即序列间波动并非为一个常数,而是一个随着时间的变化而变化的系数。其......
  • Linux中的IO模型介绍
    一、IO是什么I/O(Input/Output),中文名为输入/输出,指的是一切操作程序或设备与计算机之间发生的数据传输的过程。它分为IO设备和IO接口两个部分。IO设备,就是指可以与计算机进行数据传输的硬件。最常见的I/O设备有打印机、硬盘、键盘和鼠标。从严格意义上来讲,它们中有一些只能算......
  • R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
    全文链接:https://tecdat.cn/?p=35426原文出处:拓端数据部落公众号本文利用R语言,通过逐步逻辑回归模型帮助客户分析两个实际案例:麻醉剂用量对手术病人移动的影响以及汽车购买行为预测。通过构建模型并解释结果,我们探究了各自变量对因变量的影响程度。同时,借助ROC曲线可视化分析,评......
  • MATLAB用GARCH-EVT-Copula模型VaR预测分析股票投资组合
    全文链接:http://tecdat.cn/?p=30426原文出处:拓端数据部落公众号对VaR计算方法的改进,以更好的度量开放式基金的风险。本文把基金所持股票看成是一个投资组合,引入Copula来描述多只股票间的非线性相关性,构建多元GARCH-EVT-Copula模型来度量开放式基金的风险,并与其他VaR估计方法的预......