首页 > 其他分享 >机器学习——决策树模型

机器学习——决策树模型

时间:2023-09-17 23:06:00浏览次数:42  
标签:剪枝 机器 特征 模型 算法 构建 决策树

谈起过年回家的年轻人最怕什么、最烦什么?无外乎就是面对那些七大姑、八大姨的催结婚、催生子、催相亲、催买房……说起这些亲戚们是如何判断催什么,不得不让我们想起经典的决策树模型。


决策树是一个用于分类和回归的机器学习模型。通过对输入对象数据特征进行一系列条件划分构建一个树状结构的决策模型。每个内部节点表示一个特征或属性,每个分支代表该特征的一个可能取值,而每个叶节点代表一个类别标签或数值输出。我们的亲戚就是通过条件分类,从而判断出“催什么”。

决策树的构建过程通常从根节点开始,根据某个特征的取值将数据集分成不同的子集。然后对每个子集递归地应用相同的步骤,直到满足某个停止条件,例如达到最大深度、子集样本数量小于某个阈值等。在构建过程中,可以使用不同的划分准则来选择最优的特征和划分点,例如信息增益、基尼指数等。

决策树的优点包括可解释性强、处理离散和连续特征都较好、对缺失值和异常值有较好的容错能力。然而,决策树容易过拟合、对于某些问题可能存在局部最优解,并且对于特征之间的关联关系不够敏感。

为了减少过拟合,可以采用剪枝操作,即通过降低模型复杂度来提高泛化能力。常见的剪枝方法有预剪枝和后剪枝。预剪枝在构建过程中进行模型评估,若划分不再有效则停止划分;后剪枝则先构建完整的决策树,然后通过剪去子树并比较泛化能力来判断是否进行剪枝操作。

决策树模型经典的算法一般认为包含:ID3算法、C4.5算法、CART算法。

ID3算法:核心是在决策树各个节点上应用信息增益准则选择特征,递归地构建决策树。

C4.5算法:在生成决策树的过程中,改用信息增益比来选择特征。简单说是通过输入训练数据集、特征集A、阈值,从而输出:决策树T。

CART算法:由特征选择既可用于分类也可用于回归,通过构建树、修剪树、评估树来构建二叉树。当终结点是连续变量时,该树为回归树;当终结点是分类变量,该树为分类树。



标签:剪枝,机器,特征,模型,算法,构建,决策树
From: https://blog.51cto.com/u_16252215/7504115

相关文章

  • 软件能力成熟度模型
    软件能力成熟度模型(SoftwareCapabilityMaturityModel,简称CMM或SW-CMM)是一种用于评估和改进软件开发组织能力的框架。它最初由美国卡内基梅隆大学软件工程研究所(SEI)开发,并于1987年发布。软件能力成熟度模型定义了一系列阶段,描述了软件开发组织在软件过程能力方面的成熟度水平。这......
  • Linux五种IO模型
    Linux五种IO模型转载:http://blog.csdn.net/jay900323/article/details/18141217   Linux五种IO模型性能分析 目录(?)[-]概念理解Linux下的五种IO模型阻塞IO模型非阻塞IO模型 IO复用模型信号驱动IO异步IO模型个IO模型的比较selectpollepoll简介1.概念......
  • 生产者与消费者模型
    #include<stdio.h>#include<stdlib.h>#include<unistd.h>#include<string.h>#include<pthread.h>#include<semaphore.h>#defineBUFF_MAX10#defineSC_NUM2#defineXF_MAX3intbuff[BUFF_MAX];intin=0;intout......
  • Java内存模型
    Java内存模型(JavaMemoryModel,JMM)定义了Java程序在多线程环境下如何与主内存和工作内存交互的规范。JMM规定了变量的可见性、原子性和顺序性等方面的规则,保证了多线程程序的正确性和可靠性。Java内存模型包括以下几个核心概念:主内存(MainMemory):主内存是Java虚拟机中线程共享......
  • Llama2-Chinese项目:2.2-大语言模型词表扩充
      因为原生LLaMA对中文的支持很弱,一个中文汉子往往被切分成多个token,因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型,然后将中文tokenizer与LLaMA原生tokenizer进行合并,最终得到一个扩展后的tokenizer模型。国内Chinese-LLaMA-Alpaca开源项目......
  • R语言决策树、随机森林、逻辑回归临床决策分析NIPPV疗效和交叉验证|附代码数据
    全文链接:http://tecdat.cn/?p=32295原文出处:拓端数据部落公众号临床决策(clinical decision making)是医务人员在临床实践过程中,根据国内外医学科研的最新进展,不断提出新方案,与传统方案进行比较后,取其最优者付诸实施,从而提高疾病诊治水平的过程。在临床医疗实践中,许多事件......
  • 5.进程线程模型你知道多少?
    5.进程线程模型你知道多少?1.进程进程创建与结束背景知识:进程有两种创建方式,一种是操作系统创建的一种是父进程创建的。从计算机启动到终端执行程序的过程为:0号进程->1号内核进程->1号用户进程(init进程)->getty进程->shell进程->命令行执行进程。所以......
  • 深度学习模型压缩方法概述
    一,模型压缩技术概述知识蒸馏算法整体的框架图如图下所示。图片来源https://intellabs.github.io/distiller/knowledge_distillation.html。三,轻量级模型架构四,模型剪枝模型剪枝(modelpruning)也叫模型稀疏化(modelsparsity)。深度学习模型中一般存在着大量冗余的参数,将权重矩阵中......
  • 相机成像模型
    详细推导了相机成像模型。小孔成像小孔成像是初中物理知识,如图所示,蜡烛发出的光线经过小孔投射在光屏上呈现出倒立的实像。以上成像过程涉及三个重要对象,即物点(蜡烛本身)、光心(小孔)、像点(光屏上的亮点),三者连起来的直线叫做光路。小孔成像是理想条件下的相机成像模型。......
  • 《安富莱嵌入式周报》第308期:开源带软硬件安全认证的PLC设计,开源功率计,可靠PID实现,PR2
     视频版:https://www.bilibili.com/video/BV1F24y157QE1、ST发布安全认证版PLC设计套件https://www.st.com/en/evaluation-tools/steval-silplc01.html含原理图(新的手册里面把原理图撤掉了):steval-silplc01+(2).pdf(502.71KB)硬件方面的安全认证正进行中,满足SIL2等级。随机故障......