首页 > 其他分享 >吴恩达机器学习-第二课-第四周

吴恩达机器学习-第二课-第四周

时间:2024-04-23 22:33:20浏览次数:30  
标签:特征值 结点 机器 第二课 示例 特征 吴恩达 算法 决策树

吴恩达机器学习

学习视频参考b站:吴恩达机器学习
本文是参照视频学习的随手笔记,便于后续回顾

决策树

决策树模型(Decision Tree Model)

猫分类示例
image
通过决策树模型判断是否为猫
一些术语:根结点,决策节点(包括根结点),叶子结点
image
决策树算法是在所有的决策树模型中选一个效果很好的
image

学习过程(Decision Tree Learning)

步骤&决策
步骤1.决定根结点用什么特征
步骤2.决定什么特征放在左节点
步骤3.决定什么特征放在右结点
image
image
image
决策1.如何选择特征来分开各个结点
提高纯度/降低纯度(想到什么子集尽量靠近猫或狗)
通过下面介绍熵(下一个小标题),来估计杂质和减少杂质,以提高纯度选择特征作为节点
image
决策2.什么时候停止分类
①当一个节点100%是一类
②当再分一个结点的时候达到树的最大高度
③当纯度提高分数低于阈值
④当例子数量在一个结点低于阈值
image

纯度估计(measuring purity

熵(Entropy)

根据不同的P1寻找对应的熵值(熵值越高越不纯)
image
熵函数H()定义
0log(0)定义为0
image

选择拆分结点(使用熵)

信息增益=根结点熵值-加权平均左右子树的两个熵
信息增益最大值较好
image
image

整合

决策树学习的步骤
if(未达到四个判断结束条件之一){
1.所有例子从根结点开始
2.计算所有可能的特征信息增益,选择最高的
3.通过特征值划分数据集,分为左右分支
}
image
递归算法,根结点有10个示例,当计算左右结点时是5个示例
image

使用特征值分类的one-hot编码(using one-hot encoding of categorical features-解决多值问题

image
通过把Ear shape特征分为三个特征:Pointy ears、Floopy ears、Oval ears,1和0表示有无
这样每个特征值都只有两个值了
image
one-hot encoding
image
可以把其他特征值的值也用1、0表示,这样就有一串特征值输入的01串
image

连续特征值的值

增加了一个动物体重的特征,如何分割权重的特征
image
如果设置以8磅为分界线,那么就将数据集分为两个,左边两只猫,右边三只猫五只狗
熵值计算如图(两只猫是2/10)
如果以9磅、13磅等等为分界线呢?
如果有10个示例,应该测9个阈值的信息增益,最后选择信息增益大的
image

回归树(Regression Trees)

把决策树概括为回归算法,这样就可以预测数字
image
通过计算该分类下所有动物体重的方差,来作为分类参数(类似P1)
image
计算信息增益,选择最大的较好
image
接下来的步骤和决策树类似,分别决定左右分支结点的分隔特征

使用多个决策树

将是个样例中的一只猫替换成一只狗,决策树就会发生很大变化,根结点特征从耳朵形状变成有没有胡须,这就导致了算法没有健壮性
image
因此要构建决策树集合
同一个样例通过每个集合给的不同反馈,投票(多的为结果),得到最终结果
image

有放回抽样(samping with replacement)

每次取一个token后都放回,这样就可以取到相同的token0
image
例如将是个猫狗放入黑盒子里,每次抽取一个,抽完后放回,抽10次
虽然抽10次可能抽不到全部的样例,但这样构建了一个新的数据集
image

随机森林算法(Random forest algorithm)

用替换生成的数据集来生成决策树,然后重复这个操作,得到多个决策树
预测时,让示例经过所有决策树预测,经投票后,多数的为最终结果
循环次数B不要太大,一般小于100
image
对于上面的算法,很多生成的决策树都比较相似或相同,因此下面提出了算法改进
在每一个结点,将要选用特征值分解数据集时,选择一个随机子集,允许算法从这个子集中选择特征值
image

XGBoost增强决策树

在一个决策树生成后,下一个生成树取数据集的概率不是相等的,而是提高上一个生成树没能选到的示例的概率
这样像是在集中注意学习改正上一个生成树的错误,生成更好的决策树
像是下图没打钩的三个示例有更高的可能被选中,将注意力集中在没被选中的样例上
对于XGBoot需要的替换数据集并不需要太多
image
XGBoot实现起来很麻烦,很多人都调库
image

决策树 VS. 神经网络

决策树:
适合使用决策树:
特征明显,结构化的数据
不适合使用决策树:
无结构化的(像是图像,音频,文本)
决策树优点是很高效
image
小型决策树人类容易解释,但决策树大起来,就不好观察每个结点如何分类了
一般都用XGBoot决策树,有个缺点是比单个决策树更昂贵
神经网络
非结构和结构化数据都适合使用神经网络
神经网络的缺点是慢,需要大量计算训练
神经网络的优点是可以和迁移学习一起使用,建立一个更强大的机器学习系统(多个模型),使用神经网络更容易
多个神经网路可以用梯度下降训练,决策树一次只生成一个
image

Summary

本周主要学习以下内容
1.决策树模型,创建决策树的步骤通过信息增益选择结点特征值
2.解决多值问题的one-hot编码,如何分割带权重的特征值,回归树
3.使用多个决策树,有放回抽样,随机森林算法XGBoot增强决策树
4.决策树与神经网络的比较

标签:特征值,结点,机器,第二课,示例,特征,吴恩达,算法,决策树
From: https://www.cnblogs.com/Mmbhcyt/p/18151753

相关文章

  • 机器学习测试
    软件体系结构课堂测试答题纸正向传播的功能:输入计算预测值原理:输入数据到达网络,通过每一层经过加权和激活函数处理,最终到达输出层,生成最终的预测值。反向传播的功能:由损失函数反向求导,计算所有节点偏导数,不断更新参数,最终得到满意的结果,得到优化。原理:反向传播,计算每一层的......
  • Meta 向第三方开放 MR 操作系统;黄仁勋:人形机器人成本可能比人们预期要低得多丨 RTE 开
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(RealTimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点......
  • CAE实证Vol.14:超大内存机器,让你的HFSS电磁仿真解放天性
     HFSS(HighFrequencyStructureSimulator)是世界上第一款商业化的3D电磁仿真软件。由Ansoft公司在1990年开发并发布第一个版本。2008年,Ansys收购了Ansoft,继续开发HFSS等电子与电磁仿真产品,目标是解决整个工业体系中机械与电气领域的持续融合问题。现在的HFSS,已经成为天线、......
  • 机器学习教程 一-不懂这些线性代数知识 别说你是搞机器学习的
    机器学习教程一-不懂这些线性代数知识别说你是搞机器学习的 原文:http://www.shareditor.com/blogshow/?blogId=1数学是计算机技术的基础,线性代数是机器学习和深度学习的基础,了解数据知识最好的方法我觉得是理解概念,数学不只是上学时用来考试的,也是工作中必不可少的......
  • Mac 通过 SMB 协议使用 Ubuntu 做时间机器备份盘
    设置SMB服务首先在Ubuntu中配置SMB,可以参考Ubuntu设置SMB服务。创建APFS磁盘映像我们在Ubuntu上创建出的SMB共享文件夹可以用来存放文件,但是不能直接用来存放时间机器备份。因为时间机器是基于APFS文件系统的,而我们的Linux使用的是Ext4文件系统。解决方......
  • 智元机器人 —— 人形机器人公司 —— 招聘信息
    网址:https://www.liepin.com/company-jobs/13530971/具体地址:https://www.liepin.com/job/1962293343.shtml?pgRef=c_pc_company_job_page%3Ac_pc_company_job_job_listcard%402_62293343%3A1%3A82339d48-d10a-4faf-b664-43642b91c8ed&d_sfrom=search_job_comp_prime_pc&a......
  • 人形机器人 —— NVIDIA公司给出的操作算法(动态操作任务,dynamic manipulation tasks)(机
    原文:https://developer.nvidia.com/isaac/manipulator#foundation-modelsNVIDIA公司准备针对人形机器人的各部分操作分别推出一个AI框架,如:步态控制、3D感知、抓取操作、避障和规划,等等,本文介绍的就是NVIDIA计划推出的操作任务的算法的AI框架(manipulationtasks)。......
  • 根据人形机器人公司的招聘信息反推其未来业务的发展方向
    地址:https://www.zhipin.com/gongsi/job/07b072ef03f6aac71XN629m-E1M~.html这是国内的一家知名的头部企业,是人形机器人领域的top公司最近的招聘信息,可以看到这个公司目前在招有商用清洁产品销售经验的人,可以说这个招聘信息和这家机器人公司的本身技术路线就不是很相合,甚至有......
  • 我的机器人朋友们
    ./20231212/CF1208H.cpp:voidmodify(intbot){./20231212/CF1208H.cpp:for(intu=bot;u;u=fa[top[u]])seq.push_back(u);./20231212/CF1208H.cpp:clf[bot]^=1;./20231212/CF1208H.cpp:for(intu=bot;u;u=fa[top[u]]){./20240123/correct/movie.......
  • 吴恩达机器学习-第二课-第三周
    吴恩达机器学习学习视频参考b站:吴恩达机器学习本文是参照视频学习的随手笔记,便于后续回顾。如何在机器学习项目中决定下一步做什么当训练模型后效果并不好,下一步可以考虑:1.使用更多训练数据2.使用更少或更多的特征值3.尝试采用多项式特征值4.减少或增加正则化参数λ下面......