过拟合处理方法

时间：2023-06-14 17:24:44浏览次数：38

标签：剪枝处理样本过度拟合方法决策树

面试的时候被问到过拟合怎么处理，没有好好准备结果这个简单的问题没答上来，我头脑第一个想的是决策树--过拟合--剪枝。笑死，这个回答相当于100分的问题我就会3分，不被白眼才怪，没有系统的认知体系。因此今天要争取整理出一个60+分的答案哈哈

1.什么是过拟合

还没找到很标准的话来定义他，但是用图比较容易看

绿线就是过拟合的学习曲线，而黑线是比较理想的曲线。
过拟合过度追求每个样本的y值，对当前数据进行“过度解读”，对模型的泛化有很大的影响。

2.如何解决过拟合

2.1增加训练的数据量，选择合适的准确率和召回率

过拟合的根本原因是对当前样本的“过度解读”，所以最简单的方法就是再训练样本上下下功夫，扩大训练数据集，选择合适的抽样方法。

2.2运用正则化

对特征进行一定的变换，改变样本空间分布。
例如误差的公式套上平方，将样本误差小的不同分类样本间距离拉伸

2.3简化模型

这里就是前面提到的决策树过拟合时候的剪枝了。
另外从图1看，回归分析的高次的多项式曲线也会过度拟合样本，这个时候要降低回归拟合公式的次数
特别的，神经网络有随机切除神经元的方法来降低过拟合现象。

2.4多个欠拟合模型组合

这个思想在cart决策树中有所体现，统筹多个欠拟合的小树的结果来作为最终的预测结果。
常见的有bagging和boosting方法。

碎碎念

当前就简单写这一点，没有好的素材展开。着4个标题扯一扯也够回答这个问题了对吧。

参考文章
知乎专栏：14. 过拟合(overfitting)与解决办法

标签：剪枝,处理,样本,过度,拟合,方法,决策树
From： https://www.cnblogs.com/kang-mei-208/p/17480819.html

在线开启gtid功能方法
MySQL在线开启/关闭GTID文档目录一前言1二在线开启GTID12.1在主从复制结构中所有的实例中执行12.2在主从复制结构中所有实例中执行:22.3在主从复制结构中所有实例中执行:22.4在主从复制结构中所有的实例中执行:22.5确保第四步之前的binlog全部为应用。......
MySQL GTID 主从复制错误修复方法
MySQLGTID主从复制错误修复方法MySQL传统复制恢复方法：root@(none)>stopslave;QueryOK,0rowsaffected(0.00sec)root@(none)>SETGLOBALSQL_SLAVE_SKIP_COUNTER=N;#跳过N个事务QueryOK,0rowsaffected(0.00sec)root@(none)>startslave;QueryOK,......
boost库之字符串处理
一、Boost.StringAlgorithmsBoost字符算法库Boost.StringAlgorithms提供了很多字符串操作函数，字符串的类型可以是std::string,std::wstring,或者是任何模板类std::basic_string的实例。这些函数分类别在不同的头文件定义，例如大小写转函数定义在文件boost/algorithm/string/case_c......
Oracle反连接HASH JOIN ANTI NA会处理驱动表连接列null值
Oracle反连接HASHJOINANTINA会处理驱动表连接列null值这个现象和Oracle内连接HASHJOIN/半连接HASHJOINSEMI不处理驱动表连接列null值相反。反连接中无论一下哪个结论都一样：HASHJOINANTINAHASHJOINANTISNAHASHJOINRIGHTANTINAHASHJOINRIGHTANTISN......
Java集合去重的几种方法
一、List的contains方法去重示例代码如下:importjava.util.ArrayList;importjava.util.List;/***@authorqinxun*@date2023-06-13*@Descripion:List集合去重*/publicclassRepeatDemo{publicstaticvoidmain(String[]args){longstart=S......
MaxCompute中如何处理异常字符
背景在处理数据时，当业务数据同步至MaxCompute后，会产生一些含异常字符的脏数据，比如字段中包含了一个不可见字符，在DataWorks中显示不出来，但在BI界面又会显示成其他字符，影响整体观感。这种情况，通常我们的解法是，将异常的字符洗掉，下面来介绍几种常见的处理异常字符的方法。问题描述定位......
中企出海，员工海外差旅费用如何处理？
用友的商旅云聚合了全球的商旅生态圈，把境外的商旅预订及国内的全球化商旅TMC资源比如像携程、同程商旅、CWT、BDCTrip等厂商集结，成为我们提供多元的商旅服务供应商，这些服务聚合之后支持甲方企业针对多服务商或者专业服务商进行同频比价，为企业做智能的低价推荐，节省差旅成本和商旅费......
2023-06-14 记录一下vue组件如何调用App.vue里面的方法（代码来至chatGpt）
可以通过在子组件中使用$emit方法来触发App.vue中的方法。具体步骤如下：在App.vue中定义一个方法<script>exportdefault{methods:{appMethod(){console.log('调用了App.vue中的方法')}}}</script>在子组件中使用$emit方法触发该方......
ESXI自动化管理中关于Ansible工具警告提示处理方法
近期对服务器软件硬件都进行了升级换代，更新的平台操作系统，紧接发现原来跳板机已无法直接使用，也得升级才能使用，于是把跳板机也进行系统升级，重新安装部署自动化运维管理工具，在安装使用ansible对接ESXI服务器管理的时候提示[WARNING]:Nopythoninterpretersfoundforhostx.x.x.x......
关于磁盘与分区-创建xfs文件系统时指定UUID的方法
关于在linux系统中对于xfs文件系统创建后，可以通过指定文件系统uuid的方式进行挂载[root@qq-5201351~]#mount-U5a85ee6b-2866-4832-8fea-475d7c8b561c/data01[root@qq-5201351~]#mount-txfs-U5a85ee6b-2866-4832-8fea-475d7c8b561c/data02[root@qq-5201351~]#mou......