首页 > 其他分享 >机器学习基石---How Can Machines Learn Better

机器学习基石---How Can Machines Learn Better

时间:2023-01-01 17:33:07浏览次数:222  
标签:overfitting Better noise 多项式 模型 --- How data 复杂度


  对Week12-Week16做简单的总结,不仔细看所有细节。大体内容:借由非线性分类模型引出Overfitting的问题,从而提出Regularization和Validation,以及机器学习中三个原则。

非线性分类模型

XwT X w T ,那么非线性的是否可以有良好的分类能力呢。看下面一个例子:

机器学习基石---How Can Machines Learn Better_数据


对于上面的情况,右图的二次曲线(圆)显然能更好的分隔两类点。其实可以通过映射把原来线性不可分的点变为可分。具体如下:

机器学习基石---How Can Machines Learn Better_复杂度_02

机器学习基石---How Can Machines Learn Better_多项式_03


机器学习基石---How Can Machines Learn Better_数据_04

机器学习基石---How Can Machines Learn Better_复杂度_05

机器学习基石---How Can Machines Learn Better_复杂度_06

现在有两个学习模型,一个是2阶,一个是10阶多项式,分别对上述两种情况建模分析,两个学习模型的效果如下:

机器学习基石---How Can Machines Learn Better_复杂度_07

对于f1 f 1 ,2阶多项式的学习模型Ein E i n ,Eout E o u t 相差小,10阶多项式模型相差大,出现过拟合情况。
对于f2 f 2 ,10阶多项式学习模型Ein E i n ,Eout E o u t 相差大,仍然出现过拟合情况。
为什么低阶的多项式拟合的反而更好?先看下两个模型的学习曲线:

机器学习基石---How Can Machines Learn Better_数据_08

可知,数据量N N 不大的时候,2阶多项式泛化能力更强。

Noise

  上节分析出样本数量较少会造成overfitting,那么噪声和复杂度呢?

机器学习基石---How Can Machines Learn Better_复杂度_09

上图中红色越深表示overfitting越高,蓝色越深overfitting越低。固定模型复杂度,NN越大,σ2 σ 2 越小,越不容易overfitting。固定σ2 σ 2 ,模型复杂度越高,N N 越小,越容易发生overfitting。发现noise的σ2σ2对overfitting影响很大,把noise称为stochastic noise。同时模型复杂度的影响称为deterministic noise。总结导致overfitting的因素:

机器学习基石---How Can Machines Learn Better_复杂度_10

Dealing With Overfitting

  处理overfitting问题主要有以下几种方式:

  • start from simple model
  • data cleaning/pruning
  • data hinting
  • regularization
  • validataion
    前三种更像是数据的预处理,data cleaning/pruning就是对训练数据集里label明显错误的样本进行修正(data cleaning),或者对错误的样本看成是noise,进行剔除(data pruning)。data cleaning/pruning关键在于如何准确寻找label错误的点或者是noise的点,而且如果这些点相比训练样本N很小的话,这种处理效果不太明显。
    data hinting是针对N不够大的情况,如果没有办法获得更多的训练集,那么data hinting就可以对已知的样本进行简单的处理、变换,从而获得更多的样本。举个例子,数字分类问题,可以对已知的数字图片进行轻微的平移或者旋转,从而让N丰富起来,达到扩大训练集的目的。这种额外获得的例子称之为virtual examples。但是要注意一点的就是,新获取的virtual examples可能不再是iid某个distribution。所以新构建的virtual examples要尽量合理,且是独立同分布的。

Regularization

Ein E i n 做个平衡,通过构造惩罚项实现。常用的如岭回归中L2 L 2 正则化,lasso回归中L1 L 1 正则化。具体不多说,林老师的课程笔记可以参看​​红色石头的笔记​​。

Validataion

g g <script type="math/tex" id="MathJax-Element-40">g</script>。参看​​红色石头的笔记​​。

Three Learning Principles

Occam’s Razor

奥卡姆剃刀意为“如无必要,勿增实体”,即应该选择尽可能简单的模型。

Sampling Bias

抽样误差将可能小,是指训练数据和验证数据要服从同一个分布。

Data Snooping

在机器学习过程中,避免“偷窥数据”非常重要,但实际上,完全避免也很困难。实际操作中,有一些方法可以帮助我们尽量避免偷窥数据。第一个方法是“看不见”数据。就是说当我们在选择模型的时候,尽量用我们的经验和知识来做判断选择,而不是通过数据来选择。先选模型,再看数据。第二个方法是保持怀疑。就是说时刻保持对别人的论文或者研究成果保持警惕与怀疑,要通过自己的研究与测试来进行模型选择,这样才能得到比较正确的结论。

Summary

机器学习基石磨磨蹭蹭的终于算是看完,前面的课程看的还是比较认真,后面的马马虎虎吧。从VC维讲起,还是很难理解。如果考虑实战,工作中能直接应用,或许从接受度上讲还是很好的了。


标签:overfitting,Better,noise,多项式,模型,---,How,data,复杂度
From: https://blog.51cto.com/u_15575753/5983171

相关文章

  • 软件方法(下)分析和设计2021版本连载-第8章 分析类图(1)
    ​(1)任何您认为的错误都可以,包括错别字。(2)同一错误仅支付最先指正者报酬。(3)请根据最新版本作指正。下册内容目前指正人有:吴佰钊、王周文、刘学斌、成文华、黄树成、李蜀斌、......
  • OpenOCD+DAP-LINK调试ESP32的失败经历
    目的手里有调试STM32的DAP-LINK,想试试通过JTAG调试ESP32OpenOCD支持CMSIS-DAPDAP-LINK支持的芯片,我手上这款描述如下,应该JTAG协议的都支持平台windows10+ESP-IDFE......
  • leetcode-599. 两个列表的最小索引总和
    599.两个列表的最小索引总和-力扣(Leetcode)刚开始的思路是搞两个map,但是性能比较差,只需要构建一个map然后遍历第二个list即可[!添加后可以过滤一些肯定不符合条件的]......
  • Java - CAS 总结
    CAS介绍CAS操作包含三个操作数——内存位置(V)、预期原值(A)和新值(B)。如果内存位置的值与预期原值相匹配,那么处理器会自动将该位置值更新为新值,否则处理器不做任何操作......
  • layui 注册模板--并且提示注册成功--太爽了
    <!doctypehtml><htmlclass="x-admin-sm"><head><metacharset="UTF-8"><title>后台登录-X-admin2.2</title><metaname="renderer"content="webkit|ie-comp......
  • 性能测试-微服务性能压测监控和调优【重点】【杭州多测师_王sir】【杭州多测师】
     本文主要内容一、何为压力测试1.1、大白话解释性能压测是什么:就是考察当前软件和硬件环境下,系统所能承受的最大负荷,并帮助找出系统的瓶颈所在。性能压测的......
  • 性能测试-CPU使用率和平均负载的关系【杭州多测师_王sir】【杭州多测师】
    1、压测的时候,cpu使用率很高,但是平均负载很低?分析下当前进程使用了cpu资源,并没有很多的进程在等待,分析这个进程是哪一个进程,再进入进程别分析java应用dbredis2、压测的时......
  • ns-3_ Day 3
    无线网络仿真examples/tutorial/third.cc在了解了ns-3的一些重要机制后,我们结合这份较复杂的示例代码加以理解。前两个例子中涉及到了P2P网络结构和CSMA网络结构,这个......
  • leetcode-598. 范围求和 II
    598.范围求和II-力扣(Leetcode)Go语言没有针对int的最小值、最大值以及比较算法,可以有一套,不然每次都需要写这个min函数funcmaxCount(mint,nint,ops[][]int)int......
  • 力扣---1262. 可被三整除的最大和
    给你一个整数数组 nums,请你找出并返回能被三整除的元素最大和。示例1:输入:nums=[3,6,5,1,8]输出:18解释:选出数字3,6,1和8,它们的和是18(可被3整除的最大和)。示例2......