首页 > 其他分享 >期望误差和经验误差的关系——期望误差上界

期望误差和经验误差的关系——期望误差上界

时间:2023-06-20 20:00:10浏览次数:49  
标签:误差 经验 期望 复杂度 displaystyle frac 模型 Rademacher

  机器学习希望最小化模型的期望(泛化)误差$L$,即模型在整个数据分布上的平均误差。然而我们只能在训练集上最小化经验误差$\hat{L}$,我们期望通过最小化经验误差来最小化泛化误差。但是训练数据和数据真实分布之间是有差异的,又根据奥卡姆剃刀原理,在训练误差相同的情况下,模型复杂度越小,泛化性能越好,因此一些理论提出使用经验误差和模型复杂度来定义模型期望误差的上界。通常表示为以下形式:

$\displaystyle L \leq \hat{L}+\mathcal{O}\left(\sqrt{\frac{Complexity}{n}}\right)$

$\displaystyle \mathop{E}\limits_{x,y\sim \mathfrak{B}}L(g(x),y) \leq \sum\limits_{i=1}^n L(g(x_i),y_i)+\mathcal{O}\left(\sqrt{\frac{G_{Complex}}{n}}\right)$

  其中$n$表示训练数据量,$g$表示拟合完后的模型,$G$表示$g$的假设类(优化空间),$g\in G$,$G_{Complex}$表示假设类的复杂度。这些不等式的主要区别在于对模型复杂度的量化,即不等式右边第二项。

VC维

  VC维表示模型一定可以完美拟合的最大数据量,一定程度上度量了模型的表示能力。比如对于二维线性模型$f(x) =\sigma( w_1x_1+w_2x_2+b)$,其VC维为3。可以很容易判断在二维空间中任意的三个点都是线性可分的,从而$f(x)$可以完美划分拟合。而对于4个点,出现异或的情况时,二维线性模型就不能划分了。

  对于VC维为$h$的模型(假设类、优化空间),期望误差上界为

$\displaystyle L \leq \hat{L}+\sqrt{\frac{h(\log(2N/h)+1)-\log(\eta/4)}{N}}$

  其中右侧称为风险边界,其中$\eta$为置信度,取值$(0,1]$。不等式成立的概率为$1-\eta$。

  参考:

  https://blog.csdn.net/qq_43391414/article/details/111692672

  https://zhuanlan.zhihu.com/p/94480190

Rademacher复杂度

  Rademacher复杂度是一种衡量模型复杂度的度量,特别是在处理大样本限定的统计学习中。对于一个数据集,Rademacher复杂度被定义为随机分配标签后,模型能够拟合这些随机标签的能力。直观上看,如果一个模型可以很好地拟合随机的噪声,那么它可能过于复杂,有过拟合的风险。相较于VC维,Rademacher复杂度与数据相关,因此最终得到的bound更紧,对于调节模型复杂度具有更强的指导意义。

  对于一个给定的假设类(例如某个待优化的线性模型,或所有的深度为2的决策树),和给定的数据集大小$n$,我们可以计算假设类的Rademacher复杂度。为了计算Rademacher复杂度,我们随机分配标签给数据集,然后找到在这个随机标签数据集上误差最小的假设,计算这个假设在这个随机标签数据集上的正确率。重复这一过程多次,平均得到的所有正确率。则这个平均正确率就是假设类的Rademacher复杂度。

  比如对于包含$n$个训练样本的二分类任务,假设类为$G$,其Rademacher复杂度$\mathfrak{R}_n(G)$表示为:

$\displaystyle\mathfrak{R}_n(G)=\mathop{E}\limits_\sigma\left[\sup_{g\in G}\frac{1}{n}\sum_{i=1}^n \sigma_ig(x_i)\right]$

  其中随机数据集标签$\sigma$服从在$\{-1,+1\}^n$上的均匀分布。

  则期望误差上界为:

$\displaystyle L\leq\hat{L}+2\mathfrak{R}_n(G)+\sqrt{\frac{\log\frac{1}{\delta}}{2n}}$

$\displaystyle L\leq\hat{L}+2\mathfrak{R}_n(G)+3\sqrt{\frac{\log\frac{2}{\delta}}{2n}}$

  以上两个不等式同时在$1-\delta$的概率下成立。

  参考:

  ChatGPT 4.0

  https://www.zhihu.com/question/264208923

  https://zhuanlan.zhihu.com/p/337298338

  

标签:误差,经验,期望,复杂度,displaystyle,frac,模型,Rademacher
From: https://www.cnblogs.com/qizhou/p/17493910.html

相关文章

  • 老财务人的财务数据分析经验技巧分享
    财务数据分析是个相当复杂艰难的话题,数据多、报表多、指标计算复杂多变,即使是经验丰富的财务人员都会觉得棘手。但做得多了,还是会累积大量的经验。接下来就来简单聊聊老财务人累积下来的那些财务数据分析经验与技巧。接下来,我们会从财务数据的对接、分析模型搭建、数据指标的计算与......
  • Qt开发经验小技巧271-275
    编程的过程中经常遇到需要将QString转成char*或者constchar*的情况,在转换成QByteArray后调用.data()或者.constData()函数进行转换,这里需要注意的是,如果转换类型是constchar*尽管用data()不会出错,会给你自动转换,但是还是不建议,因为深拷贝了一份,理论上增加了内存开销,如果字符......
  • 2023跳槽涨薪必看,Android面试经验分享,附经典题库+答案解析
    过完年就是金三银四,跳槽旺季了,如今疫情管控放开,就业形势或会有所回暖,也会有更多的Android开发岗位逐渐释出。近期,也有很多同学问我关于Android技术岗位招聘的事,希望能提前准备一下,好冲击大厂、拿到高薪。博主作为首批Android开发者,十余年深耕Android及移动互联网开发领域,有丰富的面......
  • SolidWorks出图实践中的经验
    logo 出图过程:选择的视图完整表示各特征(半剖、局部、剖面线、中心线)—先标大尺寸—再标小尺寸(逐个推进,避免遗漏)—小尺寸公差的标注—孔、倒角、圆角等特征的标注—清根、表面粗糙度等加工工艺的标注—形位公差的标注—检查是否遗漏尺寸出图要点:标注:更好传达加工要求①......
  • element-tree相关经验汇总
    前言:这个el-tree是前段时间做项目时候写的,一直没时间进行整理,最近那个项目的tree数据超级大,导致浏览器卡死,需要进行处理,正好,趁着这次,把相关的配置也给整理一下(*^▽^*)大概呢就张这个样子:有查询、增加、删除、修改、上移、下移几个功能 那就先写一下相关配置吧: 我这个树上用......
  • 融合模型stacking14条经验总结和5个成功案例(互联网最全,硬核收藏)_机器学习_人工智能_
    来自Toby老师,《融合模型stacking14条经验总结和5个成功案例》我也看了很多关于融合模型stacking文章,很多作者倾向于赞美融合模型stacking,对其缺点轻描淡写,这容易误导初学者。一叶障目就是这意思。我的很多学员喜欢用融合模型作为论文或专利创新点,这是一个热门技术。最近有个同学在......
  • 关于uni-app与vue路由配置的不同,不使用uni.navigateTo接口跳转时,使用this.$router.pus
    之前用vue写router路由的时候,先配置一个路由表,然后再将配好的路由push到已有的组件里面,再通过<RouterView></RouterView>方法将每一个调用的路由的内容渲染到父组件要用的位置。今晚我在用uni-app的时候,突然不想用uni-app自己提供的路由跳转方法:uni.navigateTo我想用vue那种路由......
  • 大数据SQL数据倾斜与数据膨胀的优化与经验总结
    本文主要基于团队实际开发经验与积累,并结合了业界对大数据SQL的使用与优化,尝试给出相对系统性的解决方案。背景目前市面上大数据查询分析引擎层出不穷,如Spark,Hive,Presto等,因其友好的SQL语法,被广泛应用于各领域分析,公司内部也有优秀的ODPSSQL供用户使用。笔者所在团队的......
  • 大数据SQL数据倾斜与数据膨胀的优化与经验总结
    本文主要基于团队实际开发经验与积累,并结合了业界对大数据SQL的使用与优化,尝试给出相对系统性的解决方案。背景目前市面上大数据查询分析引擎层出不穷,如Spark,Hive,Presto等,因其友好的SQL语法,被广泛应用于各领域分析,公司内部也有优秀的ODPSSQL供用户使用。笔者所在团队的......
  • 大数据SQL数据倾斜与数据膨胀的优化与经验总结
    本文主要基于团队实际开发经验与积累,并结合了业界对大数据SQL的使用与优化,尝试给出相对系统性的解决方案。背景目前市面上大数据查询分析引擎层出不穷,如Spark,Hive,Presto等,因其友好的SQL语法,被广泛应用于各领域分析,公司内部也有优秀的ODPSSQL供用户使用。笔者所在团队的......