可避免偏差

如果希望学习算法能在训练集上表现良好，但有时实际上并不想做得太好。得知道人类水平的表现是怎样的，可以确切告诉算法在训练集上的表现到底应该有多好，或者有多不好，让我说明是什么意思吧。

经常使用猫分类器来做例子，比如人类具有近乎完美的准确度，所以人类水平的错误是1%。在这种情况下，如果您的学习算法达到8%的训练错误率和10%的开发错误率，那么也许想在训练集上得到更好的结果。所以事实上，算法在训练集上的表现和人类水平的表现有很大差距的话，说明的算法对训练集的拟合并不好。所以从减少偏差和方差的工具这个角度看，在这种情况下，会把重点放在减少偏差上。需要做的是，比如说训练更大的神经网络，或者跑久一点梯度下降，就试试能不能在训练集上做得更好。

但现在看看同样的训练错误率和开发错误率，假设人类的表现不是1%，就把它抄写过来。但知道，在不同的应用或者说用在不同的数据集上，假设人类水平错误实际上是7.5%，也许的数据集中的图像非常模糊，即使人类都无法判断这张照片中有没有猫。这个例子可能稍微更复杂一些，因为人类其实很擅长看照片，分辨出照片里有没有猫。但就为了举这个例子，比如说的数据集中的图像非常模糊，分辨率很低，即使人类错误率也达到7.5%。在这种情况下，即使的训练错误率和开发错误率和其他例子里一样，就知道，也许的系统在训练集上的表现还好，它只是比人类的表现差一点点。在第二个例子中，可能希望专注减少这个分量，减少学习算法的方差，也许可以试试正则化，让的开发错误率更接近的训练错误率。

所以在之前的博客关于偏差和方差的讨论中，主要假设有一些任务的贝叶斯错误率几乎为0。所以要解释这里发生的事情，看看这个猫分类器，用人类水平的错误率估计或代替贝叶斯错误率或贝叶斯最优错误率，对于计算机视觉任务而言，这样替代相当合理，因为人类实际上是非常擅长计算机视觉任务的，所以人类能做到的水平和贝叶斯错误率相差不远。根据定义，人类水平错误率比贝叶斯错误率高一点，因为贝叶斯错误率是理论上限，但人类水平错误率离贝叶斯错误率不会太远。所以这里比较意外的是取决于人类水平错误率有多少，或者这真的就很接近贝叶斯错误率，所以假设它就是，但取决于认为什么样的水平是可以实现的。

在这两种情况下，具有同样的训练错误率和开发错误率，决定专注于减少偏差的策略或者减少方差的策略。那么左边的例子发生了什么？
8%的训练错误率真的很高，认为可以把它降到1%，那么减少偏差的手段可能有效。而在右边的例子中，如果认为贝叶斯错误率是7.5%，这里使用人类水平错误率来替代贝叶斯错误率，但是认为贝叶斯错误率接近7.5%，就知道没有太多改善的空间了，不能继续减少的训练错误率了，也不会希望它比7.5%好得多，因为这种目标只能通过可能需要提供更进一步的训练。而这边，就还（训练误差和开发误差之间）有更多的改进空间，可以将这个2%的差距缩小一点，使用减少方差的手段应该可行，比如正则化，或者收集更多的训练数据。

所以要给这些概念命名一下，这不是广泛使用的术语，但觉得这么说思考起来比较流畅。就是把这个差值，贝叶斯错误率或者对贝叶斯错误率的估计和训练错误率之间的差值称为可避免偏差，可能希望一直提高训练集表现，直到接近贝叶斯错误率，但实际上也不希望做到比贝叶斯错误率更好，这理论上是不可能超过贝叶斯错误率的，除非过拟合。而这个训练错误率和开发错误率之前的差值，就大概说明的算法在方差问题上还有多少改善空间。

可避免偏差这个词说明了有一些别的偏差，或者错误率有个无法超越的最低水平，那就是说如果贝叶斯错误率是7.5%。实际上并不想得到低于该级别的错误率，所以不会说的训练错误率是8%，然后8%就衡量了例子中的偏差大小。应该说，可避免偏差可能在0.5%左右，或者0.5%是可避免偏差的指标。而这个2%是方差的指标，所以要减少这个2%比减少这个0.5%空间要大得多。而在左边的例子中，这7%衡量了可避免偏差大小，而2%衡量了方差大小。所以在左边这个例子里，专注减少可避免偏差可能潜力更大。

所以在这个例子中，当理解人类水平错误率，理解对贝叶斯错误率的估计，就可以在不同的场景中专注于不同的策略，使用避免偏差策略还是避免方差策略。在训练时如何考虑人类水平表现来决定工作着力点，具体怎么做还有更多微妙的细节，接下来会越来越深入了解人类水平表现的真正意义。

标签：学习策略,训练,偏差,错误率,方差,贝叶斯,bias,Avoidable,人类
From： https://www.cnblogs.com/oten/p/18220163

机器学习策略篇：详解为什么是人的表现？（Why human-level performance?）
为什么是人的表现？在过去的几年里，更多的机器学习团队一直在讨论如何比较机器学习系统和人类的表现，为什么呢？认为有两个主要原因，首先是因为深度学习系统的进步，机器学习算法突然变得更好了。在许多机器学习的应用领域已经开始见到算法已经可以威胁到人类的表现了。其次，事实证明，当试......
蒸馏网络中的bias是指什么？ —— 论文《Distilling the Knowledge in a Neural Network
论文地址：https://arxiv.org/pdf/1503.02531.pdf在蒸馏网络中会遇到手动调整bias的说法，但是这个bias在论文中又没有明细说明是怎么个bias，具体论文出处：Ifthisbiasisincreasedby3.5查询Gemini，得到回答：Assumingyou'rereferringtotheprevioussentenceaboutl......
机器学习策略篇：详解训练/开发/测试集划分（Train/dev/test distributions）
训练/开发/测试集划分设立训练集，开发集和测试集的方式大大影响了或者团队在建立机器学习应用方面取得进展的速度。同样的团队，即使是大公司里的团队，在设立这些数据集的方式，真的会让团队的进展变慢而不是加快，看看应该如何设立这些数据集，让团队效率最大化。在此，想集中讨论如何设立......
机器学习策略篇：详解满足和优化指标（Satisficing and optimizing metrics）
满足和优化指标要把顾及到的所有事情组合成单实数评估指标有时并不容易，在那些情况里，发现有时候设立满足和优化指标是很重要的，让我告诉是什么意思吧。假设已经决定很看重猫分类器的分类准确度，这可以是\(F_1\)分数或者用其他衡量准确度的指标。但除了准确度之外，还需要考虑运行时......
机器学习策略篇：详解单一数字评估指标（Single number evaluation metric）
单一数字评估指标无论是调整超参数，或者是尝试不同的学习算法，或者在搭建机器学习系统时尝试不同手段，会发现，如果有一个单实数评估指标，进展会快得多，它可以快速告诉，新尝试的手段比之前的手段好还是差。所以当团队开始进行机器学习项目时，经常推荐他们为问题设置一个单实数评估指标。......
机器学习策略篇：详解正交化（Orthogonalization）
正交化这是一张老式电视图片，有很多旋钮可以用来调整图像的各种性质，所以对于这些旧式电视，可能有一个旋钮用来调图像垂直方向的高度，另外有一个旋钮用来调图像宽度，也许还有一个旋钮用来调梯形角度，还有一个旋钮用来调整图像左右偏移，还有一个旋钮用来调图像旋转角度之类的。电视设计......
机器学习策略篇：详解为什么是ML策略？（Why ML Strategy?）
为什么是ML策略？从一个启发性的例子开始讲，假设正在调试的猫分类器，经过一段时间的调整，系统达到了90%准确率，但对的应用程序来说还不够好。可能有很多想法去改善的系统，比如，可能想去收集更多的训练数据吧。或者会说，可能的训练集的多样性还不够，应该收集更多不同姿势的猫咪图片，或者更......
因果推断在推荐系统debias的应用
推荐系统的bias有很多：positionbias,popularitypias,selectionbias,exposurebias,conformitybias（从众心理）等，针对不同的bias有不同的模型来解决。核心的问题还是，这些bias导致一部分优秀的itemunderestimate或者underperform，为了更公正的推出这些item，需要去掉这些bias。......
CodeForces 814E An unavoidable detour for home
洛谷传送门CF传送门考虑给图分层，一层的点一一对应上一层的一些点。设\(f_{i,j}\)为考虑了前\(i\)个点，最后一层有\(j\)个点，除了最后一层点的其他点度数限制已经满足的方案数。转移系数是\(g_{i,j,k}\)表示这一层有\(i\)个点，上一层有\(j\)个\(2\)度点，\(k\)个......
神经网络优化篇：详解指数加权平均的偏差修正（Bias correction in exponentially weighte
指数加权平均的偏差修正\({{v}_{t}}=\beta{{v}_{t-1}}+(1-\beta){{\theta}_{t}}\)在上一个博客中，这个（红色）曲线对应\(\beta\)的值为0.9，这个（绿色）曲线对应的\(\beta\)=0.98，如果执行写在这里的公式，在\(\beta\)等于0.98的时候，得到的并不是绿色曲线，而是紫色曲线，可以注意到紫色曲线......

机器学习策略篇：详解可避免偏差（Avoidable bias）

可避免偏差

相关文章

赞助商

阅读排行