目录
一、经验误差与过拟合
错误率
分类错误样本数占总样本数比例
精度
1-错误率
误差
模型输出与样本真实值之间的差异
训练误差/经验误差
模型在训练集上的误差
度量指标
损失函数
泛化误差
模型在新样本上的误差,即评估模型对未知数据的预测能力
欠拟合
模型在训练集误差高
原因:模型过于简单,没有很好捕捉到数据特征
过拟合
在训练集误差低,在测试集误差高
原因:模型把数据学习的太彻底,把噪声数据也学习到
二、评估方法
专家样本
专家样本=训练集+测试集
训练集S+测试集T:互斥互补(S∩T=Φ, D=S∪T)
训练集和测试集独立同分布且互斥
1.留出法
合理划分、保持比例
(1)单次留出法
如训练集:测试集的比例是8:2
弊端:只做一次分割,它对训练集、验证集和测试集的样本数比例,还有分割后数据的分布是否和原始数据集的分布相同等因素比较敏感
(2)多次留出法
多次留出法:如对专家样本随机进行100次训练集/测试集划分,评估结果取平均
缺点:模型评估结果与训练集和测试集比例有关
2.交叉验证
(1)k折交叉验证
将专家样本等份划分为K个数据集,轮流用K-1个用于训练,1个用于测试,当k=m,则为留一法;
k 折交叉验证通过对 k 个不同分组训练的结果进行平均来减少方差,
因此模型的性能对数据的划分就不那么敏感。
第一步,不重复抽样将原始数据随机分为 k 份。
第二步,每一次挑选其中 1 份作为测试集,剩余 k-1 份作为训练集用于模型训练。
第三步,重复第二步 k 次,这样每个子集都有一次机会作为测试集,其余机会作为训练集。
在每个训练集上训练后得到一个模型,
用这个模型在相应的测试集上测试,计算并保存模型的评估指标,
第四步,计算 k 组测试结果的平均值作为模型精度的估计,并作为当前 k 折交叉验证下模型的性能指标。
k 一般取 10,
数据量小的时候,k 可以设大一点,这样训练集占整体比例就比较大,不过同时训练的模型个数也增多。
如120条数据,分成10份,每份含12条数据;分成12份,每份含10条数据;
即k越大,数据集越小
数据量大的时候,k 可以设小一点。
(2)留一法
即当k=m即样本总数,每次的测试集都只有一个样本,要进行 m 次训练和预测
这个方法用于训练的数据只比整体数据集少了一个样本,因此最接近原始样本的分布
但是训练复杂度增加了,因为模型的数量与原始数据样本数量相同
一般在数据缺乏时使用
当样本数很多的话,这种方法开销很大
(3)P次k折交叉验证
由于留一法不适用数据集较大,因此,需采用P次k折交叉验证,例如:10次10折交叉验证
3.自助法
即在含有 m 个样本的数据集中,进行 m 次有放回地随机抽样,组成的新数据集作为训练集。
优点是训练集的样本总数和原数据集一样都是 m,并且仍有约 1/3 的数据不被训练而可以作为测试集,对于样本数少的数据集,就不用再由于拆分得更小而影响模型的效果。
缺点是这样产生的训练集的数据分布和原数据集的不一样了,会引入估计偏差。
此种方法不是很常用,除非数据量真的很少。
作者:不会停的蜗牛
链接:https://www.jianshu.com/p/5b793f9b6481
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。