解决问题的关键
1.知道你到底要什么【真正的需求】
2.知道我给你的是不是你要的【提供的是否符合需求】
何为好的模型?
泛化能力强,能很好的适用于未见样本(unseen instance)的模型。
泛化误差
在”未来“样本上的误差
经验误差
在训练集上的误差,亦称”训练误差“
过拟合&欠拟合
过拟合(Overfitting):
把训练数据里面的特性学出来了,而这个特性不是一般规律(学太多,学到了不该学的东西),表现在未来的数据上(泛化误差上升,而训练误差仍呈现下降趋势)
欠拟合(Underfitting):
学的太少,容易犯错
## Overfitting是机器学习里的核心内容,找到好的模型就是找到过拟合与欠拟合的平衡点
## 所有的算法、所有的技术都是在缓解Overfitting!!
** 对于一个新的算法重点要思考它是怎样环节Overfitting,以及这种环节何时会失效
模型选择(Model Selection)
三个关键问题
1.如何获得测试结果? => 评估方法
2.如何评估性能优劣?=> 性能度量
3.如何判断实质差别?=> 比较检验
一、评估方法
关键:怎么获得“测试集”(test set)?
## 测试集应该与训练集”互斥“
常见方法:
1. 留出法(hold-out)
2.交叉验证法(cross validation)
3. 自助法(bootstrap)
留出法
将拥有的数据集分成两部分,一部分用来训练(训练集),另一部分用来限额是(测试集)
注意:
· 保持数据分布一致性(eg. 分层采样:根据类别的均匀分布的采样)
· 多次重复划分(eg. 100次随机划分,平均掉样本随即切分所造成的影响)
· 测试集不能太大、不能太小,常选用 1/5~1/3 -> Why?
标签:误差,训练,--,模型,样本,##,测试,评估 From: https://blog.csdn.net/SHUA_y/article/details/140451278