今天是中秋节,这是机器学习二作业
一. 单选题(共2题,40分)
1. (单选题) 在评价模型的性能时,一般是更希望算法模型的(C)
A
训练误差小
B
测试误差小
C
泛化误差小
D
以上都是
2. (单选题) 算法模型“过拟合”会发生的现象有(A)
A
训练误差很小,泛化性能差
B
测试误差很大,泛化性能强
C
训练误差很大,泛化性能强
D
测试误差很小,泛化性能强
二. 简答题(共1题,20分)
3. (简答题) 简述划分出测试集的三种方法留出法、交叉验证法和自助法的优劣。
留出法(Hold-out Validation)
优点:
简单快速:这种方法只需要将数据随机分成训练集和测试集两部分,操作简单且效率高。
易于实现:不需要复杂的流程,易于理解和编程实现。
缺点:
方差大:由于数据集被一次性分割,如果数据集本身较小或分布不均匀,则得到的训练集和测试集可能无法很好地反映整体数据的特性,从而影响评估结果的可靠性。
依赖于数据分割比例:不同的分割比例可能会导致不同的评估结果,难以确定最优的分割比例。
交叉验证法(Cross-validation)
优点:
减少方差:通过多次划分数据集进行训练和测试,每次使用不同的子集作为测试集,从而使得评估结果更加稳定可靠。
充分利用数据:几乎所有的数据都被用来训练模型,减少了数据浪费。
灵活性:可以采用不同的交叉验证策略,如K折交叉验证、Leave-One-Out等,适应不同的场景需求。
缺点:
计算复杂度高:相比于留出法,交叉验证需要多次训练模型,增加了计算成本。
实施复杂:相较于留出法,交叉验证的实现相对复杂,尤其是在处理非独立同分布的数据时需要更多的考虑。
自助法(Bootstrap)
优点:
重复利用数据:通过有放回抽样来构造训练集,能够有效地估计模型的方差。
适用性强:特别适合于数据集较小或分布不均匀的情况,能够较好地估计模型的偏差和方差。
缺点:
计算量大:需要多次抽样并训练模型,计算成本较高。
可能产生重复样本:由于是有放回抽样,训练集中可能会出现重复的观测值,这可能会影响模型的训练过程。
不适合依赖顺序的数据:自助法对于时间序列等依赖顺序的数据不太适用,因为它破坏了原本的时间顺序关系。
三. 多选题(共1题,20分)
4. (多选题) 评估模型时,划分测试集的原则有(ABC)
A
测试集应该尽可能与训练集互斥
B
训练集和测试集的划分要尽可能保持数据分布一致(分层采样)
C
一般采用多次重复试验
D
以上都不对