9.17

9.17

时间：2024-09-18 20:24:55浏览次数：9

标签：误差泛化训练 9.17 模型测试数据

今天是中秋节，祝大家中秋节快乐。今天发《机器学习》作业二，明天是个特殊的日子，不发博客。

一. 单选题（共2题，40分）

1. (单选题) 在评价模型的性能时，一般是更希望算法模型的（C）

训练误差小

测试误差小

泛化误差小

以上都是

2. (单选题) 算法模型“过拟合”会发生的现象有（A）

训练误差很小，泛化性能差

测试误差很大，泛化性能强

训练误差很大，泛化性能强

测试误差很小，泛化性能强

二. 简答题（共1题，20分）

3. (简答题) 简述划分出测试集的三种方法留出法、交叉验证法和自助法的优劣。

留出法（Hold-out Validation）

优点：

简单快速：这种方法只需要将数据随机分成训练集和测试集两部分，操作简单且效率高。

易于实现：不需要复杂的流程，易于理解和编程实现。

缺点：

方差大：由于数据集被一次性分割，如果数据集本身较小或分布不均匀，则得到的训练集和测试集可能无法很好地反映整体数据的特性，从而影响评估结果的可靠性。

依赖于数据分割比例：不同的分割比例可能会导致不同的评估结果，难以确定最优的分割比例。

交叉验证法（Cross-validation）

优点：

减少方差：通过多次划分数据集进行训练和测试，每次使用不同的子集作为测试集，从而使得评估结果更加稳定可靠。

充分利用数据：几乎所有的数据都被用来训练模型，减少了数据浪费。

灵活性：可以采用不同的交叉验证策略，如K折交叉验证、Leave-One-Out等，适应不同的场景需求。

缺点：

计算复杂度高：相比于留出法，交叉验证需要多次训练模型，增加了计算成本。

实施复杂：相较于留出法，交叉验证的实现相对复杂，尤其是在处理非独立同分布的数据时需要更多的考虑。

自助法（Bootstrap）

优点：

重复利用数据：通过有放回抽样来构造训练集，能够有效地估计模型的方差。

适用性强：特别适合于数据集较小或分布不均匀的情况，能够较好地估计模型的偏差和方差。

缺点：

计算量大：需要多次抽样并训练模型，计算成本较高。

可能产生重复样本：由于是有放回抽样，训练集中可能会出现重复的观测值，这可能会影响模型的训练过程。

不适合依赖顺序的数据：自助法对于时间序列等依赖顺序的数据不太适用，因为它破坏了原本的时间顺序关系。

三. 多选题（共1题，20分）

4. (多选题) 评估模型时，划分测试集的原则有（ABC）

测试集应该尽可能与训练集互斥

训练集和测试集的划分要尽可能保持数据分布一致（分层采样）

一般采用多次重复试验

以上都不对

四. 填空题（共1题，20分）

5. (填空题) 十折交叉验证法中把数据集分成（）份，（）份作为测试集，剩余的（）作为训练集，需要把（）次的过程测试结果平均作为最终的测试结果。

第1空 10 第2空 1

第3空 9

第4空 10

标签：误差,泛化,训练,9.17,模型,测试,数据
From： https://www.cnblogs.com/zzqq1314/p/18419284

2024.9.17 Python
1.现有字典d={‘a’:24，’g’:52，’l’:12，’k’:33}请按字典中的value值进行排序？sorted(d.items()，key=lambdax:x[1])[1]换成0即可变成按照键排序2.del列表名[index]：删除指定索引的数据3.列表名.remove(数据)：删除第一个出现的指定数据4.列表名.pop(index)5.列表名......
2024.09.17模拟赛总结
破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了破防了$T1$怎么每次$rfy$模拟赛，$T1$都这么难。想了大半场比赛，结果还没做出来，要是换成$T2$应该能过。$T......
中建智地1-8月房山住宅网签29.17亿！房山国贤府成交均价4.2万立区域改善标杆
来源：中国网中建智地1-8月房山4盘住宅网签844套、成交金额29.17亿元,成为房山住宅网签金额、套数、面积三冠王。其中学府印悦以网签359套、成交金额10.95亿元,荣膺1-8月房山住宅网签金额、套数双冠王。(1-8月房山住宅网签房企排行榜,数据来源:天朗)在刚刚过去的8月,中建智地继续冠领......
Docker_报错：Host key for 47.116.79.175 has changed and you have requested strict
Hostkeyfor47.116.79.175haschangedandyouhaverequestedstrictchecking.Hostkeyverificationfailed. 问题原因用OpenSSH的人都知ssh会把你每个你访问过计算机的公钥(publickey)都记录在~/.ssh/known_hosts。当下次访问相同计算机时，OpenSSH会核对公钥。如果公......
9.17
PROB：上次开会说了，BSISO位置错误，（因为之前画是直接用指数画的，没有通过算出来的气候态入手。）用师兄的代码出来是错误的，差了2个位相。还有ERA5的OLR，数据，懒了两天没看，结果家园里看到大年糕发言解决了我的疑问，当时应该就是没有乘以-号。又重新去找了ERA5下载数据的界面，之前用的是这里......
【2023.09.17】拥抱自己的黑暗面
主动说出自己不好的一面，是否是一件坏事呢？我思考这个问题最近有在尝试和别人说出自己不好的一面，我在寻找自己的缺点在哥们看来这再正常不过了，甚至觉得我太过坦诚但是在异性眼里看来，这样子的交流，是不好的或许在与异性交往的时候，大家只要戴上面具，只要展示出自己最好的一面就足够......
上周热点回顾（9.11-9.17）
热点随笔：· B站UP主发布视频，助力会员救园 (博客园团队)· 返璞归真：命令行下逛园子，发布博客园CLI预览版 (博客园团队)· 最接地气的.NET微服务框架 (linguicheng)· 一个烂分页，踩了三个坑！ (why技术)· 18款VisualStudio实用插件（更新） (追逐时光者)· 你准备好了吗，9月......
9.17日结
花了不到一周的时间，复习了CSS的选择器，学习了盒子模型和一些属性，后续安排，两天复习完JS语法，然后看ES6和Node.js，赶紧快速过度到vue,简单学完vue就赶紧专心准备软考和算法了，真的等不了一点，急死我吧。。。。大三了，感觉自己一事无成，感觉抓紧时间多学东西，干就完了。......
9.17
WarehouseInformation.java: package仓库管理系统; publicclassWarehouseInformation{privateStringitemno;//表示商品编号（有8位数字组成）privateStringitemname;//表示商品名称privateStringsuppliername;//表示供货商名称privateStringwarehousingtime......
9.17
packagebbb; publicclassWarehouseInformation{privateStringitemnumno;privateStringitemname;privateStringsuppliername;privateStringwarehousingtime;privateStringshipmenttime;privateStringwarehousenumber;privateStringwarehouseplace;......