【机器学习】第二节-如何选择和评估模型

时间：2024-04-19 17:47:02浏览次数：30

标签：误差训练模型样本测试第二节数据评估

一、经验误差与过拟合
二、评估方法
三、性能度量
四、偏差与方差

一、经验误差与过拟合

错误率

分类错误样本数占总样本数比例

精度

1－错误率

误差

模型输出与样本真实值之间的差异

训练误差／经验误差

模型在训练集上的误差

度量指标

损失函数

泛化误差

模型在新样本上的误差，即评估模型对未知数据的预测能力

欠拟合

模型在训练集误差高
原因：模型过于简单，没有很好捕捉到数据特征

过拟合

在训练集误差低，在测试集误差高
原因：模型把数据学习的太彻底，把噪声数据也学习到

二、评估方法

专家样本

专家样本=训练集+测试集
训练集S＋测试集T：互斥互补(S∩T=Φ, D=S∪T)
训练集和测试集独立同分布且互斥

1.留出法

合理划分、保持比例

(1)单次留出法

如训练集：测试集的比例是8:2

弊端：只做一次分割，它对训练集、验证集和测试集的样本数比例，还有分割后数据的分布是否和原始数据集的分布相同等因素比较敏感

(2)多次留出法

多次留出法：如对专家样本随机进行100次训练集／测试集划分，评估结果取平均
缺点：模型评估结果与训练集和测试集比例有关

2.交叉验证

(1)k折交叉验证

将专家样本等份划分为K个数据集，轮流用K－1个用于训练，1个用于测试，当k=m，则为留一法；
k 折交叉验证通过对 k 个不同分组训练的结果进行平均来减少方差，
因此模型的性能对数据的划分就不那么敏感。

第一步，不重复抽样将原始数据随机分为 k 份。
第二步，每一次挑选其中 1 份作为测试集，剩余 k-1 份作为训练集用于模型训练。
第三步，重复第二步 k 次，这样每个子集都有一次机会作为测试集，其余机会作为训练集。
在每个训练集上训练后得到一个模型，
用这个模型在相应的测试集上测试，计算并保存模型的评估指标，
第四步，计算 k 组测试结果的平均值作为模型精度的估计，并作为当前 k 折交叉验证下模型的性能指标。
k 一般取 10，
数据量小的时候，k 可以设大一点，这样训练集占整体比例就比较大，不过同时训练的模型个数也增多。
如120条数据，分成10份，每份含12条数据；分成12份，每份含10条数据；
即k越大，数据集越小
数据量大的时候，k 可以设小一点。

(2)留一法

即当k=m即样本总数，每次的测试集都只有一个样本，要进行 m 次训练和预测
这个方法用于训练的数据只比整体数据集少了一个样本，因此最接近原始样本的分布
但是训练复杂度增加了，因为模型的数量与原始数据样本数量相同
一般在数据缺乏时使用
当样本数很多的话，这种方法开销很大

(3)P次k折交叉验证

由于留一法不适用数据集较大，因此，需采用P次k折交叉验证，例如：10次10折交叉验证

3.自助法

即在含有 m 个样本的数据集中，进行 m 次有放回地随机抽样，组成的新数据集作为训练集。
优点是训练集的样本总数和原数据集一样都是 m，并且仍有约 1/3 的数据不被训练而可以作为测试集，对于样本数少的数据集，就不用再由于拆分得更小而影响模型的效果。
缺点是这样产生的训练集的数据分布和原数据集的不一样了，会引入估计偏差。
此种方法不是很常用，除非数据量真的很少。

作者：不会停的蜗牛
链接：https://www.jianshu.com/p/5b793f9b6481
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

参考内容:机器学习面试题集 - 详解四种交叉验证方法

三、性能度量

四、偏差与方差

标签：误差,训练,模型,样本,测试,第二节,数据,评估
From： https://www.cnblogs.com/Gimm/p/18141194

（内含福利）Meta 发布新开源模型 Llama 3；华为 Pura 70 系列一分钟售罄丨 RTE 开发者日报
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（RealTimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎......
【百川大模型】RediSearch在python中的应用场景
[本文出自天外归云的博客园]RediSearch是一个非常强大的全文搜索引擎，它可以与Python一起使用，为你的应用程序提供快速的搜索能力。以下是一些使用RediSearch的场景示例：场景一：商品搜索假设你正在开发一个电子商务网站，你需要为用户提供一个搜索框，让他们能够快速找到他们想要的商品......
NL2SQL实践系列(2)：2024最新模型实战效果(Chat2DB-GLM、书生·浦语2、InternLM2-SQL等)
SQL实践系列(2)：更多模型使用以及工业级案例NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1)：DB-GPT-H......
用户行为分析模型实践（四）—— 留存分析模型
作者：vivo互联网大数据团队-WuYonggang、LiXiong本文是vivo互联网大数据团队《用户行为分析模型实践》系列文章第4篇-留存分析模型。本文详细介绍了留存分析模型的概念及基本原理，并阐述了其在产品中具体实现。针对在实际使用过程问题，探索了基于ClickHouse留存分析模型实践......
第二节流动式起重机的工作机构
第二节流动式起重机的工作机构中流动式起重机的工作机构一般由起升机构、变幅机构、回转机构和行走机构等组成。喂一、起升机构丘流动式起重机的起升机构由动力装置、减速装置、卷筒及制动装置等组成。该动力装置一般是柴油机或汽油机,除用来驱动起升机构外,也用来驱动行走机构、......
【高级RAG技巧】在大模型知识库问答中增强文档分割与表格提取
前言文档分割是一项具有挑战性的任务，它是任何知识库问答系统的基础。高质量的文档分割结果对于显著提升问答效果至关重要，但是目前大多数开源库的处理能力有限。这些开源的库或者方法缺点大致可以罗列如下：只能处理文本，无法提取表格中的内容缺乏有效的分割策略，要么是一整个文档......
第二节起重机械的工作级别
第二节起重机械的工作级别起重机工作级别是按起重机的利用等级和载荷状态来划分的。起重机的利用等级是表征起重机在整个设计寿命期间的使用频繁程度,按设计寿命期内总的工作循环次数来分级;起重机的载荷状态是表明起重机受载的轻重程度的指标,综合考虑利用等级和载荷状态,起重机......
第二节麻绳
第二节麻绳一、麻绳的特点与用途麻绳具有质地柔韧、轻便、易于捆绑、结扣及解脱方便等优点。但其强度较低,一般麻绳的强度,只为相同直径钢丝绳的10%左右,而且易磨损、腐烂、霉变。麻绳在起重作业中主要用于捆绑物体;起吊:500kg以下的较轻物件;当起吊物件或重物时,麻绳拉紧物体,......
亚马逊云集齐 Claude 3 全家桶；世界数字技术院发布大模型安全国际标准丨 RTE 开发者日
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（RealTimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编......
星火大模型C#调用实现
staticClientWebSocketwebSocket0;staticCancellationTokencancellation;//应用APPID（必须为webapi类型应用，并开通星火认知大模型授权）conststringx_appid="xxxxx";//接口密钥（webapi类型应用开通星火认知大模型后，控制台--我的应用---星火认知大模型---相应服务的apik......