《机器学习初步》笔记

时间：2024-10-25 18:23:10浏览次数：3

标签：误差机器模型笔记初步算法检验 2.2 学习

第一章绪论

1.1 引言

机器学习的经典定义：利用经验（数据）改善系统自身的性能

经典的机器学习过程：

屏幕截图 2024-10-09 204222.png

机器学习最重要的理论模型：PAC（概览近似正确）

屏幕截图 2024-10-09 204243.png

1.2 基本术语

数据集：一组记录的集合

学习/训练：通过执行某个学习算法，得到模型，学的的模型对应数据的某种潜在规律

示例：不包含结果（标记label），样例:包含结果（标记label）

样本，属性（eg.色泽），属性值

属性空间、样本空间、输入空间：

屏幕截图 2024-10-09 205042.png

学习器：模型

分类：离散的输出（是or否），回归：连续的输出（0->1）

二分类（正类，负类<可交换>），多分类

无监督学习：不知道结果（任务：密度统计），监督学习：知道结果（任务：分类，回归）

1.3 假设空间

学习过程：在所有假设组成的空间中进行搜索的过程（目标：找到与训练集匹配的假设）

版本空间：与训练集一致的假设集合

1.4 归纳偏好

有效的机器学习必有其偏好

学习算法的归纳偏好是否与问题本身匹配，决定了算法的性能

1.5 NFL定理

一个算法a若在某些问题上比另一个算法b好，必存在另一些问题b比a好

具体问题，具体分析

第二章模型评估与选择

2.1 经验误差与过拟合

（1）

泛化误差：在未来样本上的误差

经验误差：在训练集上的误差，亦称“训练误差”

泛化误差越小越好，但是经验误差(训练误差）不是越小越好，因为会出现过拟合

（2）

过拟合：特征不是一般规律

欠拟合：特征不足

2.2 模型选择

评估方法：如何获得测试结果

性能度量：如何评估性能优劣

比较检验：如何判断实质差别

2.2.1 评估方法

测试集与训练集互斥

2.2.1.1 留出法

· 保持数据分布一致性(20个好瓜，20个坏瓜)
· 多次重复划分(例如:100次随机划分)
· 测试集不能太大、不能太小(例如:1/5~1/3)

2.2.1.2 k-折交叉验证法

2.2.1.3 自助法

有放回采样，可重复采样

· 训练集与原样本集同规模

· 数据分布有所改变

约有36.8%的样本不出现——>“包外估计”

2.2.1.4 调参与最终模型

算法的参数:一般由人工设定,亦称“超参数”

模型的参数:一般由学习确定

验证集：用来调参数

调参过程相似:先产生若干模型,然后基于某种评估方法进行选择

算法参数选定后,要用“训练集+验证集”重新训练最终模型，调参以验证集上的性能作为评价标准

2.2.2 性能度量

性能度量是衡量模型泛化能力的评价标准,反映了任务需求
使用不同的性能度量往往会导致不同的评判结果什么样的模型是“好”的,不仅取决于算法和数据,还取决于任务需求

回归任务常用均方误差:

2.2.2.1 错误率与精度

错误率：

精度：

2.2.2.2 查准率、查全率与F1

查准率：

查全率：

F1度量：

若对查准率/查全率有不同的偏好：

2.2.3 比较检验

2.2.3.1 假设检验

假设a算法和b算法性能是不是一样，再看实验结果，能不能把之前的假设拒绝掉，如果拒绝掉了则性能不一样，如果没拒绝则性能一样

2.2.3.2 交叉验证t检验

基于成对t检验
k折交叉验证;5x2交叉验证

统计显著性

2.2.3.3 McNemar检验

基于列联表,卡方检验

2.2.3.4 Friedman检验与Nemenyi后续检验

Friedman检验(基于序值,F检验;判断”是否都相同”)
Nemenyi后续检验(基于序值,进一步判断两两差别)

标签：误差,机器,模型,笔记,初步,算法,检验,2.2,学习
From： https://www.cnblogs.com/zhuxi1010/p/18503067

小土堆学习笔记6：常见的Transforms（二）
Resize()注意一点：Resize(512)是将图像等比例缩放，使得图像的最短边为512像素，保持了原始的宽高比例。而Resize((512,512))则是将图像强制缩放为512x512的正方形，无论图像的原始宽高比是什么。因此，如果你需要不改变比例的缩放，使用Resize(512)，如果需要固定大小为正方形的图像，则......
小土堆学习笔记7：torchvision中的数据集使用
本节视频主要内容如何把数据集和transform结合在一起，毕竟因为不可能只对一张图片进行处理，所以会讲到在科研中需要使用的标准数据集该如何下载、组织、查看、使用。（也就是.dataset和.transforms如何进行联合使用）torchvision的几个模块进入PyTorch官网，点击官方文档（DOCS），看到不......
10月25日记录（《代码大全》（第二版）阅读笔记）
精读笔记：《代码大全》（第二版）《代码大全》第二版是软件开发领域的经典之作，涵盖了从编程基础到复杂系统设计的各个方面。本书的核心目标是帮助开发者编写出高质量、易于维护的代码。通过详细阐述编程过程中的各种技术、方法和最佳实践，作者史蒂夫·迈克康奈尔为读者提供了丰富的知识......
十月二十五日总结（阅读笔记）
我读的是《程序员修炼之道：从小工到专家》。下面是阅读前三章总结的内容。第一章重点讲述了程序员的职业定位和自我提升的必要性。作者指出，作为一名程序员，首先要清楚自己的职业目标和定位。只有了解自己在职业生涯中想成为什么样的人，才能制定出切实可行的发展计划。书中提到，许多程......
Spring学习笔记_10-@Component
@Component1.介绍在项目开发过程中，我们自己编写的类如果想注入到Spring中，由Spring来管理Bean的生命周期，就可以使用@Component注解将其注入到IOC容器中。@Component注解还有三个衍生注解，那就是@Repository、@Service和@Controller注解，并且衍生出的注解通常会在使用MVC架构开......
Spring学习笔记_09——Environment
Environment1.介绍Spring框架中的Environment是一个非常重要的概念，它提供了访问当前运行环境配置的API。Environment是一个接口，它包含了多个方法，用于获取配置参数、设置默认配置源、激活特定的配置文件等。在Spring应用中，Environment实例通常被注入到需要访问配置信息的......
职业技能大赛—物联网应用开发赛项（Ubuntun_Linux）精华笔记（03）
MySQL中的show各种查看命令介绍//全局变量在MySQL启动的时候由服务器自动将它们初始化为默认值，这些默认值可以通过更改my.ini这个文件来更改。//MySQL中的show各种查看命令介绍是必须了解的Mysql基础操作还请您认真看下去 1.使用show查看showtables或showtablesfrom......
学习笔记（四）：页面和自定义组件生命周期
页面和组件的定义：自定义组件：@Component装饰的UI单元，可以组合多个系统组件实现UI的复用，可以调用组件的生命周期。页面：即应用的UI页面。可以由一个或者多个自定义组件组成，@Entry装饰的自定义组件为页面的入口组件，即页面的根节点，一个页面有且仅能有一个@Entry。只有被@Entry装饰的......
普罗米修斯笔记
参数解释名词解释例子、说明瞬时查询查询特定时间点下的计算结果mysql连接数这种只有一个数据点的指标区间查询查询在一段时间返回内的计算结果cpu使用率这种多个数据点的指标时间段你要分析的一个具体的时间范围只用于区间查询时间窗口你要进行计算的......
学习笔记（三）：自定义组件
自定义组件基于struct实现，1、struct:struct+自定义组件名+{...}的组合构成自定义组件，不能有继承关系。对于struct的实例化，可以省略new。2、@Component：@Component装饰器仅能装饰struct关键字声明的数据结构。struct被@Component装饰后具备组件化的能力，需要实现build方法描......