2.4 比较检验机器学习

时间：2024-03-29 19:05:07浏览次数：27

接我们的上一篇《性能度量》，那么我们在某种度量下取得评估结果后，是否可以直接比较以评判优劣呢？实际上是不可以的。因为我们第一，测试性能不等于泛化性能，第二，测试性能会随着测试集的变化而变化，第二，很多机器学习算法本身有一定的随机性，即便用相同参数设置在同一测试集上其结果也会不同所以直接选取相应评估方法在相应度量下比大小的方法不可取。

常见比较检验方法

统计假设检验 (hypothesis test) 为学习器性能比较提供了重要依据。即比较两算法性能是否相同。一般我们假设两算法性能一样，很显然，若拒绝，则性能不一样，若没拒绝则性能一样。（参见《概率论与数理统计》中假设检验）

两学习器比较：

1.交叉验证 t 检验 (基于成对 t 检验) k 折交叉验证； 5x2交叉验证

2.McNemar 检验 (基于列联表，卡方检验)

多学习器比较：

1.Friedman检验 (基于序值，F检验; 判断“是否都相同”)

2.Nemenyi 后续检验 (基于序值，进一步判断两两差别)

总述

首先我们比较两个学习器的时候，假设我们两学习器一样的性能，我们基于一个值来评估，那么我们在多个测试集中得出的两学习器的误差的差的均值近似为0.显然我们判断此种情况时符合我们的T检验。对于我们的多个值评估，我们使用联列表（记得上次那个TP,NP的表吗？这就类似于那个）假设我们有两个学习器，对于同一组样本，我们的联列表如下：

显然，我们对比副对角线（即代表算法A和B认为的“差异”部分），并对此进行检验分布。

2.4.1 假设检验

在分析交叉验证t检验之前我们先来分析一下二项检验。题目如下：

这个题目可能有点难以理解，我们换个题目：

假设我们有一个球堆A，里面有一些黑球和白球，我们拿m次球，拿到的黑球有m*p个，随后我们又在球堆B里拿球，球堆有m0个球，我们拿到黑球的概率是P2，请问我们恰好有m*p次拿到黑球的概率是多少？

这道题我们只看后面的部分，即：在球堆B里拿球，球堆有m个球，我们拿到黑球的概率是P2，请问我们恰好有m*p次拿到黑球的概率是多少？

显然我们使用二项分布，即C（m*p ，m0）* P2的m*p次方 * (1-P2）的（m0-m*p）次方。

我们回到之前的题目中，是否有些相似了呢？

泛化错误率就是我们这里的P2，测试错误率就是我们这里的p，m和m0分别对应我们这里的m和m0.

类比思考一下，我们就能很轻松的得到以下式子：其表达的含义为：在m个样本上，泛化错误率被测得为测试错误率的概率。（这里的括号与C的含义相同但是上下颠倒），显然我们这里符合二项分布。

随后我们使用极大似然估计（可以参考《概率论与数理统计一书》），得到其概率在 $\epsilon =$ $\epsilon$ ^时最大。

我们假设ϵ=0.3,m=10，我们可得到以下的图：

这里t分布与之前的二项分布有相似之处，可以结合起来一起理解。

2.4.2 交叉验证T检验

2.4.3 McNemar 检验

其使用的卡方分布，但同样的使用的统计学理念与之前类似。

2.4.4 Friedman检验与Nemenyi后续检验

标签：机器,性能,球堆,检验,黑球,我们,2.4
From： https://blog.csdn.net/2403_83073833/article/details/137055870

ssh实现linux机器之间的互相访问和命令控制
在Linux系统之间互相访问并通过命令控制可以通过多种方式实现，其中最常用的方法是使用SSH（SecureShell）协议。SSH是一个提供加密的网络协议，通过它可以安全地在不安全的网络上进行远程登录和其他网络服务。以下是使用SSH实现Linux系统之间互相访问的基本步骤：1.安装SSH服务在两台Li......
机器人姿态估计-IMU、互补滤波算法应用+C代码实现
机器人姿态估计-IMU、互补滤波算法应用附赠自动驾驶学习资料和量产经验：链接机器人的姿态测量对于许多应用至关重要，如导航、运动控制等。在这篇文章中，我们将介绍如何利用MPU6050传感器以及互补滤波和卡尔曼滤波算法来实现自平衡车的姿态测量。我们将从原理出发，逐步介绍互补滤波......
【SQL】1661. 每台机器的进程平均运行时间（四种写法；自连接；case when；窗口函数lead()；）
前述Sql窗口分析函数【lead、lag详解】Hive分析函数lead、lag实例应用lag：用于统计窗口内往上第n行值lead：用于统计窗口内往下第n行值lead(列名,1,0)over(partitionby分组列orderby排序列rowsbetween开始位置precedingand结束位置following)lag和lead......
机器学习模型之逻辑回归
逻辑回归是一种常用的分类算法，尤其适用于二分类问题。逻辑回归的核心思想是通过对数几率函数（logisticfunction）将线性回归的输出映射到概率空间，从而实现分类。逻辑回归的原理：逻辑回归模型使用对数几率函数（logisticfunction）作为激活函数，将线性回归的输出映射到概率空间。对数......
Python机器学习从入门到高级：导入数据（包含数据库连接）
python数据科学系列https://developer.aliyun.com/article/1174199 ......
新机器安装docker （新手笔记）-- 知其所以然
1.安装Docker-2024.03.28官方手册清华大学开源软件镜像站|可从主页找到Docker资源#AddDocker'sofficialGPGkey:sudoapt-getupdatesudoapt-getinstallca-certificatescurlsudoinstall-m0755-d/etc/apt/keyringssudocurl-fsSLhttps://download.docker......
Ubuntu22.04下Issac Gym/宇树机器人RL&gcc/g++,CUDA,CUDA ToolKit,Pytorch配置环境配
前置条件本随笔写作Condition：在本人3050Ti笔记本上配好环境后，再在室友4060笔记本上边配边记录整理所得。室友的系统已经配好了相应驱动，因此，本随笔内容基于已经安装了NVIDIA显卡驱动的系统。下次搞到没装驱动的系统我再补一个随笔。宇树机器人宇树科技的文档中心有一个简单的安......
【节选转载】人形机器人Optimus擎天柱技术解析
参考原文：https://www.sohu.com/a/589454391_383324?scm=9010.8000.0.0.1265可以利用动作捕捉“学习”人类动作，依靠视觉的AI算法和学习，机器人能知道手在空间的位置，并准确拿取物品。Optimus擎天柱感知世界的方式和人类一样，都是视觉。可以看到，不同的物体被以不同的颜色......
2.4 死锁
12345678910111213......
机器学习——模型评估与选择
1、经验误差与过拟合学习器在训练集上的误差称为“训练误差”或“经验误差”，在新样本上的误差称为“泛化误差”，显然，我们希望得到泛化误差小的学习器。为了达到这个目的，应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”，这样才能在遇到新样本时做出正确的判......

2.4 比较检验机器学习

常见比较检验方法

总述

2.4.1 假设检验

2.4.2 交叉验证T检验

2.4.3 McNemar 检验

相关文章

赞助商

阅读排行

2.4 比较检验 机器学习

常见比较检验方法

总述

2.4.1 假设检验

2.4.2 交叉验证T检验

2.4.3 McNemar 检验

相关文章

赞助商

阅读排行

2.4 比较检验机器学习