首页 > 其他分享 >ML 系列:第 41节 - 假设检验简介

ML 系列:第 41节 - 假设检验简介

时间:2024-12-21 23:27:03浏览次数:7  
标签:显著性 ML 假设检验 检验 41 假设 类型 备择

假设检验的基本原理及其在机器学习中的重要性

一、说明

   在我们这个数据驱动的世界里,决策通常基于数据。假设检验在这个过程中起着至关重要的作用,无论是在商业决策、医疗保健领域、学术界还是质量改进的背景下。如果没有明确的假设和严格的假设检验,就有可能得出错误的结论并做出次优的决策。

   在这篇博文中,我们将探讨假设检验的关键概念,包括零假设(H0)、备择假设(H1)、重要性水平(α)、p 值、错误类型,并提供使用 Python 的实际示例。我们还将涉及不同类型的假设检验,为后续教程中更详细的讨论奠定基础。

二、假设检验的关键概念

2.1 H0和H1检验

  •    零假设 (H0):
    零假设是默认假设,即没有影响或没有差异。它代表现状或没有变化的陈述。例如,在测试一种新药时,零假设可能表明该药物与安慰剂相比没有效果。

  •    备择假设 (H1):
    备择假设是与零假设相矛盾的陈述。它代表研究人员想要证明的效果或差异。继续以药物为例,备择假设会指出该药物与安慰剂相比具有显著效果。

  •    显著性水平 (α):
    显著性水平是确定在零假设下观察到的数据是否足够不可能的阈值。它是当零假设实际上为真时拒绝零假设的概率(I 类错误)。α 的常见选择是 0.05,表示假阳性风险为 5%。

  •    P 值:
    假设零假设成立,p 值是获得至少与观察到的一样极端的检验统计量的概率。小于 α 的 p 值提供了反对零假设的有力证据。例如,如果 p 值为 0.03 且 α 为 0.05,我们将拒绝零假设。

2.2 假设检验中的错误类型

  1.    类型 I 错误(假阳性):
    当零假设实际上为真时,却拒绝了它。重要性水平 α 表示犯类型 I 错误的概率。

  2.    类型 II 错误(假阴性):
    当零假设实际上为假时,却没有拒绝它。犯类型 II 错误的概率用 β 表示,检验的功效(1 — β)表示正确拒绝错误零假设的概率。
    假设检验公式
    假设检验的一般公式涉及计算检验统计量,然后可以将其与临界值进行比较或用于查找 p 值。检验统计量的公式取决于所执行的检验类型。例如,双样本 t 检验中 t 检验统计量的公式为:

在这里插入图片描述

在这里:
在这里插入图片描述

让我们用一个例子来说明这一点:

2.3 示例:测试新药

假设我们想测试一种新药是否比安慰剂更有效。我们从两组收集数据:一组使用新药治疗,一组使用安慰剂治疗。

零假设(H0):新药没有效果(平均差异 = 0)。
备择假设(H1):新药有效果(平均差异≠0)。
显著性水平(α):0.05。
样本数据:

药物组(n1 = 10):平均值 = 85,标准差 = 5。
安慰剂组(n2 = 10):平均值 = 80,标准差 = 5。
使用 t 检验公式:
在这里插入图片描述

现在我们可以将这个 t 值与 t 分布表中的临界值进行比较,或者计算 p 值。

三、使用 Python 进行假设检验计算

让我们通过一个使用 Python 进行假设检验的实际例子来看一下。

3.1 例子:

假设我们想测试一种新的教学方法是否比传统方法更有效。我们收集两组学生的考试成绩:一组使用传统方法,另一组使用新方法。

import numpy as np 
from scipy import stats 

# 样本数据
traditional_scores = [ 78 , 82 , 85 , 88 , 90 , 79 , 83 , 85 , 87 , 92 ] 
new_method_scores = [ 85 , 87 , 90 , 91 , 93 , 88 , 89 , 90 , 92 , 95 ] 

# 进行独立 t 检验
t_statistic, p_value = stats.ttest_ind(new_method_scores, traditional_scores) #

显著性水平
alpha = 0.05 

print ( f"T-statistic: {t_statistic} " ) 
print ( f"P-value: {p_value} " ) 

if p_value < alpha: 
    print ( "拒绝原假设。新的教学方法显著更有效。" ) 
else : 
    print ( "无法拒绝原假设,教学方法之间没有显著差异。" )

输出:

T 统计量:2.9839815788878217
P 值:0.007957697008687667

拒绝零假设。新的教学方法明显更有效。

在这个例子中,p值(0.004)小于显著性水平(0.05),所以我们拒绝原假设,并得出结论:新的教学方法显著更有效。

3.2 假设检验的类型

根据数据的性质和测试的目的,假设检验大致可分为不同类型。一些常见类型包括:

  1. 单样本 T 检验:检验单个样本的平均值是否与已知值不同。
  2. 双样本 T 检验:比较两个独立样本的平均值。
  3. 配对 T 检验:比较同一组在不同时间的平均值。
  4. 卡方检验:检验分类变量之间的关联。
  5. ANOVA(方差分析):比较三个或更多组之间的平均值。

在我们的下一个教程中,我们将深入研究这些类型的假设检验,解释它们的用例、假设以及使用 Python 的实际实现。

四、结论

假设检验是分析数据和做出明智决策的重要工具。通过了解零假设、备择假设、显著性水平、p 值和错误类型,您可以执行稳健的统计分析。Python 拥有丰富的库,可以轻松执行这些测试并从数据中得出有意义的结论。请继续关注我们的下一个教程,我们将在其中详细探讨不同类型的假设检验。

标签:显著性,ML,假设检验,检验,41,假设,类型,备择
From: https://blog.csdn.net/gongdiwudu/article/details/144594934

相关文章

  • 2024-2025-1 20241411王思棋《计算机基础与程序设计》第十三周学习总结
    作业信息这个作业属于哪个课程<班级的链接>https://edu.cnblogs.com/campus/besti/2024-2025-1-CFAP这个作业要求在哪里<作业要求的链接>https://www.cnblogs.com/rocedu/p/9577842.html#WEEK13这个作业的目标结构体的定义结构体数组的定义和初始化结构......
  • 洛谷 P11411 兰奇的卡牌游戏——题解
    洛谷P11411兰奇的卡牌游戏传送锚点摸鱼环节兰奇的卡牌游戏题目描述作为制卡大师的兰奇,发明了一种自助型卡牌游戏。给定\(n\)张卡牌,第\(i\)张卡牌编号为\(i\),其权值为\(a_i\),卡牌的权值互不相同。这个卡牌游戏的规则需要自己生成。一开始,所有的牌都在备选区。从备选......
  • 2024-2025-1 学号20241315《计算机基础与程序设计》第十三周学习总结
    作业信息这个作业属于哪个课程<班级的链接>2024-2025-1-计算机基础与程序设计)这个作业要求在哪里<作业要求的链接>https://www.cnblogs.com/rocedu/p/9577842.html#WEEK13这个作业的目标<写上具体方面>第12章并完成云班课测试作业正文...本博客链接 https://w......
  • CHM助手 >> 使用说明 >> 步骤1:清理HTML文档
      1CHM助手使用说明>>步骤1:清理HTML文档1.1应用场景  由于编译CHM文档时,html文档的目标文本编码方式是GB2312,而使用第三方工具编写的html文件可能是utf8编码或者其他编码方式,有些特殊字符如:©、......
  • YAML文件介绍
    YAML是一种人类可读的数据序列化标准,广泛用于配置文件和数据交换。它的设计目标是使文件易于阅读和编写,同时保持足够的表达力以满足大多数应用的需求,YAML文件通常以.yaml或.yml为扩展名。YAML的特点简洁性:YAML使用缩进来表示层次结构,避免了XML和JSON中常见的大量括号和引号......
  • UML之类与类图
    在所有项目中,类都是最常见的UML模型元素(当然,不可否认,很多项目还没画出类图就直接进入编码实现的阶段了)。类是UML模型与具体实现代码之间的桥梁,随着对UML建模的深入了解,我们也会发现,类(确切说是分析类)其实也是一些模型之间的桥梁。在真实世界中不同对象通过协同工作完成相关业务。......
  • 2024-2025-1 20241413 《计算机基础与程序设计》 第十三周学习总结
    |班级链接|https://edu.cnblogs.com/campus/besti/2024-2025-1-CFAP||----|----|----||作业要求|https://www.cnblogs.com/rocedu/p/9577842.html#WEEK13||----|----|----|教材学习内容总结《C语言程序设计》第12章结构体定义:结构体是一种用户自定......
  • HTML5 tooltips工具提示jquery插件
    tooltip.js是一款HTML5tooltips工具提示jquery插件。tooltip.js可以通过js或html5data属性来实例化一个tooltip。在线预览  下载 它的特点还有:可以自定义tooltip动画。内置暗色和亮色两种主题。可以自定义文字和阴影的颜色等属性。允许动态的改变tooltip的内容。......
  • 学期:2024-2025-1 学号:20241303 《计算机基础与程序设计》第十三周学习总结
    作业信息这个作业属于哪个课程<班级的链接>(如2024-2025-1-计算机基础与程序设计)这个作业要求在哪里<作业要求的链接>(如2024-2025-1计算机基础与程序设计第十三周作业)这个作业的目标<写上具体方面>加入云班课,参考本周学习资源;自学教材《C语言程序设计》第12章并完......
  • 学期2024-2025-1 学号20241424 《计算机基础与程序设计》第13周学习总结
    学期2024-2025-1学号20241424《计算机基础与程序设计》第13周学习总结作业信息|这个作业属于2024-2025-1-计算机基础与程序设计)||-- |-- ||这个作业要求在2024-2025-1计算机基础与程序设计第13周作业||这个作业的目标|<学习《C语言程序设计》第12章并完成云班课测试>||作......