首页 > 其他分享 >假设检验之 :单因素方差分析

假设检验之 :单因素方差分析

时间:2023-04-12 14:11:49浏览次数:49  
标签:因素 res 假设检验 检验 方差分析 print import data pvalue

秩和检验:

  • 用于比较两组独立样本的中位数是否有明显差异。它不需要对数据的分布进行任何假设,适用于任何两组样本大小相等或不等、符合连续性变量的情况。
  • 在进行 Mann-Whitney U 检验时,需要根据研究问题确定备择假设类型来选择使用双侧检验还是单侧检验。
  • 如果没有明确的预测或假设关于哪个样本的中位数更高或更低,那么应该使用双侧检验。
    • 双侧检验的备择假设是两组样本的中位数不相等,即 μx ≠ μy。这种情况通常适用于探究两组样本之间是否存在差异或者对两组样本进行对比的目的。
  • 而如果有特定的预测或假设表明一个样本的中位数要大于或小于另一个样本,那么应该使用单侧检验。
    • 例如,在某个药物疗效研究中,研究者可能会预测使用药物的组的中位数显著高于使用安慰剂的组,因此应该采用单侧检验,即备择假设为 μx > μy。

导入数据处理常用相关包

import numpy as np
import pandas as pd
from scipy.stats import describe
from scipy.stats import normaltest
from scipy.stats import levene
from scipy.stats import ttest_ind
from scipy.stats import f_oneway
from scipy.stats import mannwhitneyu

读取数据添加一列作为基因名

data = pd.read_excel("express.xlsx")
data.insert(0, column='Gene', value=["gene"+str(x) for x in range(1,1+data.shape[0])])
data.head(3)
Gene FPKM TPM
0 gene1 367.120483 458.200928
1 gene2 204.922272 255.762268
2 gene3 516.293945 644.383423

正态性检验:

tpm = normaltest(data['TPM']) 
fpkm= normaltest(data['FPKM'])
print(f'{tpm}')
print(f'{fpkm}')

print("\n输出其他描述信息:")
print(describe(tpm))
print(describe(fpkm))
out: p 值 << 0.05 拒绝H0假设 不符合正态分布
NormaltestResult(statistic=57.70339700520858, pvalue=2.95030249660953e-13)
NormaltestResult(statistic=57.7037787800525, pvalue=2.949739374720097e-13)

输出其他描述信息:
DescribeResult(nobs=2, minmax=(2.95030249660953e-13, 57.70339700520858), mean=28.85169850260444, variance=1664.8410129703402, skewness=-2.2721514099690834e-16, kurtosis=-2.0)
DescribeResult(nobs=2, minmax=(2.949739374720097e-13, 57.7037787800525), mean=28.8518893900264, variance=1664.8630427486016, skewness=-2.2721063118214863e-16, kurtosis=-2.0)

方差齐性检验:

var = levene(data['TPM'],data['FPKM']) # p >> 0.05 接受H0 方差齐
print(var)

LeveneResult(statistic=0.0709691736536265, pvalue=0.7907140177866699)

数据方差齐,但不满足正态分布,样本量超过30,不能用t检验,方差分析也不行,不能进行参数检验,需采用非参数检验。这里先用秩和检验,然后强行上参数检验看下结果

秩和检验:

res = mannwhitneyu(data['FPKM'],data['TPM']) # alternative=None 默认转双侧检验, 设置less表示单侧检验
print(res)
print(res.pvalue)

MannwhitneyuResult(statistic=566.0, pvalue=0.3586216453583554)
0.3586216453583554

p > 0.05 接受原假设H0,两组数据无显著差别

T检验:

res = ttest_ind(data['FPKM'],data['TPM'],equal_var=True) # 默认方差相等
print(res)
print(res.pvalue)

Ttest_indResult(statistic=-0.2682272511918144, pvalue=0.7893132644009568)
0.7893132644009568

单因素方差分析:

res = f_oneway(data['TPM'],data['FPKM']) 
print(res)
print(res.pvalue)

F_onewayResult(statistic=0.07194585828191666, pvalue=0.7893132644009524)
0.7893132644009524

标签:因素,res,假设检验,检验,方差分析,print,import,data,pvalue
From: https://www.cnblogs.com/mmtinfo/p/17309611.html

相关文章

  • 影响云服务器性能的主要因素有哪些?
    性能是企业和云服务提供商比较关心的问题。那么为什么性能很重要,在使用美国云服务器时影响性能的因素有哪些?让我们通过下面的文章一探究竟。配置云服务器配置对性能影响最大,包括vCPU、RAM、HardDrive。vCPU:与物理服务器的CPU一样,vCPU也包括核心数(cores)或GHz(Clockspeed)等评估......
  • 认证机构ISO体系认证证书价格主要受哪些因素影响?
    认证机构ISO体系认证证书价格主要受哪些因素影响?更多认证机构信息可以到zhguoguo.com/shop查看。很多企业在做ISO体系认证时,都比较关心价格的问题,比如:ISO9001质量管理体系多少钱?ISO14001环境管理体系多少钱?或是ISO45001职业健康安全管理体系多少钱?对于这些问题,大多数认证机构基本上......
  • 用Abp实现双因素认证(Two-Factor Authentication, 2FA)登录(一):认证模块
    @目录原理用户验证码校验模块双因素认证模块改写登录在之前的博文用Abp实现短信验证码免密登录(一):短信校验模块一文中,我们实现了用户验证码校验模块,今天来拓展这个模块,使Abp用户系统支持双因素认证(Two-FactorAuthentication)功能。双因素认证(Two-FactorAuthentication,简称2FA......
  • R语言逻辑回归Logistic选股因素模型交易策略及沪深300指数实证
    全文链接:http://tecdat.cn/?p=32071原文出处:拓端数据部落公众号随着中国的证券市场规模的不断壮大、市场创新不断深化、信息披露不断完善、市场监管不断强化,随着现代投资组合理论的发展和计算机技术的进步,投资者为了在股票交易中取得更多的收益,就需要有合理有效的投资策略,因素模......
  • 假设检验
    1231......
  • 共享单车需求量数据用CART决策树、随机森林以及XGBOOST算法登记分类及影响因素分析|附
    全文链接:http://tecdat.cn/?p=28519作者:YiyiHu最近我们被客户要求撰写关于共享单车的研究报告,包括一些图形和统计输出。近年来,共享经济成为社会服务业内的一股重要力量。作为共享经济的一个代表性行业,共享单车快速发展,成为继地铁、公交之后的第三大公共出行方式但与此同时,它......
  • 双因素方差分析流程
    双因素方差分析流程一、案例分析当前收集了39名志愿者减重效果的相关数据,他们的生活方式可分为3种,现在研究人员想要研究生活方式和性别对于减重的影响,想要知道不同的生......
  • 王老师详解装配式建筑成本问题以及推广原因因素
    高成本是阻碍装配式建筑发展或推广的因素其实,我国装配式建筑的发展并非近几年才启动,1999年国务院就出台了《关于推进住宅产业现代化提高住宅质量若干意见》等相关文件。上......
  • 选择HTTP代理需要考虑哪些因素
    对于爬虫工作者来说,选择合适的HTTP代理是很重要的一项工作,正所谓“工欲善其事必先利其器”。那么选择HTTP代理需要考虑哪些因素呢?1、价格很多人选择HTTP代理首......
  • c++ 影响多线程速度的因素记录
    目录0.序言1.缓存行同步问题/共享数据竞争1.1测试代码1.2测试逻辑1.3测试结果1.4小结2.任务颗粒度过小问题2.1测试代码2.1测试逻辑2.2测试结果2.3小结3.缓存未......