我有一个包含 6 组的数据集。我想比较每个组的平均值。我做了单向方差分析,结果显示各组之间存在显着差异。为了找出哪一个,我做了一个 Tukey 诚实显着差异测试。结果表明,大多数群体的均值显着不同,但有些群体则没有。当调查所有群体的手段时,他们确实表现出显着差异。尤其是考虑到平均值差异之大,0 -4 之间缺乏显着差异令人惊讶。
由于隐私问题,我无法共享我的数据。
`这是我的代码:
``#classifying groups
def class_spirit(s):
if (s['spirit_commu'] == 0):
返回0
if (s['spirit_commu'] < 1) 且 (s['spirit_commu'] >= 0):
返回1
if (s['spirit_commu'] < 2) 且 (s['spirit_commu'] >= 1):
返回2
if (s['spirit_commu'] < 3) 且 (s['spirit_commu'] >= 2):
返回3
if (s['spirit_commu'] < 4) 且 (s['spirit_commu'] >= 3):
返回 4
if (s['spirit_commu'] < 5) 且 (s['spirit_commu'] >= 4):
返回5
if (s['spirit_commu'] >= 5) :
返回 6
否则:
return 7
df4['Class'] = df4.apply(class_spirit, axis=1)
print((df4['Class']).unique())`
#Tukey HSD test
导入 scipy.stats 作为统计数据
print(df4.head())
stats.f_oneway(df4['totalaverage'][df4['Class'] == 0],
df4['totalaverage'][df4['Class'] == 1],
df4['totalaverage'][df4['Class'] == 2],
df4['totalaverage'][df4['Class'] == 3],
df4['totalaverage'][df4['Class'] == 4],
df4['totalaverage'][df4['Class'] == 5]
)````
这是每组均值的表格:
N 平均值 SD SE 95% Conf。 间隔
类
0 49 1.6013 0.5488 0.0784 1.4437 1.7589
1 14 1.7387 0.3676 0.0982 1.5265 1.9510
2 111 1.9840 0.4162 0.0395 1.9058 2.0623
3 85 2.2634 0.4375 0.0474 2.1691 2.3578
4 70 2.5816 0.5491 0.0656 2.4506 2.7125
5 16 2.8986 0.7251 0.1813 2.5122 3.2850
这些是 Tukey HSD 的结果:
Tukey 的 HSD 成对组比较(95.0% 置信区间) 比较统计 p 值 CI 下限 CI 上限 (0 - 1) 0.101 0.003 0.024 0.179 (0 - 2) -0.180 0.000 -0.258 -0.102 (0 - 3) -0.104 0.002 -0.182 -0.026 (0 - 4) -0.061 0.225 -0.139 0.017 (0 - 5) 0.096 0.006 0.018 0.174 (1 - 0) -0.101 0.003 -0.179 -0.024 (1 - 2) -0.281 0.000 -0.359 -0.203 (1 - 3) -0.206 0.000 -0.284 -0.128 (1 - 4) -0.162 0.000 -0.240 -0.084 (1 - 5) -0.006 1.000 -0.084 0.072 (2 - 0) 0.180 0.000 0.102 0.258 (2-1) 0.281 0.000 0.203 0.359 (2-3) 0.075 0.065 -0.003 0.153 (2 - 4) 0.119 0.000 0.041 0.197 (2 - 5) 0.275 0.000 0.197 0.353 (3-0) 0.104 0.002 0.026 0.182 (3-1) 0.206 0.000 0.128 0.284 (3-2) -0.075 0.065 -0.153 0.003 (3-4) 0.043 0.605 -0.034 0.121 (3 - 5) 0.200 0.000 0.122 0.278 (4-0) 0.061 0.225 -0.017 0.139 (4-1) 0.162 0.000 0.084 0.240 (4 - 2) -0.119 0.000 -0.197 -0.041 (4-3) -0.043 0.605 -0.121 0.034 (4 - 5) 0.157 0.000 0.079 0.234 (5 - 0) -0.096 0.006 -0.174 -0.018 (5 - 1) 0.006 1.000 -0.072 0.084 (5 - 2) -0.275 0.000 -0.353 -0.197 (5 - 3) -0.200 0.000 -0.278 -0.122 (5 - 4) -0.157 0.000 -0.234 -0.079
我尝试进行 Tukey HSD 检验,并预计至少第 0 组和所有其他组之间的均值存在显着差异。
图基 HSD 检验的结果表明,并非所有组均值之间都存在统计学意义上的显著差异是可以的,即使各组均值之间存在明显差异,即使单因素方差分析表明至少有一对组之间存在显著差异。以下是一些需要牢记的点:
-
图基 HSD 检验是保守的。 它是为降低在进行多重比较时出现 I 类错误(假阳性)的风险而设计的。这意味着,与其他事后检验相比,它在检测显著差异方面可能不那么有效。
-
样本量会起作用。 虽然的六个组的均值似乎有很大差异(范围从 1.60 到 2.89),但的组的样本量差异很大(从 14 到 111)。样本量较小的组可能没有足够的统计功效来检测所有组均值之间的显著差异,即使这些差异在数值上很大。
-
数据的变异性会起作用。 图基 HSD 检验考虑了每个组内数据的变异性。如果的组内有较大的变异性(由较大的标准偏差 [SD] 所示),则检测组均值之间的显著差异会更加困难。
-
不要过度解读缺乏显著性。 仅仅因为置信区间包含 0,或者 p 值大于的显著性水平,并不一定意味着两个组之间没有差异。这仅仅意味着没有足够的证据来拒绝原假设,即这两个组的均值相等。
建议:
- 检查数据的假设条件。 图基 HSD 检验假设数据服从正态分布,并且各组的方差相等。可以使用直方图、QQ 图和 Levene 检验来检查这些假设条件。如果违反了假设条件,可能需要考虑使用非参数检验,例如 Kruskal-Wallis 检验和事后邓恩检验。
- 考虑其他事后检验。 还有许多其他事后检验的保守性不如图基 HSD 检验,例如 Games-Howell 检验或 Dunnett 检验。如果担心 I 类错误率,并且的数据不符合图基 HSD 检验的假设条件,那么这些检验可能更合适。
- 关注效应量。 除了 p 值之外,还要报告效应量(例如,Cohen's d 或 eta 平方)。效应量可以帮助量化组均值之间差异的大小。
- 考虑的研究结果的实际意义。 即使在统计学意义上不显著,组均值之间的小差异在某些情况下也可能具有实际意义。
请记住,统计显著性只是决策过程中的一个因素。还应考虑的研究结果的实际意义以及所在领域的整体证据。
标签:python,anova,tukey From: 78824201