为了解决特定问题而进行的学习是提高效率的最佳途径。这种方法能够使我们专注于最相关的知识和技能,从而更快地掌握解决问题所需的能力。
(以下练习题来源于《统计学—基于Python》。联系我获取完整数据和Python代码。)
求解参数(区间)估计的基本思路
-
一看求总体的什么参数(总体均值、总体比例、总体方差)
-
二看求一个总体的参数还是两个总体的参数(总体均值和总体比例是之差,总体方差是之比)
-
三看是大样本还是小样本
-
最后确定采用的估计方法
-
牢记心中:参数估计是用样本统计量推断总体参数
习题一
顾客到银行办理业务时往往需要等待一些时间,等待时间的长短与许多因素有关,比如,银行的业务员办理业务的速度、顾客等待排队的方式等。为此,某银行准备采取两种排队方式进行试验,第一种排队方式是所有顾客都进入一个等待队伍;第二种排队方式是顾客在三个业务窗口处排队等待。为比较哪种排队方式使顾客等待的时间更短,银行各随机抽取10名顾客,他们在办理业务时等待的时间(单位:分钟)如下:
(1)构建第一种排队方式等待时间均值的95%的置信区间。
(2)构建第二种排队方式等待时间方差的95%的置信区间。
(3)构建两种方式排队时间均值之差的95%的置信区间:①假设两个总体方差相等;②假设两个总体方差不相等。
题目分析:
(1)题考查了小样本情况下的一个总体均值的区间估计,需要借助t分布;
(2)题考查了一个总体方差的区间估计,需要借助卡方分布;
(3)题考查了独立小样本情况下,两个总体均值之差的区间估计。特别地,假设了两个总体方差相等和不等两种情况。
Python代码:
import pandas as pd
import numpy as np
import scipy.stats as st
from scipy.stats import chi2
from scipy.stats import t
from statsmodels.stats.weightstats import ttest_ind
exercise6_3 = pd.read_csv('exercise6_3.csv')
# exercise6_3.head()
confidence = 0.95
x1 = exercise6_3['方式1']
x2 = exercise6_3['方式2']
var1 = x1.var() # 方法1的方差
var2 = x2.var() # 方法2的方差
n1 = len(x1)
n2 = len(x2)
xbar1 = x1.mean()
xbar2 = x2.mean()
# (1)
interval1 = st.t.interval(confidence, len(x1)-1, loc = np.mean(x1), scale = st.sem(x1))
print(f"第一种排队方式等待时间均值的95%的置信区间:{np.round(interval1, 5)}")
# (2)
LCI = (n2-1)*var2/chi2.ppf(q = (1+confidence)/2, df = n2-1)
UCI = (n2-1)*var2/chi2.ppf(q = (1-confidence)/2, df = n2-1)
print(f"第二种排队方式等待时间方差的95%的置信区间:[{LCI:.5f}, {UCI:.5f}]")
# (3) - ①假设两个总体方差相等
t_value, p_value, df = ttest_ind(x1=x1, x2=x2, alternative = 'two-sided', usevar = 'pooled') # 计算方差的合并估计量
interval2 = t.interval(confidence, df=df, loc = (xbar1-xbar2), scale = (xbar1-xbar2)/t_value)
print(f"两种方式排队时间均值之差的95%的置信区间【假设两个总体方差相等】:{np.round(interval2,4)}")
# (3) - ②假设两个总体方差不相等
t_value, p_value, df = ttest_ind(x1=x1, x2=x2, alternative = 'two-sided', usevar = 'unequal') # 方差不相等
interval3 = t.interval(confidence, df=df, loc = (xbar1-xbar2), scale = (xbar1-xbar2)/t_value)
print(f"两种方式排队时间均值之差的95%的置信区间【假设两个总体方差不相等】:{np.round(interval3,4)}")
计算结果:
第一种排队方式等待时间均值的95%的置信区间:[6.57566 8.32434]
第二种排队方式等待时间方差的95%的置信区间:[1.56996, 11.05952]
两种方式排队时间均值之差的95%的置信区间【假设两个总体方差相等】:[-1.1574 1.7574]
两种方式排队时间均值之差的95%的置信区间【假设两个总体方差不相等】:[-1.1726 1.7726]
习题二
生产工序的方差是工序质量的一个重要测度指标。当方差较大时,需要对工序进行改进以减小方差。下面是两部机器生产的袋装茶重量的数据(单位:克):
计算两个总体方差比的95%的置信区间。
题目分析:
本题考查了两个总体方差比的区间估计,需要借助F分布。
Python代码:
import pandas as pd
import numpy as np
from scipy.stats import f
exercise6_6 = pd.read_csv("exercise6_6.csv")
# exercise6_6.head()
x1 = exercise6_6['机器1']
x2 = exercise6_6['机器2']
confidence = 0.95
var1 = x1.var()
var2 = x2.var()
n1 = len(x1)
n2 = len(x2)
LCI = (var1/var2)/f.ppf(q=(1+confidence)/2, dfn = n1-1, dfd = n2-1)
UCI = (var1/var2)/f.ppf(q=(1-confidence)/2, dfn = n1-1, dfd = n2-1)
print(f"两个总体方差比的95%的置信区间为:[{LCI:.5f} {UCI:.5f}]")
计算结果:
两个总体方差比的95%的置信区间为:[4.05193 24.61011]
都读到这里了,不妨关注、收藏、点赞、转发一下吧!
标签:总体,置信区间,排队,方差,均值,x2,x1 From: https://blog.csdn.net/lucasluy2020/article/details/139581093