为了解决特定问题而进行的学习是提高效率的最佳途径。这种方法能够使我们专注于最相关的知识和技能,从而更快地掌握解决问题所需的能力。
(以下练习题来源于《统计学—基于Python》。联系获取完整数据和Python源代码文件。)
练习题
随机抽取10家航空公司,对其最近一年的航班准点率和顾客投诉次数进行调查,所得数据如下。
(1)用航班准点率作为自变量,顾客投诉次数作为因变量,求出估计的回归方程,并解释回归系数的意义。
(2)检验回归系数的显著性(α=0.05).
(3)如果航班准点率为80%,估计顾客的投诉次数。
计算结果与分析
(1)先绘制出散点图观察自变量和因变量之间的关系。如下图所示,基本符合线性关系。
# 绘制散点图
import pandas as pd
from statsmodels.formula.api import ols
import seaborn as sns
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Songti SC'] # 设置中文字体
plt.rcParams['axes.unicode_minus'] = False # 正常显示负号
df = pd.read_csv('exercise10_2.csv')
sns.regplot(data = df, x = df['航班准点率'], y = df['投诉次数'],
fit_reg = True, marker = '+') # 添加回归线
plt.title('添加回归线和置信带的散点图')
plt.tight_layout()
然后做OLS回归,回归结果如下图所示,回归系数=-4.7006,表示航班准点率每增加1%,投诉次数平均减少4.7次。
# 拟合回归模型
import pandas as pd
from statsmodels.formula.api import ols
df = pd.read_csv('exercise10_2.csv')
model1 = ols('投诉次数 ~ 航班准点率', data = df).fit()
print(model1.summary())
(2)根据OLS回归结果,回归系数对应的P值为0.000,小于0.05,故拒绝拒绝原假设(两个变量之间的线性关系不显著),接受备择假设,即两个变量之间的线性关系显著。
(3)根据估计的回归方程,如果航班准点率为80%,顾客的投诉次数的预测值为54.139422。
# 计算航班准点率为80%时的顾客的投诉次数的预测值
model1.predict(exog = dict(航班准点率 = 80))
都读到这里了,不妨关注、点赞一下吧!
标签:显著性,航班,Python,准点,df,投诉,import,回归系数 From: https://blog.csdn.net/lucasluy2020/article/details/139868414