##分组统计,求平均值 turnover_summary=df.groupby('turnover') turnover_summary.mean() #相关性矩阵 corr=df.corr() sns.heatmap(corr,xticklabels=corr.columns.values,ytickslabels=corr.columns.values) ##T test import scipy.stats as stats stats.ttest_1samp( a = df[df['turnover']==1]['satisfacation'], ###离职员工满意度的样本 popmean=emp_population ## 未离职员工的满意度均值 ) #比较两类样本之间差异的显著性,Pvalue 很小 则说明 存在显著差异 degree_freedom=len(df[df['turnover']==1]) ###临界值 LQ=stats.t.ppf(0.025,degree_freedom) ###95%置信区间的左边界 RQ=stats.t.ppf(0.975,degree_freedom) ###95%置信区间的右边界 ###概率密度函数 fig=plt.figure (figsize=(15,4)) ax=sns.kdeplot(df.loc[(df['turnover']==0),'evaluation'],color='b',shade=True,label='no turnover') ax=sns.kdeplot(df.loc[(df['turnover']==1),'evaluation'],color='r',shade=True,label='turover') as.set(axlabel='工作评价',ylabel='频率') plt.title('工作评价的概率密度函数')
标签:stats,python,代码,df,corr,几段,##,###,turnover From: https://www.cnblogs.com/oceaning/p/16990726.html