市调赛备赛
从数据中统计出规律
- 首先应该定义问题、假设
- 定义完零假设H0后,确定显著水平\alpha
- 进行数据分析
检验
从我们的样本数据中得到规律来应用到更大的样本中,规律是否真实可信
我们要使用检验
对于单个类别变量(如性别) 我们使用单样本比例检验
对于两个分类变量 我们使用卡方检验
对于单个数值变量 我们使用t检验
对于一个分类变量和一个数值变量 我们同样使用t检验或者方差分析(当类别变量中有两个以上类别时)
对于两个数值变量我们使用相关性检验
t检验
t分布
卡方检验
卡方分布
卡方分布是在正态总体条件下,一种重要的抉择分布类型
是抽样分布的重要类型
针对的是统计量而言的分布 不含任何未知参数的样本的函数
函数
当X~N(0,1)时
$$
则有X^2 = X_1^2+X_2^2+·······X_n^2
$$
其中n为自由度
分布图像
n>2时从指数函数变成单峰曲线 随着n变大右移 并且当n趋向于无穷时 趋近于正态分布
卡方检验
标准正态离差u=(x-u)/\sigma 服从N(0,1)
X^2可以理解为相互独立的多个正态离差平方和
如 观测值与理论值之间的差,通过平方消去符号差别,再除以理论值以抵消大小的缺失
在一定自由度大小下,X^2值与概率P成反比,X^2越大,P值越大,X^2越小,P值越小,因此可以由卡方分布对计数资料或属性资料进行假设检验。
卡方检验用途
拟合优度检验 (适合性检验)
独立性检验
样本方差的同质性检验