三、统计学 & 集中趋势
统计学statistics是对数据的descriptive,而不是将所有数据呈现,根据统计,可以进行inferential(推理),对未来的判断。
集中趋势Central Tendency,求中间值就是average,通常指的是mean(算术平均),但是广义上也包括median、和mode。计算的方式不同,不能说哪种方法好,看具体情况,哪种更能反应。一般会用mean,但有些情况,例如房子均价,如果有一个很高的偏离值,可以是一个错误值,是用median更合乎人们感受。
四、总本和样本
总本population,样本sample。选取样本应该是随机的。
总本均值,即population mean公式如下。N表示总量的数目。
样本均值,即sample mean公式如下。有时求总体均值是不可能的,例如某个国家男子的升高,很难在同一时间内测量,有些人来到这世上,有些人离去,因此采用样本方式。n表示样本的数目。
五、离中趋势:总本方差、无偏样本方差、标准差
离散:dispersion,方差:variance,用于测量数据的离中趋势。
对于总本方差,公式为:
同样我们照着画瓢可以给出样本方差的公式,但由于采样样本很难100%地均匀分布,样本中值不一定和总体均值一致,而样本均值由样本计算出来,故根据类似的公式得到的采用样本通常比总本方差要小,因此进行修正,采用unbiased sample variance,即无偏样本方差,公式如下:
注意,没有除以样本的总数n,而是n-1,可能是基于经验值。
标准差(standard deviation),上面是使用平方的方式表示,在单位上不一样,标准差则是方差的开根。
我们对总本方差的公式作一些有趣的运算
在后面两个红框中,更为适合计算,不过现在都是电脑,就无所谓了。