目录
6、准确性(accuracy)VS精确性(precission)
概述
- 1、统计学是收集、分析、列示和解释数据的艺术
- 传统生物统计学主要关注于使用标准的统计方法来分析生物、医学数据,包括描述性统计、假设检验、回归分析等。
- 传统生物统计学基本框架如下图
概念
1、总体与样本
-
总体:具有相同性质或属性的个体所组成的集合,按照个体数量是否有限分为有限总体和无限总体。
-
个体:组成总体的基本单元。
-
样本:从总体中抽出若干个体所构成的集合
-
样本单位:构成样本的每个个体
-
样本容量(样本大小):样本中所包含的个体数目,常记为n。 一般在生物学研究中,<30为小样本,>=30为大样本。
2、变量与常量
- 变量( ) : 指相同性质的事物间表现差异性或差异特征的数据。
- 常数( ): 表示能代表事物特征和性质的数值,在一定过程中是不变的。
3、 参数与统计数
- 参数:描述总体特征的数,通常未知。e.g.总体平均数(),总体方差()
- 统计数:描述样本特征的数,是样本观测值的已知函数。e.g.样本平均数( ),样本方差()
- 对总体的推断是通过统计数进行的
4、效应与互作
- 效应:通过施加试验处理,引起试验差异的作用。 效应是一个相对量,而非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。
- 互作(连应):是指两个或两个以上处理因素间相互作用产生的效应。 互作也有正效应(协同作用)与负效应(拮抗作用)之分。
5、错误、随机误差与系统误差
-
错误,又称过失性误差(gross error) 。在试验过程中,由于人为因素引起的差错。 e.g.仪器校正不准、药品配制比例不当、称量不准确、计算出错等。这类错误是不允许出现的。
-
随机误差,也叫抽样误差(sampling error) 。这是由于试验中无法控制的内在和外在的偶然因素所造成。统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。
-
系统误差,也叫片面误差 (lopsided error)。 这是由于试验处理以外的其他条件明显不一致产生的。e.g.测量仪器不准、各批次药品间的差异、不同操作者操作习惯的差异等。 系统误差影响试验的准确性,但是可以控制和避免的。
6、准确性(accuracy)VS精确性(precission)
- 准确性:指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。可以理解为准确度=观测值/真实值【误差小】
- 精确性:指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。可以理解为精确度=重复观测值彼此接近程度【方差小】
7、变量分布的集中性VS离散性
- 集中性:变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。【平均数】
- 离散性:变量有着离中分散变异的性质。即在集中位置附近的分布。【方差】
实验设计
1、原则
重复、随机、局部控制
2、抽样-样本的代表性
- 随机抽样:分为简单抽样、分层抽样、整体抽样、双重抽样
-
如果总体内主要变异来源明显来自不同区层间,且每一区层均较大,则应采用分层抽样
-
如果主要变异来源明显来自区层内各单位间,且每一区层所占面积较小,则宜用整体随机抽样。
-
- 顺序抽样:按既定顺序抽样,能避免主观偏见。由顺序抽样得到的样本不能计算抽样误差、估计总体值。
- 典型抽样:从容量很大的总体中选取较小数量的抽样单位时,选取典型样本。多用于大规模社会经济调查,而在总体相对较小或要求估算抽样误差时,一般不采用这种方法。
3、变量的统计归纳
- 平均数
- 算数平均数(arithmetic mean)
- 几何平均数(geometric mean)适用于变量X为对数正态分布,经对数转换后呈正态分布的数据
- 调和平均数(harmonic mean)主要用于反映生物不同阶段的平均增长率或不同规模的平均规模
- 中位数(median)
- 众数(mode):主要用于描述频率分布
- 差异数
- 极差(range)
- 方差(variance)
- 标准差(standard deviation)
- 变异系数(coefficient of variation)
- 箱式图(box plot)
- 样本符合正态分布时绘制
- 一般包含五个数据:最大值、上四分位数、中位数、下四分位数和最小值
4、概率分布
- 随机变量的概率分布
- 离散型变量:二项分布、泊松分布
- 连续型变量:正态分布
- 常用的概率分布
5、假设检验
- 假设检验(hypothesis test)又称显著性检验 (significance test): 根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。
- 如要证明某公司开发的新药可以降低高血压患者的血压,先提出零假设():实验组和对照组的血压降低没有显著差异,即新药没有降低血压的效果;和备择假设():实验组的血压降低显著大于对照组,即新药能够降低血压。使用t检验来比较实验组(服用新药)和对照组(服用安慰剂)的显著性差异,如果结果p值小于显著性水平α(通常为0.05),那么我们拒绝零假设,接受备择假设,认为新药确实有降低血压的效果。【要证明成立,先假设不成立,再计算P值小于阈值,证得成立】
6、相关性分析
-
函数关系
-
直线回归分析:常用最小二乘法。直线回归的适应范围一般以自变量的取值为限,在自变量范围内求出的估计值,一般称为内插;超过自变量取值范围所计算出的估计值,称为外延。 若无充分理由证明超过自变量取值范围还是直线, 应该避免外延。
- 注意问题
- 相关性不等于因果性
- 实验操作引入组间差异
- 降维问题
- 深度学习得到的特征与样本无关