首页 > 其他分享 >生物统计学(biostatistics)笔记-2.传统生物统计学

生物统计学(biostatistics)笔记-2.传统生物统计学

时间:2024-12-12 23:30:36浏览次数:12  
标签:总体 抽样 变量 biostatistics 试验 互作 样本 统计学 生物

目录

概述

概念

1、总体与样本

2、变量与常量

3、 参数与统计数

4、效应与互作

5、错误、随机误差与系统误差

6、准确性(accuracy)VS精确性(precission)

7、变量分布的集中性VS离散性

实验设计 

1、原则

2、抽样-样本的代表性

3、变量的统计归纳

4、概率分布

5、假设检验

6、相关性分析​编辑

考试重点

 1、概念:效应与互作、三种误差、准确性与精确性

2、箱式图

3、假设检验


概述

  • 1、统计学是收集、分析、列示和解释数据的艺术
  • 传统生物统计学主要关注于使用标准的统计方法来分析生物、医学数据,包括描述性统计、假设检验、回归分析等。
  • 传统生物统计学基本框架如下图

概念

1、总体与样本

  • 总体:具有相同性质或属性的个体所组成的集合,按照个体数量是否有限分为有限总体和无限总体。

  • 个体:组成总体的基本单元。

  • 样本:从总体中抽出若干个体所构成的集合   

  • 样本单位:构成样本的每个个体

  • 样本容量(样本大小):样本中所包含的个体数目,常记为n。  一般在生物学研究中,<30为小样本,>=30为大样本。

2、变量与常量

  • 变量( x_i ) : 指相同性质的事物间表现差异性或差异特征的数据。
  • 常数( \mu): 表示能代表事物特征和性质的数值,在一定过程中是不变的。

3、 参数与统计数

  • 参数:描述总体特征的数,通常未知。e.g.总体平均数(\mu),总体方差(\sigma ^2)
  • 统计数:描述样本特征的数,是样本观测值的已知函数。e.g.样本平均数( \bar{x} ),样本方差(s^2)
  • 对总体的推断是通过统计数进行的

4、效应与互作

  • 效应:通过施加试验处理,引起试验差异的作用。 效应是一个相对量,而非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。
  • 互作(连应):是指两个或两个以上处理因素间相互作用产生的效应。 互作也有正效应(协同作用)与负效应(拮抗作用)之分。

5、错误、随机误差与系统误差

  • 错误,又称过失性误差(gross error) 。在试验过程中,由于人为因素引起的差错。 e.g.仪器校正不准、药品配制比例不当、称量不准确、计算出错等。这类错误是不允许出现的。

  • 随机误差,也叫抽样误差(sampling error) 。这是由于试验中无法控制的内在和外在的偶然因素所造成。统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。

  • 系统误差,也叫片面误差 (lopsided error)。 这是由于试验处理以外的其他条件明显不一致产生的。e.g.测量仪器不准、各批次药品间的差异、不同操作者操作习惯的差异等。 系统误差影响试验的准确性,但是可以控制和避免的。

6、准确性(accuracy)VS精确性(precission)

  • 准确性:指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。可以理解为准确度=观测值/真实值【误差小】
  • 精确性:指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。可以理解为精确度=重复观测值彼此接近程度【方差小】

7、变量分布的集中性VS离散性

  • 集中性:变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。【平均数】
  • 离散性:变量有着离中分散变异的性质。即在集中位置附近的分布。【方差】

实验设计 

1、原则

重复、随机、局部控制

2、抽样-样本的代表性

  • 随机抽样:分为简单抽样、分层抽样、整体抽样、双重抽样
    • 如果总体内主要变异来源明显来自不同区层间,且每一区层均较大,则应采用分层抽样

    • 如果主要变异来源明显来自区层内各单位间,且每一区层所占面积较小,则宜用整体随机抽样。

  • 顺序抽样:按既定顺序抽样,能避免主观偏见。由顺序抽样得到的样本不能计算抽样误差、估计总体值。
  • 典型抽样:从容量很大的总体中选取较小数量的抽样单位时,选取典型样本。多用于大规模社会经济调查,而在总体相对较小或要求估算抽样误差时,一般不采用这种方法。

3、变量的统计归纳

  • 平均数
    • 算数平均数(arithmetic mean)
    • 几何平均数(geometric mean)适用于变量X为对数正态分布,经对数转换后呈正态分布的数据
    • 调和平均数(harmonic mean)主要用于反映生物不同阶段的平均增长率或不同规模的平均规模
    • 中位数(median)
    • 众数(mode):主要用于描述频率分布
  • 差异数
    • 极差(range)R=X_{\max}-X_{\min}
    • 方差(variance)
    • 标准差(standard deviation)
    • 变异系数(coefficient of variation)CV=\frac{\sigma}{\mu}
  • 箱式图(box plot)
    • 样本符合正态分布时绘制
    • 一般包含五个数据:最大值、上四分位数、中位数、下四分位数和最小值

4、概率分布

  • 随机变量的概率分布
    • 离散型变量:二项分布、泊松分布
    • 连续型变量:正态分布
  • 常用的概率分布

5、假设检验

  • 假设检验(hypothesis test)又称显著性检验 (significance test): 根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。
  • 如要证明某公司开发的新药可以降低高血压患者的血压,先提出零假设(H_0):实验组和对照组的血压降低没有显著差异,即新药没有降低血压的效果;和备择假设(H_1):实验组的血压降低显著大于对照组,即新药能够降低血压。使用t检验来比较实验组(服用新药)和对照组(服用安慰剂)的显著性差异,如果结果p值小于显著性水平α(通常为0.05),那么我们拒绝零假设,接受备择假设,认为新药确实有降低血压的效果。【要证明成立,先假设不成立,再计算P值小于阈值,证得成立】

6、相关性分析

  • 函数关系

  • 直线回归分析:常用最小二乘法。直线回归的适应范围一般以自变量的取值为限,在自变量范围内求出的估计值,一般称为内插;超过自变量取值范围所计算出的估计值,称为外延。 若无充分理由证明超过自变量取值范围还是直线, 应该避免外延。

  • “熵”做相关性:Copula熵(Copula Entropy),可以用来衡量随机变量之间的全阶次相关性

  • 注意问题
    1. 相关性不等于因果性
    2. 实验操作引入组间差异
    3. 降维问题
    4. 深度学习得到的特征与样本无关

考试重点

 1、概念:效应与互作、三种误差、准确性与精确性

2、箱式图

3、假设检验

标签:总体,抽样,变量,biostatistics,试验,互作,样本,统计学,生物
From: https://blog.csdn.net/weixin_73406425/article/details/144430218

相关文章

  • 生物统计学(biostatistics)笔记-3.HMM
    目录MarkovModel1、概念2、特点3、不动点计算-迭代求结果直至收敛*MarkovModel的缘起-PageRank的算法HiddenMarkovModel1、与Markovchain区别 2、模型3、研究的数学问题3.1 识别问题-由观测样本得到其来源3.2解码问题-由观测样本得到隐状态3.3学习问题-由......
  • 生物统计学(biostatistics)笔记-4.进化树
    目录构建进化树的算法1、基于距离1.1UPGMA(Unweightedpairgroupmethodwitharithmeticmean,平均连接聚类法)1.2ME(MinimumEvolution,最小进化法)1.3NJ(Neighbor-Joining,邻接法)​编辑2、基于特征2.1最大简约法(MaximumParsimony)2.2最大似然法(MaximumLikelyhood)2.3......
  • 实验与统计学
    从实验的过程上来看,好像不涉及统计的相关的内容,但统计学对实验的效果非常重要,决定了是否可以信任最终的实验结果,以及是否可以做出正确的决策AB实验中涉及到统计知识如下图,主要围绕图中来介绍这些概念和AB实验的关系1.抽样分布1.1抽样如果我们想知道所有用户的平均APP停留时......
  • 统计学基础
    目录1.t检验1.1单样本t检验1.2两个独立样本T检验1.3配对样本T检验2.方差分析2.1单因素方差分析3.卡方检验4相关分析4.1Pearson相关使用Pandas使用Scipy4.2偏相关分析5.线性回归6.逻辑回归7.生存分析8.主成因分析8.1主成因分析8.2因子分析1.t检验1.1单样本t检......
  • 生命科学与智能技术的交汇点---2025年生物医学工程与智能系统国际会议(BEIS 2025)
    ......
  • Google Earth Engine APP(GEE) ——多源遥感变量与生物量变量相关性分析APP
    此APP的主要目的是,当我们进行多源遥感变量多波段组合与生物量单一变量分别进行相关性分析的时候我们就需要分别进行相关性分析,这里我们所用的是皮尔逊相关性数来评价,结果会有两个值一个是相关系数一个是P值。这里我们UI主要用了几个panel,其中有一个用来加载一些常规的LABEL和t......
  • R:microtable包alpha多样性计算+Beta多样性(微生物丰度)
    rm(list=ls())setwd("C:\\Users\\Administrator\\Desktop\\machinelearning\\Diversity")library(microeco)library(magrittr)feature_table<-read.table('Bac_all.txt',header=TRUE,row.names=1,sep="\t",fi......
  • 完成生物安全实验室(BSL)等级备案后,实验室是否需要接受定期检查和评估?
    完成生物安全实验室(BSL)等级备案后,实验室确实需要接受定期检查和评估。这主要是为了确保实验室持续符合生物安全标准,保障实验室人员和环境的安全。以下是定期检查和评估的具体要求和重要性:必要性:实验室的生物安全状况可能随时间、设备使用、人员变动等因素而发生变化。因此,定......
  • 【海洋生物识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Ten
    一、介绍海洋生物识别系统。以Python作为主要编程语言,通过TensorFlow搭建ResNet50卷积神经网络算法,通过对22种常见的海洋生物(‘蛤蜊’,‘珊瑚’,‘螃蟹’,‘海豚’,‘鳗鱼’,‘水母’,‘龙虾’,‘海蛞蝓’,‘章鱼’,‘水獭’,‘企鹅’,‘河豚’,‘魔鬼鱼’,‘......
  • 生物知识点笔记
    目录生物知识点笔记细胞、分子、元素、酶酶与能量光合呼吸神经体液调节实验生物知识点笔记细胞、分子、元素、酶肺炎支原体的遗传物质是\(DNA\)。哺乳动物血液内\(Ca^{2+}\)含量过低会导致肌肉发生抽搐;过高会导致肌无力。噬菌体需要寄生在活细胞体内培养。水的生理作用......