欢迎关注”生信修炼手册”!
在传统的实验设计中,由于种种混杂因素的存在,我们仅仅能够分析变量之间的关联性,最典型的比如GWAS, 对于显著的位点,只能够说明这些位点和性状之间存在关联。对于了解事情发生的原因和规律而言,关联性是不够的,我们需要的是因果性。为了更好的探究因果关系,必须在实验设计和方法上加以改进。
孟德尔随机化, Mendilian Randomization, 简写为MR, 是一种在流行病学领域应用广泛的一种实验设计方法。通过引入一个称之为工具变量的中间变量,来分析暴露因素和结局之间的因果关系,示意图如下
参考资料
传统的实验方法直接探究暴露因素和结局变量之间的因果关联,由于混杂因素的存在,无法有效说明二者之间的因果性。工具变量的引入巧妙规避了混杂因素的影响,在上述模型中
- 暴露因素X和结局变量Y会受到混在因素U的影响
- 工具变量Z和混杂因素U之间不存在任何联系,相互独立
- 工具变量Z和暴露因素X之间存在关联性, 结局变量Y之间没有直接的关联性,仅能够通过暴露因素X和结局变量Y之间建立关联
之所以称之为孟德尔随机化,是因为在工具变量的选择上,将遗传变异作为了工具变量。在孟德尔遗传规律中,亲代等位基因随机分配给子代,基因型决定表型,基因型通过表型与疾病发生关联,基因型看做是工具变量Z, 表型看做是暴露因素X, 疾病看做是结局变量Y。
基因型(特指胚系细胞的基因型)是先天决定的,不会受到生长环境,经济地位,行为因素的干扰,而且先有基因,再有表型,再有疾病,三者的先后顺序符合因果时序。
孟德尔随机化的具体实验设计有很多种,来看一个最简单的模型,示意如下
遗传变量G与暴露因素X有关联,如果观测到遗传变异与解决变量Y之间也存在关联,那么可以说明是遗传变异G通过暴露因素X对结局变量Y造成的影响,从而说明了暴露因素X和结局变量Y之间的因果性。
上述模型称之为一阶段MR, 为了增加分析结果的可靠性,量化关联效应的大小,还有很多更复杂的孟德尔随机试验设计,比如独立样本MR, 两样本MR, 双向MR, 两阶段MR, 基因-暴露交互作用MR等等,其中两样本MR,用来自相同群里的两批数据分别研究遗传变异G与暴露因素X, 遗传变异G与结局变量Y之间的关联性,通常是利用大样本量的GWAS分析,由于其样本量大,分析结果具有较好的把握度。而且可以基于已有的GWAS结果来进行分析,经济高效,应用的最为广泛。
在选择遗传变异时,可以是SNP,也可以是CNV等其他类型的遗传变异,只不过SNP使用的最多。对于SNP而言,并非选择全部的SNP位点,而是需要选择与暴露因素具有较强关联性的SNP位点,可以参考gwas结果来进行筛选。筛选出SNP位点之后,还有多种建模方式,可以利用单个SNP位点,多个SNP位点,等位基因个数,遗传风险评分等不同方式来建模,量化关联。使用多个SNP位点来建模时,需要进行MR-Egger分析来评价基因多效性带来的偏倚。
GWAS数据的不断增加为孟德尔随机化研究提供了数据基础,随着统计方法的推陈出新,各种组学技术的发展,孟德尔随机化的研究也应用的越来越广泛。
·end·