首页 > 其他分享 >文献解读-An effificient hierarchical generalized linear mixed model for pathway analysis of genome-wide

文献解读-An effificient hierarchical generalized linear mixed model for pathway analysis of genome-wide

时间:2022-08-18 16:46:22浏览次数:89  
标签:wide GWAS 通路 linear 模型 基因 genome SNP hat

文献解读

Profiles

文章题目: An efficient hierarchical generalized linear mixed model for pathway analysis of genome-wide association studies

不想看英文题目: 一种用于全基因组关联研究路径分析的高效层次广义线性混合模型

杂志和影响因子: BIOINFORMATICS (IF: 7.307; Q1)

研究意义:

**摘要: ** 在复杂疾病的全基因组关联研究(GWAS)中,具有真实但微弱关联的遗传变异往往无法在严格的全基因组显著性水平上检测到。通路分析是一种用来自同一途径的一组变异的联合关联信号来检测疾病关联的方法,它越来越受欢迎.然而,由于遗传数据的复杂性和典型GWAS的大样本量,通路分析仍然具有挑战性。我们提出了一种新的GWAS通路分析统计模型。该模型包括一个固定效应组件,该组件模拟一组基因的平均疾病关联,以及一个随机效应组件,该组件模拟每个基因与疾病的关联如何随基因组平均而变化,因此属于混合效应模型.

结论:

  • 提出的模型计算效率高,只使用汇总统计数据。此外,它还纠正了重叠基因和连锁不平衡(LD)的存在。通过模拟和真实的GWAS数据,我们表明我们的模型在保持第I类错误率的同时,比目前可用的路径分析方法提高了功率.
  • 此外,使用WTCCC 1型糖尿病(T1D)数据集,我们演示了混合模型分析识别的有意义的生物过程,与之前的T1D报告一致。因此,提出的方法为系统分析提供了一个有效的统计建模框架GWAS

阅读中遇到的主要障碍:

  • 统计建模的基础,为什么他要这样建模,这样建模的基础是怎么样的?我的数据是否可以类似的去建模?

  • What is homogeneous covariance pattern
  • What is 为了解释由于之间的非结构化协方差产生的任何额外的可变性利用卡方分布是gamma分布的一种特殊情况,我们通过假设yij ~ gamma(λij,φ)来增加模型的灵活性,其中λij为平均参数,φ为尺度参数。广义线性模型中,加入额外的尺度参数是解释过度分散的常见机制.

个人看法和体会:

总结: 作者从SNP出发,基于Cochran-Armitage趋势检验,假设这个基因上的SNP与疾病有无关联.得到 \(λ_{ij}\).如果\(log(λ_{ij})=0\)就认为无关.并认为 \(log(λ_{ij})\) 由两部分组成.1是 \(β\)固定效应,2是随机基因效应,即 \(log(λ_{ij})=β + u_i\).

然后作者使用经验贝叶斯方法以提供更现实的零分布,之后确定对照集,再用软件得到因果集(采用各种参数对通路SNPs与疾病之间的关联强度进行建模,数据库的通路基因中位数->SNP个数->HAP-SAMPLE).之后建立了log(外显率/(1-外显率))的线性混合模型.因为这个线性模型有\(β_0\)未知,所以后面又通过流行率K构建最大似然估计来估计\(β_0\).

​ Result部分:确定了log(外显率/(1-外显率))的线性混合模型,开始测试改变各类参数后的模型效果.使用p值去衡量模型的一类错误.并跟Fisher精确检验的结果进行比较,发现作者的模型更好.控制假阳性率的同时,提高了目前可用的GWASPA方法的功率.然后再放到真实数据中去检验模型的效果和计算速度.

各类注释意义: 

注释类型 注释意义
红色 完全不懂的知识点,比如第一次接触的公式或算法等等(快捷键:tjys添加颜色的拼音首字母)
加粗字体 一些重要知识点或者以后可以借鉴的方法(快捷键:Ctrl+B)
高亮 读文章遇到的一些问题,比如想不通作者在这里的思路等(快捷键:Ctrl+H)

Introduction

​ GWAS已经变成了一个主流的方法用于确定疾病相关的基因,它可以从统计上确定与疾病或特征相关的基因变异.但对于复杂疾病,典型的个体遗传变异对疾病风险只有微弱的边际影响,即使是真正的关联。在对GWAS中进行的大量测试进行多次比较调整后,仅考虑最显著命中的传统策略很可能忽略了真实但弱的关联.所以考虑GWAS通路分析.这里的潜在假设是,复杂的疾病可能是由生物途径活动的变化引起的,不同基因的若干突变各对疾病易感性有一定的影响,但共同作用会对正常的生物过程造成重大破坏.在基于通路的分析中,更高的功率是通过结合来自通路中多个个体遗传变异的微弱信号实现的。

​ 目前已有一些人做了一些工作,如改进的基因集富集分析(GSEA)算法.通常,为了保持基因之间的相关模式,p值是通过排列样本标签来估计的。然而,对于一个典型的GWAS,重新计算50万或更多单核苷酸多态性(SNPs)的测试统计量,每一个排列都有数百甚至数千个样本,这是非常计算密集的。最近的一篇综述评论道:“目前正在进行的排列研究需要原始的基因型数据,而这并不总是可用的。”一项重要的方法改进将使p值单独,而不是原始数据作为分析的基础,在GWASPA”。

​ 当无法获得原始基因型数据时,一种简单而流行的路径分析方法是基于Fisher精确检验的ORA分析。这种方法将一个基因中多个SNPs的测试统计数据压缩为一个值(通常通过选择最显著的p value),根据预先设定的显著性阈值对每个基因进行显著性或非显著性分类,然后将路径中与疾病显著相关的基因比例与基因组的其余部分进行比较.Fisher精确测试及其扩展已经在许多软件程序中实现,如IPA,PRP,JMP Genomics.然而,当宣布显著基因的阈值发生变化时,基于Fisher检验的通路分析结果可能会有所不同.此外,由于相同途径的基因可能会相互调节或相互作用,这些基因相互独立的假设可能是站不住脚的。

GWASPA的两个困难是:

  1. 目前还不清楚应该使用什么策略来减少每个基因的SNP信息。当每个基因位点用一个SNP表示时,就会错过该基因的多个关联信号的潜在影响。
  2. 分析SNP的GWAS数据还有两个挑战:2.重叠基因的SNP会导致数目倍增,使得通路数据完全被他们主导

在本文中,为了解决这些分析上的挑战,我们提出了一个有效的、无阈值的、层次化的广义线性混合模型(GLMM)的GWASPA。

an effificient, threshold-free, hierarchical generalized linear mixed model (GLMM) 所提出的模型有几个可取的特性:

  1. 它的计算效率高:只需要汇总统计;原始基因型数据,由于保密考虑可能无法获得
  2. 我们使用随机效应对一个路径内的所有基因和SNP进行分层建模,这提供了在同一路径中跨基因借用信息的能力。我们的方法纠正了SNP之间的重叠基因和连锁不平衡(LD)的存在
  3. 该模型在保持一类错误率的同时,提高了现有通路分析方法的能力
  4. 除了识别与疾病相关的通路外,还可以通过最佳线性无偏预测的收缩估计来识别对与疾病相关的途径贡献最大的基因
  5. 协变量信息、环境效应和其他复杂的设计因素也可以在混合模型中使用固定和随机效应来适应。

​ 在第2节中,我们将讨论一些混合模型,包括我们对通路内基因和SNP的重叠基因和LD模式建模的建议。在第3节中,我们将使用模拟和真实的GWAS数据集来显示我们提出的模型比现有可用的方法具有更强的能力,同时保留了识别疾病相关路径的I型错误率。最后,使用来自WTCCCT1D研究的GWAS数据集,我们将表明,混合模型分析可以识别出有意义的生物过程和基因,这与之前的T1D报告很一致。

METHODS

From SNPs to pathways

对于GWAS数据集的路径分析,有几个预处理步骤:

  1. 确定要使用的路径数据库。为了分析3.2节中的真实的GWAS数据集,我们使用了来自分子特征数据库的C2-CP收集和C5-BP收集的基因集(MSigDB)。C2-CP基因集是由领域专家汇编的生物过程,C5-BP基因集来自于基因本体项目的受控词汇,也就是KEGG和GO.
  2. 将SNPs分配给基因。在第3.2节的分析中,如果SNP位于第一个外显子上游5kb或最后一个外显子下游5kb内,我们将其分配给一个基因。
  3. 将基因分配给通路。我们根据HUGO基因符号将基因与通路连接起来。在这一步之后,我们获得了一个与每个通路中的基因相连的SNP标识符的数据集,用于后续的统计分析

General structure of the proposed mixed models

​ 我们提出了一种新的GWASPA模型,使用一类统计模型称为混合效应模型。这些模型包括一个系统或固定的效应成分,它模拟一组基因的平均疾病关联,以及一个随机成分,它模拟每个基因与疾病的关联如何随基因组的平均值而变化,因此称为混合效应模型。在基因表达数据分析中,混合模型已成功应用于单基因分析和通路分析。对于GWAS中的单标记分析,混合模型已成功地应用于解释种群结构并纳入先前的生物信息.

​ 更具体地说,为了评估通路与疾病的关联,我们提出了两种混合模型(详见补充图1),其总体结构如下: 假设yij是i基因上的SNP j的卡方统计量,基于单个SNP的Cochran-Armitage趋势检验,我们假设yij遵循平均λij的卡方分布(卡方分布是每一个正态分布平方后的加和),表示为\(y_{ij}\) ~ χ2(λij)(意思就是i基因上的SNP j的统计量yij遵循\(y_{ij}\) ~ χ2(λij)的卡方分布)。假设i基因上的SNP j与疾病无关,我们有λij =1或Log (λij)=0。接下来,对于每一条通路,汇集该通路中映射到基因的所有SNP,我们构建如下模型:

注:这里有个问题是Cochran-Armitage趋势检验中其中一个分类变量必须只有两个类别,另外一个变量则是一个有序的分类变量。估计作者是这样设计的检验:

有表型 没表型
\(SNPi\) 0个 100 100
\(SNP_{i}\) 1-10个 120 130
\(SNP_{i}\) 11-20个 110 150
\(SNP_{i}\) 21-30个 130 130
... ... ...

详细介绍1 详细介绍2

image-20220314101018829

​ 其中g为通路中的基因数量;si为基因i上的SNP数量;β为固定(截距)效应;u1...ug∼N(0,G)为随机基因效应,G为基因-基因协方差矩阵。为了检验通路与疾病的关联,我们对原假设进行了检验。

image-20220314101147105

​ 由于随机基因效应平均为0, β的统计学意义(从0出发)将表明通路SNPs与疾病的总体关联$ \hat{β}/se (\hat{β}) $ 遵循自由度为n−rank[X Z]的t分布(其中n为路径中的SNP数目,X和Z分别为固定效应和随机效应的设计矩阵).当SNPs数量(n)较大时,近似为标准正态分布;因此,对于具有大量SNPs的通路,混合模型检验统计量的零分布不依赖于基因集大小(这句话的意思是只要SNP足够多,基因数目可以少一点没事).

在上述模型中,假设因变量yij服从chi-square分布(卡方分布),该分布属于指数分布族。因此,该模型为广义线性模型。此外,由于固定和随机效应都包括在内,它是一个GLMM.

Detailed description of the mixed models

在设计混合模型时,我们考虑了两种重要的、具有挑战性的途径分析的问题:

  1. 适应重叠的基因,其中一个SNP被映射到不止一个基因
  2. 由于LD而导致SNPs之间的相关性。
image-20220314110041615
图1,模型(A)的设计矩阵,为一个假设的基因设置3个基因和3个SNP:SNP A在基因1上,SNP B在基因1和2,SNP上C是基因2和3。混合模型的结果变量是对单个SNP的cochran-armitage趋势测试的chi-square统计数据。

​ 对于第一个混合模型(A),我们假设随机效应u1...ug(0,σ2I)这里的I应该是指第I个基因吧,不太确定 。图1显示了独立变量的编码方案,在这里,固定效应β是截距,随机效应u1...ug是每个基因的指标变量。

​ 对于问题1,请注意,每个SNP只出现一次,因此只贡献一次到总体路径关联测试统计数据(保证一个SNP只用一次)。

为了解决问题2 ,使用矩阵代数,可以证明对于同一基因i上的SNP j和j',cov(uij,…,uij')=σ2,j≠j',因此随机效应u1,...,ug解释了同一基因中的snp之间的同质协方差模式。为了解释由于之间的非结构化协方差产生的任何额外的可变性利用卡方分布是gamma分布的一种特殊情况,我们通过假设yij ~ gamma(λij,φ)来增加模型的灵活性,其中λij为平均参数,φ为尺度参数。广义线性模型中,加入额外的尺度参数是解释过度分散的常见机制.

模型(B)与模型(A)相似,除了在模型(B)中,我们提出基于基因的物理位置对基因集合中基因之间的协方差进行建模。让 \(u_i...u_{i^{'}}\) 分别是基因 \(i\) 和基因 \(i^{'}\) ,的随机基因效应。空间模型(B)假设\(cov[u_i...u_{i^{'}}] = \sigma^2e^{-dii^{'}/\alpha}\),其中距离测量是根据基因\(i\)和\(i^{'}\)物理位置之间的欧氏距离计算的(对定位于该基因的所有snp的平均值).通过最大化拟(限制)极大似然,可以自动估计σ2和α参数. 

 注: 

Empirical null distribution estimation

​ 进一步提高显著性测试的准确性,而不是依赖于渐近近似,我们汇集了所有基因组\(\hatβ\)对应的每一个估计的t统计量,和基于经验零分布估计基因集p值,这是一个正态分布与经验估计平均\(\hatδ\) 和标准差\(\hatσ\).表明,在大规模同时检测的情况下(例如,当在一项研究中同时测试多个基因集时),理论零分布中的严重缺陷可能会变得明显,而经验贝叶斯方法可以提供更现实的零分布。经验零分布可以使用R统计软件中的locfdr软件包进行估计.请注意,对于每个研究,经验零分布只需要估计一次,并且可以在几秒钟内完成,因此这一步给所提出的算法增加的计算复杂度很小。

总之,我们遵循以下五个步骤来进行基因集的显著性测试:

  1. 对每个基因集,拟合一个适当的混合模型,得到其与\(\hatβ\)​对应的t-统计量。
  2. 将t统计量转换为z分数。例如,设\(t_i\)为基因集i的t统计量,对应的z分数可以通过\(z_i=−\Phi(F_d(t_i))\)得到,其中和\(F_d\)​为标准正态分布和具有d个自由度的t分布的分布函数。
  3. 使它们的中值为0: 在一项研究中测试所有基因测试的\(z\)分数,并计算它们的中值(\(m\))。将\(z\)分数减去\(m\)。
  4. 给定中心\(z\)分数,使用locfdr包,估计经验零分布的位置(\(δ\))和尺度(\(σ\))参数。
  5. 计算标准化\(z\)-scores, \(s_i =(z_i−m−\hatδ)/\hatσ\),计算每个基因组的p值为\(p_i =1−\Phi(s_i)\)。

总结他的显著性测试的步骤: 拟合\(\hat β\)的t统计量,转换为z分数,数据中心化,看不懂,看不懂

Ranking of individual gene contribution to the gene set signal(个体基因对基因集信号的贡献排序)

由于基因集(gene set)的定义基于生物通路中的现有知识,而不考虑任何特定疾病,通常只有该途径中的一个基因子集(subset)具有与疾病易感性相关的遗传变异.因此,对于重要的gene sut,识别对基因集意义有贡献的subset是有帮助的。为此,我们定义了有影响的subset,即那些对基因组信号贡献最大的基因,这些subset的估计的平均值\(\hatβ+\hat u_i\)高于该gene set的估计的总平均值\(\hatβ\).回想一下,在一般混合模型(章节2.2)中,\(u_i\)对每个基因的平均卡方统计量(在对数尺度上)与基因集平均\(β\)的偏差进行建模。换句话说,有影响力的subset包括所有具有\(\hat u_i >0\)或\(\hatβ+\hat u_i >\hatβ\)的基因。此外,我们可以将这些有影响的基因按照其估计的单个基因估计\(\hat β+\hat u_i\)进行排序.在混合模型框架下,这些估计被称为经验BLUP; 它们是一种从基因集合中所有基因中借用信息的收缩估计,并自然地落入层次经验贝叶斯框架。我们使用第3.2节中的GWAS数据集来说明通路中有影响的基因的排序和选择.

Design of a simulation experiment(仿真实验设计)

为了研究混合模型的性质,我们模拟了随机生成疾病状态样本的空基因集和基于遗传模型生成疾病状态样本的因果基因集。

  1. 对于零基因集(也就是对照集),我们使用了精神分裂症的遗传关联信息网络(GAIN)GWAS的基因型数据集。数据准备的细节是在我们以前的工作中提供的(之前这个团队发了一篇文章,是处理这个数据集的).其中包括1158名精神分裂症患者和1378名欧洲血统的正常对照者。质量控制后,将snp定位到MSigDB的C2-CP收集通路.我们获得了596个基因集,大小从3到200个基因不等。对于每一种途径,我们从伯努利分布(参数P=0.5)中为样本生成随机疾病状态,因此根据实验设计,这些通路中的snp与疾病无关.这个过程被重复了两次,所以我们对每个路径有两组随机结果,总共1192个(596×2) null基因集。

  2. 接下来,对于因果基因集,我们生成了代表整个患者样本群体的12,000个样本的基因型数据,对于每个因果基因集,我们根据疾病流行率0.05抽样了500个病例和500个对照样本。由于需要更多样本的基因型数据,我们没有使用现有的GWAS数据集,而是使用了单样本软件用真实的LD模式来模拟一个基因型数据集.HAP-SAMPLE通过从现有的阶段数据集(如HapMap数据集)重采样染色体长度单倍型来模拟基因型数据集,从而保持真实的遗传数据结构.给定模拟的基因型数据,然后基于遗传模型对样本的疾病状态进行模拟,该模型采用各种参数对通路SNPs与疾病之间的关联强度进行建模。

更具体地说,我们遵循以下步骤来生成因果基因集:

  1. step(1) 模拟基因型数据:MSigDB的C2-CP集合中通路基因的中位数为23。因此,在本模拟研究中,我们选择了23个基因的ATM通路。将262个SNPs(对应ATM路径中的23个基因)的SNP id输入HAP-SAMPLE,以hamap Phase II项目中的高加索队列(CEU)作为源数据。接下来,我们使用HAP-SAMPLE为总共12 000个样本生成基因型数据,代表整个人群样本.
  2. step(2) 模拟样本的疾病状态:在确定基因型数据后,我们接下来根据以下遗传模型模拟每个样本的病例对照状态:
image-20220314144607463

​ 其中\(g_i = 0,1,2\)表示\(SNP i(i=1,…,D)\)的次要等位基因的拷贝数, \(f = Probability(affected|g_1,…,g_D)\)为基因型\({g_1,…,g_D}\)的外显率

​ 该通路中与疾病相关的因果SNPs(D)的数量被设定为每个基因平均t值=0.5、1和1.5的,因此\(D=t×ngene\)。RSID编号(用于确定特殊的SNP的标签)最小的第一个D snp,它映射到几个不同的基因,被选择为因果关系SNP。由平均对数Odds \(µ = log(1.1)\) 和\(τ^2\)分别等于0.3和0.5的正态分布\(N(µ,τ^2)\)得到\(β_i(i=1,D)\)。在这个设定下,\(β_i\)可以是正的或负的,因此每个模拟通路包括因果SNPs与小等位基因增加或减少疾病的风险。

在给定疾病流行率K(=0.05)和βi(i=1,…,D)的条件下,通过最大化下面的方程来估计β0

image-20220324085524108

​ 最后根据\(β_0\),{\(β_1\),…,\(β_D\)}和基因型数据{\(g_1\),…,\(g_D\)},我们利用上述遗传模型计算f,并生成每个样本的疾病状态。从12000个样本中[本节step 1],选择前500例和500例对照的基因型数据来进行计算.

​ 在表2中,对于每个模拟数据集,我们包含了100个因果基因集(由本节中step(2)重复100次生成)和一组1192个null gene sets(根据GAIN精神分裂症基因型数据将随机样本标签添加到基因集中生成)。用P<0.05的混合模型比例分别估计空基因集和因果基因集的I型错误率和功率

RESULTS

Results of simulation study

​ 首先,我们评估了每个混合模型的估计经验零分布的准确性。在表1中,每个模拟数据集由100个因果基因集和1192个空基因集组成。对于混合模型,给定模型(A)和(B)中\(\hat β\)对应的t统计量(如第2.4节所述[步骤(2)- (4)]),作者使用 \(locfdr\)包估计经验零分布.因为在每一个模拟数据集中都有那1192个null gene,所以这些经验零分布的被估计参数: \(\hat δ\) \(\hat σ\)和 \(\hat p_0\),被期望在所有数据集中保持一致.在所有模型中,模型(B)的参数估计最一致,说明该模型估计的经验零分布最准确。

image-20220324101254429

​ 接下来,对于每个模拟数据集,我们估计每个模型的第一类错误率。在零假设下,我们期望p值服从均匀分布.因此,希望模型的第一类错误率等于或小于0.05的显著性水平.所有模型中,同样,模型(B)的第一类错误率最接近于期望错误率0.05。模型(A)也具有合理的第一类错误率。

​ 最后,我们评估了所提出模型的能力。表2显示了混合模型和Fisher精确检验的估计能力(基于每个模拟数据集中的100个因果基因集)。对每个SNP进行Fisher检验、Cochran-Armitage趋势检验P-value,并选择最显著的SNP代表每个基因。为了将每个基因分类为重要或不重要,我们使用Fisher0_01、Fisher0_05和Fisher0_1的p值截断值分别为0.01、0.05和0.1。当基因集中的因果SNPs数量适中(t =1,其中t是每个基因的平均因果SNPs数量=1)或高(t =1.5)时,除Fish0_05和Fish0_1,其他所有模型运行良好。当因果snp基因集的数量很低(t = 0.5)模型(B)表现最好,其次是模型(A)。正如预期的那样,当使用不同的阈值将每个基因划分为显著或不显著时,Fisher的精确测试结果会发生变化,同时Fisher0_01和Fisher0_1的幂次分别是最大的和最小的。

image-20220324101238391

​ 请注意,在这些模拟数据集中,每个样本的疾病结局分别是随机生成的,或基于零基因集和因果基因集的遗传模型生成的,很难评估基于permutation的通路分析方法的性能,如GSEA,它只允许对数据集中的所有基因集使用单一的疾病结局集。因此,我们接下来分析了具有实际疾病结果的精神分裂症数据集(GAIN),以比较混合模型(B)与GSEA、基于排列的Fisher精确检验和另一种最近提出的名叫aligator方法的能力.以前,我们使用GSEA和基于permutation的Fisher精确检验(或超几何检验)对一组511条路径进行了筛选(这是这个课题组之前的文章的工作).使用完全相同的数据集,我们接下来使用混合模型(B)进行分析。图2显示模型(B)比其他方法识别出更多的重要基因集。例如,混合模型中P<0.05的显著基因集数、Fisher 's exact test、GSEA和ALIGATOR分别是26、10、5和8.请注意,这些基于实际疾病结果的比较是有意义的,因为如表1所示,对于具有随机结果的基因型数据集,混合模型(B)的第一类错误率保持不变。因此,模型(B)在控制假阳性率的同时,提高了目前可用的GWASPA方法的功率。

image-20220324105928359

Application to Wellcome Trust Case Control Consortium T1D GWAS dataset

​ 为了进一步验证提出的方法,我们接下来将混合模型(B)应用于Wellcome Trust Case Control的GWAS数据集,该模型在模拟研究中表现最好

​ WTCCC 1型糖尿病研究。类似于GAIN数据集的分析,我们收集并测试了MSigDB的典型通路(C2-CP)和生物过程(C5-BP)集合定义的基因集。我们替换了KEGG基因C2-CP与2010年5月版本的KEGG基因集。为了减少多次检测的次数,避免检测生物注释过于宽泛的基因集,我们使用3-200个基因的基因集。这导致了总共1273个基因集用于我们的测试。对于每个通路,为了将SNPs分配给基因,我们遵循2.1节中概述的程序.在8GB内存和3.00GHz的电脑上轻松跑完,说明他们建的模型对于大的GWAS数据集是高效的.

​ 表3和补充表1展示的是基于模型的结果(B).校正后的多重比较,模型(B)确定了16个与T1D显著相关的基因集(错误发现率<0.2).一堆生物学的分析,略,该混合模型能有效地检测出生物学上的显著结果.并发现了一些之前文献报道的与T1D相关的Gene的SNPs,说明模型是有效的.

Discussion

​ 综上所述,我们描述了几种基于通路的GWAS分析的glmm。这种灵活、统一和实用的方法可以在通用的统计包中实现。我们的方法对目前可用的路径测试算法进行了一些改进。

​ 首先,提出的方法代表了我们对GWAS中疾病与生物通路的严格统计建模的尝试,而不诉诸于个体水平的基因型,这往往是非所有者研究者无法获得的。特别是,这种方法应该使大规模的元分析更加方便和实用,因为目前的元分析经常需要多个机构的努力来共享和协调基因分型数据。即使在原始基因型数据可用的情况下,对GWAS中数千个样本的每一个排列重新计算检验统计量也是需要计算一些时间的。相比之下,使用SAS软件中的PROC GLIMMIX对典型基因集进行最大似然估计和测试可以在几秒钟内完成。

​ 其次,在我们提出的混合模型中,一个路径中的所有基因和每个基因位点上的所有变异都以一种分层的方式仔细建模.此外,SNP之间的相关性(源于LD)是基于基因间的空间距离建模的。此外,对于在同一通路中映射到重叠基因的SNP,所提出的混合模型将每个SNP包含一次且仅包含一次。相反,选择一个最显著的SNP来代表每个基因的方法可能会有困难,因为映射到多个基因的显著SNP会被多次包含,而且路径意义可能只由这些SNP中的少数驱动.当用最显著的SNP来代表每个基因时,集群中的大多数基因都由相同的SNP代表。因此,如果该SNP具有较小的p值,则该通路极有可能被识别为一条显著通路,而实际上这一结果是由位于多个基因上的一个高度显著SNP驱动的。

​ 第三,使用真实的和模拟的GWAS数据集和真实的LD模式,我们已经表明,所提出的混合模型在保持第一类错误率的情况下,比目前可用的方法提高了功率。不想传统的例如Fisher's精确检验,每一个基因被一个武断的显著性阈值分类为显著或不显著.作者的模型利用p值中的连续信息来帮助提高功率。

​ 第四,提出的模型代表了一种灵活的方法,在一个完善的统计框架内运作.除了识别与疾病有关的途径外,如第2.5节,该模型还可以识别出对通路关联贡献最大的基因.此外,当很难证明permutation测试背后的可交换性假设时,它可以很容易地扩展到处理具有多个变量来源(如协变量信息和环境影响)的更复杂的设计。

标签:wide,GWAS,通路,linear,模型,基因,genome,SNP,hat
From: https://www.cnblogs.com/modaidai/p/16599186.html

相关文章