首页 > 其他分享 >尘封在文件夹中的GWAS和QTL定位的古老笔记

尘封在文件夹中的GWAS和QTL定位的古老笔记

时间:2024-06-16 10:46:13浏览次数:11  
标签:分析 GWAS 尘封 关联 QTL 位点 群体

long long ago,小野记录了关于重测序基因定位和GWAS相关的笔记。打开古老的文件夹,发现有些东西依然不过时,零零散散,随意发布。

QTL定位策略:

  • 群体类型:作图群体,自然群体
  • 选材策略:全群个体分析,选择基因型分析,混合分组分析
  • 优点:适合稀有基因研究;群体可控,目的性和结果预期性强
  • 缺点:需构建作图群体;定位精度低,微效QTL难检测;无法找到最优等位基因

限制家系群体定位精度的最大原因:重组事件有限,染色体没有充分“打碎”;

  • F2家系:一代的重组;
  • RIL10:十代的重组

自然群体的优势:经历多世代的繁衍后,群体中的染色体不断重组,被拆散为一个个“小模块”。

单体型块:染色体“板块漂移”,制造的“孤岛”。

最简单的模型:方差分析

GWAS分析的多阶段设计

  • 单阶段:一个群体进行关联分析。不严谨,一般为动植物类的研究。
  • 两阶段:
    阶段1:找候选关联位点。小样本(几百)全基因组关联分析,得到候选位点;
    阶段2:候选位点的验证。已有群体大样本(成千上万)或新的独立群体,候选位点的关联分析。

多阶段设计的优点:

  • 有验证的步骤:可靠
  • 降低成本:第二阶段的检测位点数较少;
  • 解决潜在的多重检验过校正的位点;重测序位点多,多重检验过于严格。例如:1M SNP , Bonferroni 校正阈值= 0.05/1*10-6=5*10-8

建议:第一阶段放宽过滤阈值,在第二阶段进行验证。由于第二阶段位点数较少,多重检验校正不会如此严苛。

GWAS完整的混合线性模型存在各类干扰的潜在效应(Yu et al., Nat Genet, 2006 38: 203‐208):

GWAS软件:Tassel、Emma、Emmax、Plink、Gemma、Gapit

群体材料对GWAS结果的影响(Breseghello F et al, Crop Sci.,2006):

群体大小对GWAS结果的影响(Yan et al, Crop Science, 2011):

群体结构和个体间潜在的系谱关系,可能会导致假阳性(Zhu and Yu, 2009, Genetics):

当性状分布恰好和群体结构一致的时候,会导致大量假阳性(Rafalski, 2010, Plant Biol):

群体结构(Q矩阵)和系谱关系(K矩阵)的校正,即Q+K模型。

动物的思路:

  • PCA分析初步判断。
  • 一般而言,动物类样本在系谱清晰,且没有明显群体结构的情况下,可以直接剔除离群样本。剔除后,继续使用PCA分析进行检查。确认没有问题后,然后使用一般线性模型进行关联分析。
  • 如果存在群体分层的迹象,再考虑使用Q矩阵进行矫正;

植物的思路:

  • PCA分析初步判断。
  • 由于品系间杂交很常见(例如玉米),所以群体结构和不同品系间的系谱关系更加普遍。
  • 所以建议分析的时候,同时使用一般线性模型和不同的混合线性模型,然后比较结果的好坏。

表型处理:

  • 正态性判断:shapiro.test(x)
  • 仅仅个别样本异常,建议剔除:如极端值,离开均值大于4倍SD
  • 如果整体偏离散,例如基因表达量值。建议取log2后,重新检验正态性。

判断模型的合理性:

  • QQplot:随机p value和检验p vlaue分布间的关系
  • 良好模式:前期一致,后期翘起
  • 过度矫正:真实的P值显著性低于随机误差

  • 矫正不足:大部分标记的显著性都高于随机误差

同一个群体,不同性状的最适模型并不相同(Yang et al, Theor Appl Genet , 2010 121:417–431):

连锁作图(QTL定位)和关联作图(GWAS)的互补性:

材料组合的精度提升:

  • 连锁分析初定位,确定QTL
  • QTL区域选择候选基因
  • 自然群体关联分析,精细定位

材料组合的可靠性提升:

  • 自然群体关联分析
  • 确定若干候选QTL
  • 连锁分析验证QTL

本文笔记主要来自基迪奥的报告,侵权删

标签:分析,GWAS,尘封,关联,QTL,位点,群体
From: https://www.cnblogs.com/miyuanbiotech/p/18250260

相关文章

  • scPagwas-gwas data pruning的处理-inhouse 【未完成整理】
    总共三个大步骤:step1:提取503例EUR-Sample的1000G.EUR.QC.chr,通过python脚本批量跑plink得到step2:提取my-MDD中SNP的1000G.EUR.QC.chr-sub-chr,通过python脚本批量跑plink得到step3:进行pruning,得到MDD.chr*_plink_prune_EUR_filtered_LD0.8.prune.in,通过python脚本批量跑pli......
  • GWAS + 选择进化 代码
    library(CMplot)library(tidyverse)fst=choose.files()pi=choose.files()fst1=read.table(fst,header=T)head(fst1)fst2=fst1%>%select(1,2,3,6)%>%top_frac(0.05,wt=MEAN_FST)head(fst2)write.table(fst2,"fst_vasuclar.txt",qu......
  • GWAS:plink进行meta分析
    之前教程提到过Metal是可以做Meta分析,除了Metal,PLINK也可以进行Meta分析。命令如下所示:plink--meta-analysisgwas1.plinkgwas2.plinkgwas3.plink+logscaleqt--meta-analysis-snp-fieldSNP--meta-analysis-chr-fieldCHR--meta-analysis-bp-fieldBP--meta-analysis......
  • GWAS软件包:GAPIT3它来啦
    GAPIT是一款非常老的而且非常流行的软件包,傻瓜式操作,一键出图出结果,一篮子的解决方案,是我最经常使用的GWAS分析软件包。最近,GAPIT现在的版本是GAPIT3,速度比第二版有较大的提升:更大的变化,终于有GAPIT这个软件包了,可以用library载入进去,而且安装方式可以用github安装,更符合R-style。1......
  • QTL
     QTL:是数量性状基因座:它指的是控制数量性状的基因在基因组中的位置。QTL实际上是一个抽象的概念。指的是存在与基因组中的某一位置,这个位置上的基因会影响某一数量性状的表达。QTL可以是一个简单的基因座,也可以是多个基因座的组合。......
  • GWAS数据库
     NHGRI-EBIGWAS数据库:https://www.ebi.ac.uk/gwas/描述:由美国国家人类基因组研究所(NHGRI)和欧洲生物信息研究所(EBI)合作建立的GWAS数据库,提供了公开可访问的GWAS关联结果和相关信息。GRASP:http://grasp.nhlbi.nih.gov/Overview.aspx描述:由美国国家心脏、肺部和血液......
  • GWAS:表型的标准化(the normalization of phenotype)
    GWAS表型的标准化方法一般有Quantilenormalization、Inverseranknormalization、Z-scorenormalization等。各自区别如下:一、Quantilenormalization该方法将每个样本中表型值进行排序,然后将其规范化到一个标准分布,通常是正态分布。规范化是通过将每个样本的分布等同于目标......
  • QTLtools 协变量文件说明(covariate)
    协变量格式如下所示:注意事项:缺失值用NA表示;接受定性和定量的协变量;定量协变量用数值型表示;定性协变量用非数值型表示,类似于上图的A,B,C。定量和定性的判断依据是有没有等级关系,比如年龄属于定量,比如地区属于定性。需要注意的是,只要是定性的变量,都不能用数值表示,不然会被当成......
  • post-GWAS: transcriptome-wide association studies (TWAS) 结果解读
    Thetoppanelshowsallofthegenesinthelocus.ThemarginallyTWASassociatedgenesarehighlightedinblue,andthosethatarejointlysignificant(inthiscase,FAM109B)highlightedingreen.Thestatisticsforthejointlysignificantgenesarerepo......
  • R语言实现GWAS结果显著SNP位点归类提取与变异类型转化
    GWAS结果显著SNP位点归类提取与变异类型转化根据GWAS得到的Rresult文件信息,能够找出每个snp位点对应的显著性情况和基因变异信息,接下来,需要根据表格中的信息进行归纳总结,对不同显著性层次进行区分,找出可能性最大的点,过程比较繁琐。这里笔者分享一个算法,使统计SNP和变异类型变的......