尘封在文件夹中的GWAS和QTL定位的古老笔记

时间：2024-06-16 10:46:13浏览次数：19

标签：分析 GWAS 尘封关联 QTL 位点群体

long long ago，小野记录了关于重测序基因定位和GWAS相关的笔记。打开古老的文件夹，发现有些东西依然不过时，零零散散，随意发布。

QTL定位策略：

群体类型：作图群体，自然群体
选材策略：全群个体分析，选择基因型分析，混合分组分析
优点：适合稀有基因研究；群体可控，目的性和结果预期性强
缺点：需构建作图群体；定位精度低，微效QTL难检测；无法找到最优等位基因

限制家系群体定位精度的最大原因：重组事件有限，染色体没有充分“打碎”；

F2家系：一代的重组；
RIL10：十代的重组

自然群体的优势：经历多世代的繁衍后，群体中的染色体不断重组，被拆散为一个个“小模块”。

单体型块：染色体“板块漂移”，制造的“孤岛”。

最简单的模型：方差分析

GWAS分析的多阶段设计

单阶段：一个群体进行关联分析。不严谨，一般为动植物类的研究。
两阶段：
阶段1：找候选关联位点。小样本（几百）全基因组关联分析，得到候选位点；
阶段2：候选位点的验证。已有群体大样本（成千上万）或新的独立群体，候选位点的关联分析。

多阶段设计的优点：

有验证的步骤：可靠
降低成本：第二阶段的检测位点数较少；
解决潜在的多重检验过校正的位点；重测序位点多，多重检验过于严格。例如：1M SNP , Bonferroni 校正阈值= 0.05/1*10-6=5*10-8

建议：第一阶段放宽过滤阈值，在第二阶段进行验证。由于第二阶段位点数较少，多重检验校正不会如此严苛。

GWAS完整的混合线性模型存在各类干扰的潜在效应（Yu et al., Nat Genet, 2006 38: 203‐208）：

GWAS软件：Tassel、Emma、Emmax、Plink、Gemma、Gapit

群体材料对GWAS结果的影响（Breseghello F et al, Crop Sci.,2006）：

群体大小对GWAS结果的影响（Yan et al, Crop Science, 2011）：

群体结构和个体间潜在的系谱关系，可能会导致假阳性（Zhu and Yu, 2009, Genetics）：

当性状分布恰好和群体结构一致的时候，会导致大量假阳性（Rafalski, 2010, Plant Biol）：

群体结构（Q矩阵）和系谱关系（K矩阵）的校正，即Q+K模型。

动物的思路：

PCA分析初步判断。
一般而言，动物类样本在系谱清晰，且没有明显群体结构的情况下，可以直接剔除离群样本。剔除后，继续使用PCA分析进行检查。确认没有问题后，然后使用一般线性模型进行关联分析。
如果存在群体分层的迹象，再考虑使用Q矩阵进行矫正；

植物的思路：

PCA分析初步判断。
由于品系间杂交很常见（例如玉米），所以群体结构和不同品系间的系谱关系更加普遍。
所以建议分析的时候，同时使用一般线性模型和不同的混合线性模型，然后比较结果的好坏。

表型处理：

正态性判断：shapiro.test(x)
仅仅个别样本异常，建议剔除：如极端值，离开均值大于4倍SD
如果整体偏离散，例如基因表达量值。建议取log2后，重新检验正态性。

判断模型的合理性：

QQplot：随机p value和检验p vlaue分布间的关系
良好模式：前期一致，后期翘起
过度矫正：真实的P值显著性低于随机误差

矫正不足：大部分标记的显著性都高于随机误差

同一个群体，不同性状的最适模型并不相同（Yang et al, Theor Appl Genet , 2010 121:417–431）：

连锁作图（QTL定位）和关联作图（GWAS）的互补性：

材料组合的精度提升：

连锁分析初定位，确定QTL
QTL区域选择候选基因
自然群体关联分析，精细定位

材料组合的可靠性提升：

自然群体关联分析
确定若干候选QTL
连锁分析验证QTL

本文笔记主要来自基迪奥的报告，侵权删

标签：分析,GWAS,尘封,关联,QTL,位点,群体
From： https://www.cnblogs.com/miyuanbiotech/p/18250260

scPagwas-gwas data pruning的处理-inhouse 【未完成整理】
总共三个大步骤：step1：提取503例EUR-Sample的1000G.EUR.QC.chr，通过python脚本批量跑plink得到step2:提取my-MDD中SNP的1000G.EUR.QC.chr-sub-chr,通过python脚本批量跑plink得到step3:进行pruning，得到MDD.chr*_plink_prune_EUR_filtered_LD0.8.prune.in，通过python脚本批量跑pli......
GWAS + 选择进化代码
library(CMplot)library(tidyverse)fst=choose.files()pi=choose.files()fst1=read.table(fst,header=T)head(fst1)fst2=fst1%>%select(1,2,3,6)%>%top_frac(0.05,wt=MEAN_FST)head(fst2)write.table(fst2,"fst_vasuclar.txt",qu......
GWAS：plink进行meta分析
之前教程提到过Metal是可以做Meta分析，除了Metal，PLINK也可以进行Meta分析。命令如下所示：plink--meta-analysisgwas1.plinkgwas2.plinkgwas3.plink+logscaleqt--meta-analysis-snp-fieldSNP--meta-analysis-chr-fieldCHR--meta-analysis-bp-fieldBP--meta-analysis......
GWAS软件包：GAPIT3它来啦
GAPIT是一款非常老的而且非常流行的软件包，傻瓜式操作，一键出图出结果，一篮子的解决方案，是我最经常使用的GWAS分析软件包。最近，GAPIT现在的版本是GAPIT3，速度比第二版有较大的提升：更大的变化，终于有GAPIT这个软件包了，可以用library载入进去，而且安装方式可以用github安装，更符合R-style。1......
QTL
QTL：是数量性状基因座：它指的是控制数量性状的基因在基因组中的位置。QTL实际上是一个抽象的概念。指的是存在与基因组中的某一位置，这个位置上的基因会影响某一数量性状的表达。QTL可以是一个简单的基因座，也可以是多个基因座的组合。......
GWAS数据库
NHGRI-EBIGWAS数据库:https://www.ebi.ac.uk/gwas/描述：由美国国家人类基因组研究所（NHGRI）和欧洲生物信息研究所（EBI）合作建立的GWAS数据库，提供了公开可访问的GWAS关联结果和相关信息。GRASP:http://grasp.nhlbi.nih.gov/Overview.aspx描述：由美国国家心脏、肺部和血液......
GWAS：表型的标准化（the normalization of phenotype）
GWAS表型的标准化方法一般有Quantilenormalization、Inverseranknormalization、Z-scorenormalization等。各自区别如下：一、Quantilenormalization该方法将每个样本中表型值进行排序，然后将其规范化到一个标准分布，通常是正态分布。规范化是通过将每个样本的分布等同于目标......
QTLtools 协变量文件说明（covariate）
协变量格式如下所示：注意事项：缺失值用NA表示；接受定性和定量的协变量；定量协变量用数值型表示；定性协变量用非数值型表示，类似于上图的A，B，C。定量和定性的判断依据是有没有等级关系，比如年龄属于定量，比如地区属于定性。需要注意的是，只要是定性的变量，都不能用数值表示，不然会被当成......
post-GWAS: transcriptome-wide association studies (TWAS) 结果解读
Thetoppanelshowsallofthegenesinthelocus.ThemarginallyTWASassociatedgenesarehighlightedinblue,andthosethatarejointlysignificant(inthiscase,FAM109B)highlightedingreen.Thestatisticsforthejointlysignificantgenesarerepo......
R语言实现GWAS结果显著SNP位点归类提取与变异类型转化
GWAS结果显著SNP位点归类提取与变异类型转化根据GWAS得到的Rresult文件信息，能够找出每个snp位点对应的显著性情况和基因变异信息，接下来，需要根据表格中的信息进行归纳总结，对不同显著性层次进行区分，找出可能性最大的点，过程比较繁琐。这里笔者分享一个算法，使统计SNP和变异类型变的......

尘封在文件夹中的GWAS和QTL定位的古老笔记

相关文章

赞助商

阅读排行