long long ago,小野记录了关于重测序基因定位和GWAS相关的笔记。打开古老的文件夹,发现有些东西依然不过时,零零散散,随意发布。
QTL定位策略:
- 群体类型:作图群体,自然群体
- 选材策略:全群个体分析,选择基因型分析,混合分组分析
- 优点:适合稀有基因研究;群体可控,目的性和结果预期性强
- 缺点:需构建作图群体;定位精度低,微效QTL难检测;无法找到最优等位基因
限制家系群体定位精度的最大原因:重组事件有限,染色体没有充分“打碎”;
- F2家系:一代的重组;
- RIL10:十代的重组
自然群体的优势:经历多世代的繁衍后,群体中的染色体不断重组,被拆散为一个个“小模块”。
单体型块:染色体“板块漂移”,制造的“孤岛”。
最简单的模型:方差分析
GWAS分析的多阶段设计
- 单阶段:一个群体进行关联分析。不严谨,一般为动植物类的研究。
- 两阶段:
阶段1:找候选关联位点。小样本(几百)全基因组关联分析,得到候选位点;
阶段2:候选位点的验证。已有群体大样本(成千上万)或新的独立群体,候选位点的关联分析。
多阶段设计的优点:
- 有验证的步骤:可靠
- 降低成本:第二阶段的检测位点数较少;
- 解决潜在的多重检验过校正的位点;重测序位点多,多重检验过于严格。例如:1M SNP , Bonferroni 校正阈值= 0.05/1*10-6=5*10-8
建议:第一阶段放宽过滤阈值,在第二阶段进行验证。由于第二阶段位点数较少,多重检验校正不会如此严苛。
GWAS完整的混合线性模型存在各类干扰的潜在效应(Yu et al., Nat Genet, 2006 38: 203‐208):
GWAS软件:Tassel、Emma、Emmax、Plink、Gemma、Gapit
群体材料对GWAS结果的影响(Breseghello F et al, Crop Sci.,2006):
群体大小对GWAS结果的影响(Yan et al, Crop Science, 2011):
群体结构和个体间潜在的系谱关系,可能会导致假阳性(Zhu and Yu, 2009, Genetics):
当性状分布恰好和群体结构一致的时候,会导致大量假阳性(Rafalski, 2010, Plant Biol):
群体结构(Q矩阵)和系谱关系(K矩阵)的校正,即Q+K模型。
动物的思路:
- PCA分析初步判断。
- 一般而言,动物类样本在系谱清晰,且没有明显群体结构的情况下,可以直接剔除离群样本。剔除后,继续使用PCA分析进行检查。确认没有问题后,然后使用一般线性模型进行关联分析。
- 如果存在群体分层的迹象,再考虑使用Q矩阵进行矫正;
植物的思路:
- PCA分析初步判断。
- 由于品系间杂交很常见(例如玉米),所以群体结构和不同品系间的系谱关系更加普遍。
- 所以建议分析的时候,同时使用一般线性模型和不同的混合线性模型,然后比较结果的好坏。
表型处理:
- 正态性判断:shapiro.test(x)
- 仅仅个别样本异常,建议剔除:如极端值,离开均值大于4倍SD
- 如果整体偏离散,例如基因表达量值。建议取log2后,重新检验正态性。
判断模型的合理性:
- QQplot:随机p value和检验p vlaue分布间的关系
- 良好模式:前期一致,后期翘起
- 过度矫正:真实的P值显著性低于随机误差
- 矫正不足:大部分标记的显著性都高于随机误差
同一个群体,不同性状的最适模型并不相同(Yang et al, Theor Appl Genet , 2010 121:417–431):
连锁作图(QTL定位)和关联作图(GWAS)的互补性:
材料组合的精度提升:
- 连锁分析初定位,确定QTL
- QTL区域选择候选基因
- 自然群体关联分析,精细定位
材料组合的可靠性提升:
- 自然群体关联分析
- 确定若干候选QTL
- 连锁分析验证QTL
标签:分析,GWAS,尘封,关联,QTL,位点,群体 From: https://www.cnblogs.com/miyuanbiotech/p/18250260本文笔记主要来自基迪奥的报告,侵权删