首页 > 其他分享 >T2T组装时代的多基因组比对MGA

T2T组装时代的多基因组比对MGA

时间:2023-11-11 16:45:47浏览次数:31  
标签:MGA 基因组 graphs 同源 序列 T2T MSA

多基因组比对 (multiple genome alignment, MGA)首先要定义多序列比对 (multiple sequence alignment, MSA)。MSA 是将同源关系分配给 3 个或更多序列的方法(对于 2 个序列,使用“成对”而非“多个”),其中一组核苷酸是同源的,如果它们来自同一个共同祖先。这些比对通常由二维数组表示,其中每行代表一个输入序列,每列代表一组同源核苷酸。

MSA 具有严格的约束,对齐是共线的,即从左到右读取的每一行,忽略空列,必须是原始输入序列。因此,MSA只能捕获小的插入缺失和点突变。找到最大化同源性的比对是一项计算困难的任务。此外,MSA不模拟进化事件,如倒位、易位和整个基因的获得或损失。在某些情况下,这些序列在医学上与人类疾病有关。尽管存在缺点,但MSA是研究同源关系的关键第一步,是准确重建系统发育树的重要前提,它也是有史以来研究最多的科学问题之一。

MGA的一个核心问题是如何正确地找到同源区域。由于 MGA 包括寻找和比对适合 MSA 的输入基因组的同源区域,因此 MGA 本质上与 MSA 一样具有挑战性。

MGA工具的时间线。人类和小鼠基因组的最初测序推动了多个基因组比对工具的发展。在此之后,下一代基因组比对工具(从Enredo-Pecan开始,到Cactus结束)被开发出来,随后经过了6年的静默期,Parsnp成为2012年至2019年之间发布的为数不多的工具之一。

a-c:NCBI中不同类群的真核生物物种组装数量。
d-f:NCBI中具有可用基因组组装的真核生物物种数量。
第三代测序技术及其伴随的组装算法在2010年代初的出现在很大程度上是导致新的真核生物基因组存储速度增加的原因。

由于全基因组比用于MSA的序列更长,结构更多样化,因此几乎所有MGA算法都使用两步程序来分解问题:首先在两个或多个序列中识别高度相似的区域,称为锚点,然后使用这些锚点在输入基因组中识别更大的无重排区域,称为局部共线块(locally colinear blocks, LCB)。

多基因组比对方法。只部分多基因组比对或只适用于成对基因组比对的工具不在此列。

MGA流程。a 多个基因组中发生的大规模基因组重排、插入和缺失的示例。b 由虚线框围绕的3个基因组部分的锚点。c 合并3个线性基因组图获得比对图。d 移除锚点噪音,简化比对图,生成更长的共线路径。e 对于每个共线路径,MGA工具执行多序列比对(MSA),生成一组序列比对,这些比对组合在一起形成基因组比对。

锚点算法:

  • 成对精确:MUMmer
  • 成对近似值:LastZ
  • 多序列精确:Parsnp
  • 多序列近似值:ProcrastAligner

对齐算法:

  • Basic alignment graphs
  • A-Bruijn graphs
  • Enredo graphs
  • Cactus graphs
  • de-Bruijn graphs

LCB构建:

  • Graph-free LCB construction: ProgressiveMauve
  • A-Bruijn graphs: Mugsy
  • Enredo graphs: Enredo-Pecan aligner
  • Cactus graphs: Cactus aligner
  • De-Bruijn graphs: SibeliaZ

随着基因组的完成和重复区域的正确解析,MGA算法可以更加专注于查找准确的局部比对,减少调整测序误差的需要。由于多基因组比对是一个广泛的领域,未来的改进可能包括重复屏蔽、局部比对、图论、LCB构建和多序列比对等方向。

Kille B, Balaji A, Sedlazeck FJ, Nute M, Treangen TJ. Multiple genome alignment in the telomere-to-telomere assembly era. Genome Biol. 2022;23(1):182. Published 2022 Aug 29. doi:10.1186/s13059-022-02735-6

更多信息请关注微信公众号:生物信息与育种

标签:MGA,基因组,graphs,同源,序列,T2T,MSA
From: https://www.cnblogs.com/miyuanbiotech/p/17826053.html

相关文章

  • 哪个才是首个(中国)大豆的T2T基因组版本?
    目录主要结果主要方法数据策略工具问题来了2023年9月29日,哈尔滨工业大学王亚东团队联合中国农科院韩天富团队在bioRxiv发表了题为“Atelomere-to-telomeregenomeassemblyofZhonghuang13,awidely-grownsoybeanvarietyfromtheoriginalcenterofGlycinemax”的研究......
  • 植物基因组学和作物改良中的深度学习
    目录深度学习:概念、工具和注意事项沿着分子生物学的中心法则进行深度学习DNA和基因特性蛋白质特性模型和数据共享理解基因组变异:从关联到因果关系和分子机制深度学习育种4.0:编辑育种结论植物基因组学取得了巨大进步,其特点是高通量技术的爆炸式增长,以低成本识别多维全基因组分子......
  • 植物图形泛基因组Graph-based pan-genome
    目录图形泛基因组的构建图泛构建方法获取和合并PAV变异图泛的存储格式线性参考基因组坐标的恢复图泛的可视化图泛的注释基因结构注释图泛的变异注释结构变异鉴定与基因分型图泛比对软件的优势图泛的应用功能元件的鉴定现有物种中的图泛规模基于图泛的GWAS未来应用结论与未来展望......
  • 宏基因组测序流程及其分析步骤
    测序样本信息:完成了70个根际土壤样本的宏基因组测序。数据预处理:使用KneadData工具进行质控和去宿主处理。利用Trimmomatic去除接头序列并进行质量过滤。使用Bowtie2构建宿主库和进行去宿主处理。从头组装:采用MEGAHIT工具对原始测序数据进行从头组装,生成contigs。......
  • 基因组选择GS应用的四个场景
    目录GS应用的四个场景情景1情景2情景3情景4本文整理自GiovannyECovarrubiasPazaran博士的报告《GenomicSelectioninR》,他是国际水稻研究所植物育种和遗传学博士,具有强大的统计学背景以及具有从事育种计划和实践研究的丰富经验,是R和SAS等不同软件平台进行多元线性混合建模......
  • 基于深度学习框架的基因组预测新模型SoyDNGP
    目录简介材料方法数据集SoyDNGP的模型结构比对模型的处理主要结果SoyDNGP在大豆基因组预测中展现了出色的能力大豆基因组预测中SoyDNGP与其他算法的性能比较SoyDNGP模型在不同大豆群体中的多功能预测能力SoyDNGP在大豆之外的广泛应用SoyDNGP是一个面向大豆基因组预测的开放友好的......
  • 全基因组选择中的p>n
    当独立变量(或特征)的数量超过样本(或观察值)的数量时,会遇到所谓的“p>n”问题。在此,"p"指的是特征数量,而"n"指的是观察或样本数量。这里的特征可以是基因型数据中的单核苷酸多态性(SNPs)等。以下是“p>n”问题的几个关键点:过拟合:当特征数量超过样本数量时,模型更容易过拟合。......
  • 深度学习模型在基因组选择中的预测能力(统计、总结)
    Gianolaetal.[61]:应用:基因组选择。比较:多层感知器(MLP)与贝叶斯线性回归(BRR)。结果:在小麦数据集中,随着隐藏层神经元数量的增加,MLP的预测能力提高。MLP对BRR的性能提高了11.2%至18.6%。在Jersey数据集中,MLP也超越了BRR,特别是在脂肪产量、牛奶产量和蛋白产量上。Pérez-R......
  • 基因组数据的缺失数据的处理和标准化或归一化
    基因组数据的预处理和整合至关重要,特别是当考虑到数据的不完整性、不规则性和大尺度。以下是一个全基因组选择中,如何处理基因组数据并将其输入神经网络的步骤:1.缺失数据处理在基因分型过程中,可能会产生缺失数据。处理这些缺失数据的方法有很多,其中一些常见的方法是:均值填充:......
  • 在全基因组选择中,基因组数据是如何输入进神经网络中的
    在全基因组选择(GS)中,通常使用基因分型数据,这些数据来源于一个组织或个体的DNA。这些数据通常是由高通量测序或基因分型技术得到的。为了将这些数据用作神经网络的输入,我们需要将它们转换为合适的格式。以下是这一过程的详细步骤:基因分型数据:通常,基因分型数据表示为二进制或三类......