从宏基因组测序数据生成宏基因组组装基因组的计算工具
小组成员及分工
王嘉璐 22020080046:负责摘要、引言部分
王涵 22020080045:负责用于构建mag的上游分析工具部分
王婷 22020080047:负责总结,查找文献,博文整理汇总
1 摘要
微生物本质上与地球上的人类生活有着错综复杂的联系。它们严重干扰不同的生理过程,从而影响整体健康状况。过去,对微生物物种的研究仅限于可以在实验室中培养的微生物,但它排除了无法在实验室条件下生存的很大一部分微生物组。在过去的几年里,与培养无关的宏基因组测序使我们能够探索我们体内和身上共存的复杂微生物群落。宏基因组学为我们研究微生物组提供了新的途径,从研究单个物种到动态生态系统中的复杂群落。因此,识别相关微生物及其基因组成为宏基因组测序的核心任务之一。宏基因组组装基因组是指具有相似序列特征的重叠群,可以代表宏基因组测序中的微生物基因组。
2 引言
微生物对生命至关重要,人类与参与不同生理过程的微生物群落有着错综复杂的联系。尽管它们在生理学上有着至关重要的联系,但在过去,围绕它们共存的见解却很少被描述出来。传统上能够从实验室培养物中分离和测序单个微生物。然而,在识别广泛的微生物及其在宿主内的共同进化方面是有限的。尽管在培养方面有进展,但肠道生态系统中仍有大量尚未确定的微生物多样性尚未得到表征。宏基因组方法基本上解决了这一挑战,该方法研究了它们通常存在的复杂微生物群落。这项技术能够以独立于培养的方式从微生物基因组的混合物中检索基因组,而无需进行物种分离。随后,下一代测序(NGS)技术和先进的计算工具已被广泛纳入分析和解释宏基因组学数据,以研究微生物组的不同领域。
许多研究都采用了宏基因组测序来探索它们对人类健康的影响。这为医学打开了一扇新的窗口,并揭示了宿主微生物组和疾病之间的大量新关联。例如,一项荟萃分析研究在研究癌症患者的多个肠道宏基因组测序数据集时,指出了一些肠道微生物(如核梭杆菌、微小Parvimonas micra和莫氏Gemella morbillorum)与结肠癌症的联系[1]。Thingholm LB等人的另一项研究表明,与产生短链脂肪酸有关的几种细菌,如阿克曼菌、粪杆菌、奥氏杆菌和阿利斯蒂普菌,在肥胖个体中显著减少,并与其血清代谢产物的变化有关[2]。后来,对阿尔茨海默病患者的微生物组进行的研究发现,细菌的大量富集会诱导促炎状态,这表明肠道和大脑之间存在联系。此外,阴道微生物组也因其在早产中的潜在作用而迅速受到关注,Jennifer M.Fettweis等人发现了一些早产相关分类群,如BVAB1、Sneathia amnii和TM7-H1,是与早产相关的促炎细胞因子相关的最突出候选者[3]。
这些研究中的大多数使用了基于参考的分析策略,该策略将短读数与参考基因组、标记基因集或特定序列直接比对。k-mer [4]信息或通用单拷贝基因通常从参考基因组中提取,用于估计相对序列丰度和相对分类丰度,以解释数据。然而,由于参考序列并不完整,上述研究大多依赖于研究充分的属或种。它给注释新基因、物种或菌株带来了技术挑战。例如,大约40%-50%的人类肠道微生物缺乏参考基因组。因此,它在很大程度上需要一个特征良好的参考基因组集合来注释新微生物的丰度和功能。随着宏基因组学的最新进展,试图使用宏基因组组装基因组(MAG)来代表基于宏基因组组装的参考基因组来解决这些挑战,这使得能够以独立于培养的方式从样本中高通量检索微生物基因组,而无需物种隔离。MAG是被断言为紧密代表或实际细菌基因组的序列片段。在这种方法中,测序读数被组装成重叠群,然后根据其序列背景、丰度和样本组之间丰度的共同变化将重叠群合并为候选MAG。随后,对这些MAG进行质量检查,并进一步用于基因预测和注释。这种方法为深入研究的环境(如人类肠道)提供了有价值的定制参考数据库。例如,通过大规模收集人类肠道的宏基因组数据,Pasolli E及其同事发现了超过150000个微生物基因组,超过50%的属种以前从未被描述过[5]。这一发现将肠道宏基因组测序读数的平均作图能力从67.76%提高到87.51%。Almeida A等人还报告称,他们从组装的基因组中鉴定的肠道蛋白质的范围是当前数据库中基因数量的两倍多[6]。这些新鉴定的基因组和基因已被证明具有不同的功能特性,并与许多疾病有关,这可能会改善当前的预测模型。
本文证明了宏基因组学方法在研究微生物组方面的巨大潜力,包括一些合理的解决方案,以克服当前与宏基因组学领域技术限制相关的挑战。
3 用于构建mag的上游分析工具
宏基因组学通过为复杂生态系统中存在的微生物群落的培养独立评估和开发铺平了道路,从而彻底改变了微生物学。宏基因组学包括构建和筛选宏基因组DNA文库,已被证明是分离具有工业重要性的新酶和药物的有力工具。到目前为止,大多数宏基因组开发的栖息地包括温带环境,如土壤和海洋环境。最近,极端环境的宏基因组也被用作新型生物催化剂的来源。新一代测序技术用于宏基因组学,产生了来自各种环境(如土壤、人体和海水)的大型序列数据集。对这些数据集的分析为了解环境微生物群落的巨大分类和功能多样性打开了一扇窗。为了评估微生物群落的功能动态,已经发展了元转录组学和元蛋白质组学。结合基于DNA、基于mRNA和基于蛋白质的微生物群落分析存在于不同的环境中,是一种阐明微生物群落的组成、功能和相互作用的方法,并将这些与环境过程联系起来。
传统上,大多数用于短读的宏基因组组装程序都是使用重叠一致(overlap layout consensus, OLC)方法设计的。例如,Omega[7]存储前缀并在哈希表中为每次读取添加后缀序列,然后用它来构造 双向图连接读取和它们的重叠部分。此图稍后被简化为 移除代价最小的路径的可传递边。由于一些 与OLC相关的固有问题,Omega很难处理大型测序读取,它也无法区分嵌合结构。许多其他组装商都是如此设计基于德布鲁因图(dbg),它将读取分为k-mer和can降低计算机内存成本。其中,MetaVelvet[8],一种流行的基于Velvet构建的宏基因组组装器[9]。MetaVelvet构造并在其中引入分区,以便使用覆盖率进一步创建子图节点的峰值。嵌合组合和具有重复序列的组合是利用对端信息和覆盖范围的局部差异进行识别和分割。MetaVelvet-SL[10]改善了嵌合物反卷积的决策过程配置使用支持向量机。MetaVelvet-DL构建端到端深度卷积神经网络(cnn)和长短期记忆学习模型单位。事实证明,破译嵌合组合更有效的方法是与MetaVelvet-SL相比。然而,dbg的一个常见问题是k-mer的选择大小,这对它处理重复序列的能力有很大的影响节点覆盖不均匀[11]。然后,为了优化k-mers的选择,IDBA-UD[12]尝试迭代地修剪图形,并合并不断增加k-mer大小的气泡。的如果观察到图的覆盖范围明显不同,则确定K-mer大小。此外,MEGAHIT[13,14]将k-mer尺寸的选择过程与简洁的dbg和耦合在一起具有较强的计算效率。metaSPAdes[15],一个非常流行的宏基因组汇编程序,通过引入一种新的启发式策略来改进黑桃[16]区分种间重复序列。它假定大会的覆盖范围不均衡绘制并构建具有不同k-mer大小的多个DBGS。假设的k-mers是设计用于识别嵌合结构。另一个高级工具Ray Meta[17]实现了a为装配图的每个种子路径生成局部覆盖分布的策略。
基因组组装是生产高质量MAG的重要步骤。已经开发了几种最先进的汇编器来分析来自不同测序技术的数据。一些研究[18]报告说,构建的MAG的质量很高,并且与从分离株组装的基因组的质量相似。然而,最近的一项研究[19]表明,一些MAG并不像预期的那样。同时,还开发了一些工具来去除嵌合MAG中的污染支架。MAG purify [20] 通过考虑来自多个来源的信息(例如系统发育标记基因、分支特异性标记和 GC 含量)来去除与同一 MAG 的支架相去甚远的支架。GUNC计算分支分离和参考表示分数以量化基因组嵌合体。理想情况下,MAG的构建应针对所有高、中、低丰度微生物进行。然而,现有的工具大多无法区分低丰度微生物的读数和文库制备和测序的污染。虽然这些工具可以生成低丰度物种的重叠群和支架,但邻接性相对较差,序列仅代表部分基因组。先进的长读长测序技术可能有望产生完整的基因组并检测低丰度微生物。之前的一项研究表明,选择性纳米孔测序技术富集了特定的DNA分子,使研究人员能够专注于感兴趣的DNA片段。这些技术有助于从复杂的微生物群落中组装低丰度物种。然而,对长读长测序数据组装的担忧仍然存在,因为它们往往包含更高的测序错误率,并且代表完整微生物基因组的循环化过程通常是一个挑战。这需要开发高效的算法,特别是对于高基础质量的装配。此外,宏转录组学数据可能为在复杂环境中检测活微生物提供新的范式。尽管已经开发了几种元转录组组装工具,,但此类工具的数量仍然有限。
4 结论
总体而言,进一步改进MAG构造和注释工具的当前局限性,具有潜在解决方案和未来前景。我们相信,为MAG研究的当前阶段提供整合的资源,同时阐明未来更有效的宏基因组测序MAG分析工具的发展,有利于生物信息学更加进一步的发展。
参考文献
[1] AM T, P M, F A, E P, F A, M Z, et al. Metagenomic analysis of colorectal cancer datasets identifies cross-cohort microbial diagnostic signatures and a link with choline degradation. Nat Med 2019;25:667–78. https://doi.org/10.1038/S41591-019-0405-7.
[2] LB T, MC R, M K, B F, G L, R B, et al. Obese Individuals with and without Type 2 Diabetes Show Different Gut Microbial Functional Capacity and Composition. Cell Host Microbe 2019;26:252-264.e10. https://doi.org/10.1016/J.CHOM.2019.07.004.
[3] JM F, MG S, JP B, DJ E, PH G, HI P, et al. The vaginal microbiome and preterm birth. Nat Med 2019;25:1012–21. https://doi.org/10.1038/S41591-019-0450-2.
[4] Sun Z, Huang S, Zhang M, Zhu Q, Haiminen N, Carrieri AP, et al. Challenges in benchmarking metagenomic profilers. Nat Methods 2021;18:618–26. https://doi.org/10.1038/s41592-021-01141-3
[5] Pasolli E, Asnicar F, Manara S, Zolfo M, Karcher N, Armanini F, et al. Extensive Unexplored Human Microbiome Diversity Revealed by Over 150,000 Genomes from Metagenomes Spanning Age, Geography, and Lifestyle. Cell 2019;176:649-662.e20. https://doi.org/10.1016/j.cell.2019.01.001.
[6] A A, S N, M B, F S, M B, ZJ S, et al. A unified catalog of 204,938 reference genomes from the human gut microbiome. Nat Biotechnol 2021;39:105–14. https://doi.org/10.1038/S41587-020-0603-3
[7] B H, TH A, B B, J C, A C, C P. Omega: an overlap-graph de novo assembler for metagenomics. Bioinformatics 2014;30:2717–22. https://doi.org/10.1093/BIOINFORMATICS/BTU395.
[8] Namiki T, Hachiya T, Tanaka H, Sakakibara Y. MetaVelvet: An extension of Velvet assembler to de novo metagenome assembly from short sequence reads. Nucleic Acids Res 2012;40. https://doi.org/10.1093/NAR/GKS678.
[9] DR Z, E B. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res 2008;18:821–9. https://doi.org/10.1101/GR.074492.107.
[10] Afiahayati, Sato K, Sakakibara Y. MetaVelvet-SL: An extension of the Velvet assembler to a de novo metagenomic assembler utilizing supervised learning. DNA Res 2015;22:69–77. https://doi.org/10.1093/DNARES/DSU041.
[11] Liang K ching, Sakakibara Y. MetaVelvet-DL: a MetaVelvet deep learning extension for de novo metagenome assembly. BMC Bioinformatics 2021;22.https://doi.org/10.1186/S12859-020-03737-6.
[12] Y P, HC L, SM Y, FY C. IDBA-UD: a de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth. Bioinformatics 2012;28:1420–8. https://doi.org/10.1093/BIOINFORMATICS/BTS174.
[13] D L, CM L, R L, K S, TW L. MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph. Bioinformatics 2015;31:1674–6. https://doi.org/10.1093/BIOINFORMATICS/BTV033.
[14] Li D, Luo R, Liu CM, Leung CM, Ting HF, Sadakane K, et al. MEGAHIT v1.0: A fast and scalable metagenome assembler driven by advanced methodologies and community practices. Methods 2016;102:3–11. https://doi.org/10.1016/J.YMETH.2016.02.020.
[15] S N, D M, A K, PA P. metaSPAdes: a new versatile metagenomic assembler. Genome Res 2017;27:824–34. https://doi.org/10.1101/GR.213959.116.
[16] Bankevich A, Nurk S, Antipov D, Gurevich AA, Dvorkin M, Kulikov AS, et al. SPAdes: A New Genome Assembly Algorithm and Its Applications to Single-Cell Sequencing. J Comput Biol 2012;19:455. https://doi.org/10.1089/CMB.2012.0021.
[17] S B, F R, E G, F L, J C. Ray Meta: scalable de novo metagenome assembly and profiling. Genome Biol 2012;13. https://doi.org/10.1186/GB-2012-13-12-R122.
[18] Pasolli E , Asnicar F , Manara S ,et al.Extensive Unexplored Human Microbiome Diversity Revealed by Over 150,000 Genomes from Metagenomes Spanning Age, Geography, and Lifestyle[J].Cell, 2019.DOI:10.1016/j.cell.2019.01.001.
[19] FA M, RB K, EV A. pplacer: linear time maximum-likelihood and Bayesian phylogenetic placement of sequences onto a fixed reference tree. BMC Bioinformatics 2010;11:538. https://doi.org/10.1186/1471-2105-11-538.
[20] Welker F ,Jazmín Ramos-Madrigal, Gutenbrunner P ,et al.Author Correction : The dental proteome of Homo antecessor (Nature, (2020), 580, 7802, (235-238), 10.1038/s41586-020-2153-8)[J].Nature, 2020.
标签:doi,从宏,测序,基因组,微生物,https,org From: https://www.cnblogs.com/wwanghan/p/17467707.html