首页 > 其他分享 >生信大神李恒综述:T2T时代的基因组组装

生信大神李恒综述:T2T时代的基因组组装

时间:2023-12-10 17:12:11浏览次数:52  
标签:重复 测序 组装 读长 基因组 序列 李恒 T2T 生信

目录
生信领域大神李恒今年发在预印本上的一篇综述:Genome assembly in the telomere-to-telomere era,小编总结下要点。

影响组装的基因组特性

决定基因组组装难易程度的主要因素不是基因组大小,而是它的重复结构。重复序列可以通过比其更长的reads来解析。但是,还有更长的重复区域。例如,人类 1 号染色体的着丝粒周围区域含有 20 Mb 的重复序列比当前测序技术产生的读长要长得多。但我们仍然可以通过准确的长读长来组装这个区域。尽管它和其他此类区域由相似的重复拷贝组成,但它们随着时间的推移积累了突变,并且很少在10 kb以上共享相同的重复序列。给定长的无错误读长,我们可以区分不同的重复拷贝并成功组装它们。Reads从来都不是完全没有错误的,但是当reads错误率足够低并且测序错误足够独立时,我们可以纠正大多数错误并实现高质量的组装。

重复序列大致可分为三类:间隔重复序列(interspersed repeats)、串联重复序列(tandem repeats)和片段重复序列(segmental duplications)。

  • 间隔重复序列大多是分散在基因组中的转座元件。它们几乎都比现代长读长读短,因此不再对组装构成重大挑战。
  • 染色体臂上的大多数串联重复序列比长读长序列短,因此也易于组装。然而,卫星重复序列(satellite repeats)是一种通常富含着丝粒的超长串联重复序列,特别难以组装,因为整个卫星阵列不能被长读长跨越。
  • 片段重复是指基因组中重复的非常长的DNA片段,通常比长reads甚至超长reads要长。它们中的许多是聚集在一起的,可以串联。虽然古老的固定区段重复很容易解决,因为它们自其共同祖先以来通过突变积累了差异,但长多态性重复具有挑战性。
  • 核糖体 DNA (rDNA) 可以组织为由高度相似的拷贝组成的长串联阵列。长 rDNA 阵列是最难组装的区域之一。

长读长和长范围(long-range)测序技术

长读长技术可生成长度通常为 ≥10 kb 的连续读序列。

2019 年,PacBio 推出了长度为 10–20 kb 且错误率低于 0.5% 的高保真 (HiFi) 读长。这些有效地取代了 PacBio 错误率为 >10% 的旧连续长读长 (CLR)。

目前面向大众市场的 ONT 产品的准确率大致在 90-95% 左右,长度为 ≥100 kb。最新的 ONT v14 化学反应可以使用最新的 Dorado 碱基调用器生成准确率为 98-99% 的读数。ONT正在积极开发双链测序技术,该技术可对DNA片段的两条链进行测序,在准确性上接近 PacBio HiFi,并且可以更长。

即使是超长读长,也很少跨越超过几百Kb。为了可靠地获得染色体长支架和相位,需要长范围数据,使用最广泛的是Hi-C。Pore-C 与 Hi-C 类似,但使用 ONT 测序。Strand-seq 是另一种特别擅长染色体分组和重叠群定向的技术,但更昂贵,并且无法在市场上买到。亲本序列数据或三重数据(trio data)对于全基因组定相非常强大,也可以被视为一种长范围数据。

近T2T基因组组装

对于纯合基因组,近T2T组装的最可靠解决方案同时使用 PacBio HiFi reads 和 ONT 超长读长。一般先用 HiFi reads 来构建一个初始组装图,再用超长填补间隙。

近T2T基因组组装策略。a,组装单倍体或纯合基因组。在纠正准确长读长的测序错误后,将无差错读数组装成初始组装图,其中粗箭头表示序列,细线连接序列。然后,超长读数将贯穿装配图,以解决纠结的子图并修补小的装配间隙。Hi-C 等长距离数据有助于跨越剩余的差距。b, 组装杂合二倍体基因组。在纠错过程中保留了单倍型之间的杂合差异。组装图通常由一连串的“气泡”组成,代表单倍型之间的多态性。超长读长和长距离数据可用于确定单倍型的相位以及解析缠结。

组装杂合二倍体基因组遵循类似的策略。对于具有长纯合区域的基因组,单独使用HiFi和超长的组合可能无法使整个染色体分相。在这种情况下,建议使用三重数据来提供整个基因组的准确分相。当无法获得亲本样本时,可能使用Hi-C代替。Hi-C 仅提供重叠群之间的相对相位信息,不如三重数据强大,尤其是在纠结的子图中,但Hi-C仍然是可靠支架染色体的关键数据类型。将 HiFi 与 trio、Hi-C 或 Strand-seq 等长范围数据相结合,可以产生一对单倍型分辨组装,此组装具有相当的连续性。它还保留了相位,并且可以进一步用 Hi-C 搭建成分相染色体。

二倍体样品的分相组装类型。a,组装图可以进一步加工成不同类型。b,主/备用组装。初级组装代表一个完整的单倍体基因组,偶尔会发生相位切换。备用程序集是碎片化的。c,一对双组装。每个双组装都类似于一个主组装。d, 一对染色体相位组装体。来自同一单倍体染色体的重叠物被划分为同一组装。e,一对带有支架的染色体阶段组装体。重叠物通过组装间隙连接成染色体。

核心组装算法

现代长读长组装基本都是基于图论,即overlap graph或de Bruijn graph。在此图中,顶点表示一个序列,一条边表示从读取中推断出的可能连接。理想情况下,组装图将所有信息保留在读取中,没有冗余。然而,由于重复和倍性,它通常是非线性的。

基于overlap graphs组装。a, 简单重叠图组装。查找所有读取之间的重叠,识别可从其他重叠推断的传递重叠(虚线箭头),删除传递重叠,并将顶点与一条传入边和一个传出边合并以获得最终单位。b, 图形清理。未校正的排序错误(黄色六边形)可能会导致应修剪掉的尖端(读数 3)。重复(红色区域)可能会导致重复副本之间出现重叠,这些重叠可以通过图形清理进行剪切。c,组装一个比reads长的串联复制品。不允许不精确的重叠(红色箭头)会将该区域解析为一个简单的图形。d, 组装二倍体样品。允许不精确的重叠会导致杂合差异的丧失,并使两种单倍型崩溃。仅使用精确重叠可消除单倍型之间的比对,从而保留杂合等位基因及其局部相位。e,删除包含的reads(黄线)会导致红色单倍型上的组装间隙。

基于De Bruijn graphs组装。a, 以节点(顶点)为中心的不同k-mer长度的字符串的de Bruijn图。b,多路复用DBG改进了组装。使用 6-mers 作为节点的压缩 de Bruijn 图 DBGv(6) 被分割成两个单位。DBGv(5) 有一个连接的分量, 但图形有一个周期。多重 de Bruijn 图 DBGv(5,6) 在概念上是由 DBGv(5) 和 DBGv(6) 中的组合单元集构建的,使用 6-mers 作为节点。c,但是,多重 DBG 并不能解决所有情况。在这种情况下,多重DBG仍然是碎片化的,而基于重叠的方法(需要≥4bp重叠)组装成单个重叠群(如b)。

评估序列组装

基本指标
组装大小、contig长度综合、N50等。对于二倍体常染色体组装要有一对分相组装且具有相似大小,一对不平衡的常染色体组装可能表明分相不完整,可能要手动参数调整。性染色体很可能具有不同的大小。物种内的其他倍性变异也可能发生,例如由于体细胞染色体丢失或减少。

评估基因完整性
BUSCO是首选。minimap2 软件包中的“asmgene”工具是 BUSCO 的替代方案,还可以解决存在高质量参考基因组时的低完整性问题。

基于 K-mer 的评估
假设 k-mer 的计数与其读长计数成正比, k-mer 在读长中具有高频率但组装中不存在,表明序列缺失。KAT 是一个强大的工具,它利用这些简单的观察结果来评估组装。

使用k-mers来估计重叠群序列的基本准确度是一种常见的做法,通常以Phred scake作为QV(Quality Value)进行测量。目前有两种实现,Merqury 和 yak 。

基于比对的评估
理想情况下,当我们将序列读长与其组装比对时,我们期望在每个重叠群位置都能均匀覆盖。在较长的区域上覆盖率过低或过高都表明存在潜在的组装错误。我们还希望重叠群能够得到基础级别的读取的良好支持。Flagger、Asset和 Inspector是基于读长到程序集比对的面向用户的评估工具。

对于具有近乎完美的基因组,可以此作为基本事实,以评估使用较少数据类型或较低读取覆盖率生成的自动化程序集。QUAST 是很好的工具,这种基于比对的方法对于开发人员调整组装算法非常宝贵,但不适用于新物种,或者当“真实”组装和评估组装来自不同的菌株或不同样品时。

李恒的观点

在讨论部分,李恒指出了overlap-based和DBG两种算法组装、HiC数据以及组装软件的不足,他很看好ONT最新的simplex reads,兼顾超长与准确性,可能会大大简化高质量基因组组装。

我们能否用当前数据自动组装从端粒到端粒的所有染色体?李恒认为是不行的。他认为,过去几年的大部分进步都是由于数据质量的提高而取得的,而当前的软件从可用的输入数据中提取了大部分信息。仅靠算法改进可能无法可靠地解决所有组装gap。

我们期待在测序技术方面不断取得新的进展,以便在没有人为干预的情况下真正完成基因组。需要注意的是,一个完整的组装只是为下游生物学发现设定了一个开始。虽然基因组组装进展迅速,但基因组比对和注释工具却远远落后。我们希望在未来看到这些工具的持续发展,以实现(近乎)完整组装的全部功能。

更多信息请关注:

标签:重复,测序,组装,读长,基因组,序列,李恒,T2T,生信
From: https://www.cnblogs.com/miyuanbiotech/p/17892914.html

相关文章

  • 看看一个我怎么想都想不出来的简单东西 学生信息录入
    classStudent:   def__init__(self,name,age,address):       self.name=name       self.age=age       self.address=address#创建一个空列表来存储学生对象students_list=[]#使用for循环录入学生信息foriinrange(2): #你可......
  • 生信
    残基——氨基酸参与成键之外的部分蛋白质的三级结构一级序列二级ɑ-螺旋什么的,肽链主链骨架原子的空间位置排布,不包括残基侧链三级空间结构每个氨基酸用三维坐标表示背景:肽用于设计新型疗法,很nice,所以了解PepPIs就十分关键。用蛋白质阵列和质谱分析等实验方......
  • 基于springboot,vue的教务管理系统源码 学生信息管理系统
    项目源码获取方式放在文章末尾处项目技术数据库:Mysql5.7数据表:9张开发语言:Java(jdk1.8)开发工具:idea前端技术:Vue后端技术:SpringBoot 项目源码获取方式放在文章末尾处功能简介该项目是一个教务管理系统,角色分为管理员,教师,学生三个角色,具体功能菜单如下:管理员端    登录    ......
  • 在利用biopython请求生信数据库接口时,如何添加HTTP代理
    如果你使用Biopython来请求生物信息学数据库接口,并且需要通过HTTP代理进行访问,你可以使用urllib库来设置代理。以下是一个示例代码,展示了如何在Biopython中添加HTTP代理:fromurllibimportrequest#设置代理服务器的地址和端口proxy=request.ProxyHandler({'http':......
  • T2T组装时代的多基因组比对MGA
    多基因组比对(multiplegenomealignment,MGA)首先要定义多序列比对(multiplesequencealignment,MSA)。MSA是将同源关系分配给3个或更多序列的方法(对于2个序列,使用“成对”而非“多个”),其中一组核苷酸是同源的,如果它们来自同一个共同祖先。这些比对通常由二维数组表示,其中......
  • 哪个才是首个(中国)大豆的T2T基因组版本?
    目录主要结果主要方法数据策略工具问题来了2023年9月29日,哈尔滨工业大学王亚东团队联合中国农科院韩天富团队在bioRxiv发表了题为“Atelomere-to-telomeregenomeassemblyofZhonghuang13,awidely-grownsoybeanvarietyfromtheoriginalcenterofGlycinemax”的研究......
  • C#学习-winform窗口程序实践-简易学生信息管理系统
    最近逐步开始学习C#,今天完成了一个简易的C#实现的winform窗口程序,如下图所示,可以实现插入,修改,删除学生信息和查询学生成绩;使用VS并连接了mysql数据库 插入 选中相应的信息可以修改 删除 ......
  • springboot+vue2+element学生信息管理系统
    效果:  .vue<template><div><el-containerstyle="height:700px;border:1pxsolid#eee"><el-headerstyle="font-size:40px;background-color:rgb(238,241,246)">学生管理</el-header&......
  • 加拿大生信开源学习资源Bioinformatics.ca
    之前给大家推荐过教育部首批490门“国家精品在线开放课程”,里面很多跟生物或编程相关的免费经典课程。除了国内这些开放的学习资源外,还有许多国外的免费资源,比如英语写作常见错误和视频中是斯坦福大学老师的授课视频,很经典。如果时间紧张,只看前两节也挺好。今天给大家推荐的是加拿......
  • 宇意阁:学生信息管理系统
    未完待续。新手小白练手。用的联想电脑内存一般,学校要求装虚拟机,又花了大几百买了个移动硬盘,这个月吃土了。经朋友分享在“宇意阁”撸......