首页 > 其他分享 >哪个才是首个(中国)大豆的T2T基因组版本?

哪个才是首个(中国)大豆的T2T基因组版本?

时间:2023-11-11 16:44:58浏览次数:23  
标签:着丝粒 首个 基因组 区域 序列 T2T ZH13

目录
2023年9月29日,哈尔滨工业大学王亚东团队联合中国农科院韩天富团队在bioRxiv发表了题为“A telomere-to-telomere genome assembly of Zhonghuang 13, a widely-grown soybean variety from the original center of Glycine max”的研究文章,该文于11月3日正式见刊《The Crop Journal》。

主要结果

相比之前发表的中黄13基因组,ZH13-T2T填补了全部393个空白区域。拼接产生的基因组长度为1,015,024,879 bp,N50长度为52,033,905 bp。

20条染色体中的全部40个端粒区域均成功拼接完成,端粒中位数长度达到8449 bp;BUSCO指标达到99.8%,碱基质量评分(Merqury质量评分)达到46.441。

PacBio Hifi和ONT超长测序数据在全基因组上的覆盖度均匀且符合期望值,未发现覆盖度异常区域,显示整个基因组具有较高的拼接质量。

ZH13-T2T基因组与原ZH13比较:共有421个长度超过5kb的显著序列差异区域(总长16.3 Mbp)及112个结构变异,包括30个倒置变异、15个易位变异、67个序列重复变异。

ZH13-T2T基因组与南京农业大学最新发表的Williams 82 T2T基因组(Wm82-NJAU)进行比较:发现了162个长度超过5 kb的显著序列差异区域(总长23.02 Mb)和30个结构变异(包括16个倒位变异、7个易位变异和7个序列重复变异)。

ZH13-T2T与Wm82-NJAU比较

ZH13-T2T重复序列注释,发现了大量具有高置信度的新编码基因和重复元件(57.07%),其中反转录转座子占38.16%(包括0.12%的SINEs、1.58%的LINEs和36.47%的LTR元件),而DNA转座子占6.72%。串联重复序列占大豆基因组的2.63%(26.65 Mb),明显超过了在中黄13参考基因组序列中观察到的1.03%(10.54Mb)。

TE分布

ZH13-T2T基因结构注释,共获得50,564个高置信度蛋白质编码基因。与ZH13-2019相比,在gap区域内发现了707个新基因。在此前的gap区域中,在CM010421. C1染色体的14.84-17.73Mb区域内观察到新发现的基因数量最多,共135个新基因。此外,在这些gap区域内确定了42,668个TEs,300个GmCent-1元素和586个GmCent-2元素。RNA-seq分析显示,在38个gap区域中的295个基因中有表达。

染色体着丝粒鉴定:通过串联重复查找工具(TRF)鉴定ZH13-T2T基因组中可能构成着丝粒的重复单体,发现长度为91 bp和92 bp的大量串联重复序列,与着丝粒区域TE的间隙相吻合。20个着丝粒的平均长度为2.40 Mb,在CM010410.C1染色体上观察到的最长着丝粒(4.42 Mb) 和在CM010421.C1染色体上观察到最短的着丝粒(0.66 Mb)。

着丝粒长度与染色体大小之间没有显著相关性。着丝粒的相对位置在不同染色体之间存在差异,最小L/S比(长臂长/短臂长)为1.02(CM010415.C1),最大L/S比为2.95(CM010423.C1)。在ZH13-T2T的着丝粒区共鉴定出8个基因,主要富集染色质DNA结合、mRNA顺式剪接、组蛋白结合、基底转录因子、剪接体和嘧啶代谢。

着丝粒序列由96.0%的着丝粒卫星DNA(CentC)、着丝粒反转录转座子(CRM)和其他非CRM Gypsy反转录转座子组成。这些成分的比例在不同的着丝粒中差异很大,GmCent-1从0.0%到73.3%,GmCent-2从0.0%到90.4%,CRM从0.0%到2.2%,其他非CRM Gypsy反转座子从7.3%到68.2%不等。几乎所有的着丝粒都富含 CentC。

主要方法

数据策略

  • PacBio Hifi测序(数据量:96.89 Gbp)
  • ONT超长测序(数据量:96.63 Gbp)
  • Illumina全基因组测序(数据量:55.40Gbp)
  • Illumina Hi-C测序(数据量:106.4 Gbp)

工具

Hifiasm、NextDenovo和Canu的组装:

  • Hifiasm的contigs作为骨架(并比对到ZH13-2019版本进行排布定向),因为其准确性和连续性。

  • NextDenovo的contigs用于填充未解决的区域,而Canu的contigs用于填充gap、LCR校正和端粒细化。

  • 另外,还做了很多组装微调的工作:通过监测读长覆盖度(高覆盖区HCRs和低覆盖区LCRs)来防止错误组装,并使用局部读长覆盖度进行质量控制。通过收集和对齐锚定的reads,来推断长重复序列。

端粒的鉴定:

  • 使用7-mer重复序列(CCCTAAA / TTTAGGG)来识别初步组装中的端粒。

  • 使用7-mer模式搜索由NextDenovo、Canu和Hifiasm(仅使用hifi reads)产生的contigs,并找到了其中的三个缺失。

  • 使用李恒大神的seqtk确定了在ZH13-T2T基因组中端粒的精确位置,命令seqtk telo -s 1 -m CCCTAAA ref.fa

着丝粒的鉴定:

  • 利用两个高拷贝的卫星重复亚家族CentGm-1和CentGm-2(它们专属于中心区域),确定大致位置。然后通过IGV观察到TE注释缺失的区域与91/92bp长序列集中的区域之间存在重叠,从而确定中心粒的位置。

结构变异鉴定:

  • minimap2+SyRI

问题来了

今年8月底,南农宋庆鑫团队在MP上发表了Williams 82的T2T基因组。10月6号,广西大学王海峰和与东北农大陈庆山团队在MP发表了中黄13的T2T基因组和表观遗传修饰图谱。

本研究在9月29日投稿预印版,报道称“首个无间隙的中国大豆品种T2T基因组”。这就有点意思了,你认为哪个是首个大豆T2T?哪个是首个中国大豆T2T呢?

撞车的事情时有发生,竞争如此激烈。不过,纯基因组组装发中科院一区,还要什么自行车。

更多信息请关注微信公众号:生物信息与育种

标签:着丝粒,首个,基因组,区域,序列,T2T,ZH13
From: https://www.cnblogs.com/miyuanbiotech/p/17826049.html

相关文章

  • 全球发布|首个AI视角下的生态系统架构解读—《生态系统架构--人工智能时代从业者的新思
    点击可免费注册下载......
  • 首个流体力学大模型背后,是昇腾的大模型“造林”逻辑
    作者|曾响铃文|响铃说一个飞机模型在试验风洞里,空气从它的机翼与机身流过,形成一层又一层稳定的气流,当风速加快,空气的流线开始波浪式摆动,最终随着速度增大而相互混合、形成不再能分辨的湍流,看起来混沌又无序……这是流体力学测试的常见场景,一遍又一遍地测试,只为模拟或预测真实的......
  • 植物基因组学和作物改良中的深度学习
    目录深度学习:概念、工具和注意事项沿着分子生物学的中心法则进行深度学习DNA和基因特性蛋白质特性模型和数据共享理解基因组变异:从关联到因果关系和分子机制深度学习育种4.0:编辑育种结论植物基因组学取得了巨大进步,其特点是高通量技术的爆炸式增长,以低成本识别多维全基因组分子......
  • 植物图形泛基因组Graph-based pan-genome
    目录图形泛基因组的构建图泛构建方法获取和合并PAV变异图泛的存储格式线性参考基因组坐标的恢复图泛的可视化图泛的注释基因结构注释图泛的变异注释结构变异鉴定与基因分型图泛比对软件的优势图泛的应用功能元件的鉴定现有物种中的图泛规模基于图泛的GWAS未来应用结论与未来展望......
  • 宏基因组测序流程及其分析步骤
    测序样本信息:完成了70个根际土壤样本的宏基因组测序。数据预处理:使用KneadData工具进行质控和去宿主处理。利用Trimmomatic去除接头序列并进行质量过滤。使用Bowtie2构建宿主库和进行去宿主处理。从头组装:采用MEGAHIT工具对原始测序数据进行从头组装,生成contigs。......
  • 基因组选择GS应用的四个场景
    目录GS应用的四个场景情景1情景2情景3情景4本文整理自GiovannyECovarrubiasPazaran博士的报告《GenomicSelectioninR》,他是国际水稻研究所植物育种和遗传学博士,具有强大的统计学背景以及具有从事育种计划和实践研究的丰富经验,是R和SAS等不同软件平台进行多元线性混合建模......
  • Spring,IOC理论推导,首个Spring练习
    一、首先创建一个maven项目,导入spring-mvc依赖,这个依赖一般会把很多依赖一起导入了,导入这个一个很方便。 二、创建dao层写一个方法 并且对这个接口进行多个实现 这几个实现类的内容只是单纯的打印出这个接口被实现的字样问题来了,用户会有不同的需求,如果用户要变换需求我......
  • 《完蛋!我被美女包围了》突然火了!世界首个开源贡献榜出炉丨 RTE 开发者日报 Vol.75
     开发者朋友们大家好:这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE (RealTimeEngagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎......
  • 微软今天发布了.NET 8 的首个预览版,正式版预估今年 11 月发布
    IT之家2月22日消息,微软今天发布了.NET8的首个预览版,适用于Windows、macOS和Linux的版本已经开发下载。微软计划未来每月发布新的预览版和候选版本,正式版预估将于今年11月在.NETConf2023上发布。 IT之家附.NET8的首个预览版的主要更新内容:NativeAhead-of-Time(AO......
  • 基于深度学习框架的基因组预测新模型SoyDNGP
    目录简介材料方法数据集SoyDNGP的模型结构比对模型的处理主要结果SoyDNGP在大豆基因组预测中展现了出色的能力大豆基因组预测中SoyDNGP与其他算法的性能比较SoyDNGP模型在不同大豆群体中的多功能预测能力SoyDNGP在大豆之外的广泛应用SoyDNGP是一个面向大豆基因组预测的开放友好的......