首页 > 其他分享 >Pangene:李恒开发泛基因图谱构建工具——探索群体基因组时代研究新方向

Pangene:李恒开发泛基因图谱构建工具——探索群体基因组时代研究新方向

时间:2024-10-06 22:22:56浏览次数:1  
标签:基因图谱 基因 基因组 单倍 Pangene 构建 李恒 工具

导读:七月份,李恒开发的基因内容图谱构建软件——Pangene,以标题为:Exploring gene content with pangene graphs 的论文论文形式一并发表,发表期刊为Bioinformatics杂志。该软件迎合了群体基因组学时代数据井喷的现状,而一定程度上分析工具和软件算法匮乏做出了有益地探索和补充。Pangene主要功能是基于(单倍型)群体基因组学数据,分析并探索基因结构变异,并将所有待分析的基因结构变异整合到一张图中,更好地代表整个类群或群体的遗传变异和多样性信息。

近日,发表于_Nature_ 杂志上,一篇利用公开数据(包括94份人群单倍型基因组数据,来自人类泛参考基因组——HPRC),分析了淀粉酶基因拷贝数目与高淀粉饮食习惯转变之间的关联。研究结果发现:在农业社会起源后,当以往采集,渔猎,畜牧人群转向农业生产后,其饮食中,淀粉来源的食物比例也随之上升;然而这种改变也深刻地影响着人类基因组的变化,94份人群单倍型基因组数据揭示,农业人口基因组中,淀粉酶基因的平均拷贝数目要多于采集,渔猎,畜牧人群。(点击下图跳转阅读推文

图片

Availability and implementation

Source code at 
https://github.com/lh3/pangene; 

prebuilt pangene graphs can be downloaded from 
https://zenodo.org/records/8118576 

visualized at 
https://pangene.bioinweb.org

摘要

基因组的基因成分控制着生物的功能。基因成分在物种之间以及同一物种的个体之间存在差异。尽管已经开发了用于识别细菌基因组中基因成分变化的工具,但这些工具都无法适用于大型真核生物基因组集合(如人类泛基因组)。我们开发了Pangene,这是一种计算工具,用于识别一组基因组中的基因方向、基因顺序以及基因拷贝数的变化。Pangene将输入的蛋白质序列与基因组进行比对,解决蛋白质序列之间的冗余问题,并构建基因图,每个基因组在图中表现为一条路径。此外,Pangene还能够识别捕捉基因含量变化的子图,我们称之为bibubbles。应用于人类泛基因组时,Pangene识别出已知的基因水平变异,并揭示了之前未得到充分研究的复杂单倍型。Pangene同样适用于高质量的细菌泛基因组,在核心基因和附属基因数量的报告上与现有工具相当。

背景介绍

人类基因组包含大约20,000个编码蛋白质的基因。其中有少数基因在人群中经常发生拷贝数或基因顺序的变化。这些基因处于快速进化中,可能与免疫反应相关,影响大脑功能和药物代谢,或者与已知疾病相关。它们可能具有深远的生物学和生物医学意义。

得益于最近在测序技术和组装算法方面的进展,我们可以常规实现拷贝数或顺序变化基因的单倍型基因组组装。我们还开发了构建泛基因组序列图的算法,这些图代表了基因组之间的变异。然而,识别这些基因层面的变异并非易事。在人类泛基因组参考联盟(HPRC)使用的三种泛基因组图构建工具中,minigraph(Li等,2020)和minigraph-cactus(Hickey等,2023)无法跨越复杂的基因组区域进行比对,可能会错过长段重复中的基因;PGGB(泛基因组图构建器;Garrison等,2023)则会合并同源基因,导致难以研究单个同源基因。此外,这三种工具都未能直接揭示基因组变异如何影响基因。为了研究基因层面的变异,HPRC不得不手动注释每个单倍型基因组上的基因,这是一项耗时的过程。PGR-TK(泛基因组研究工具包;Chin等,2023)能够从基因组序列重构局部单倍型结构,但它并未直接建模基因,也并非设计用于全基因组数据。目前的人类泛基因组工具并不适用于研究基因层面的变异。

相比之下,细菌泛基因组的研究重点在于蛋白质编码基因,而非基因组序列。甚至在文献中,细菌“泛基因组”通常指的是蛋白质编码基因的集合。已有多种高质量的工具被开发用于构建细菌基因组的基因内容(Page等,2015;Ding等,2018;Gautreau等,2020;Tonkin-Hill等,2020;Zhou等,2020)。简而言之,这些工具从每个基因组的基因注释开始,聚类得到的蛋白质序列,然后对聚类结果进行后处理,以识别同源基因并解决由组装、注释或聚类不完善引起的问题。然而,这些细菌泛基因组工具并未考虑剪接、多个异构体、频繁的片段重复以及人类基因组的巨大规模。目前尚未证明它们能够处理人类泛基因组数据。

在此,我们开发了Pangene,一种用于探索泛基因组基因成分的新型计算工具。与细菌泛基因组流程不同,Pangene通过使用miniprot(Li,2023)将蛋白质序列比对到每个基因组上,有效地注释蛋白质编码基因。由于miniprot可以跨越移码终止密码子和移码突变进行比对,这一过程简化了基因注释,并对输入基因组中的插入/缺失错误具有鲁棒性。此外,Pangene构建了一个双向基因图,能够捕捉细菌泛基因组工具无法检测到的倒位。它还提供了一个算法,用于识别基因拷贝数或基因顺序的变化。Pangene针对人类基因组进行了优化,也适用于细菌基因组。


图片

图1 a, c代表了不同的基因单倍型结构,b和d是通过一张图代表所有基因单倍型结构

图片

图2 Pangene图的构建示例,b为图对应的GFA格式

图片

图3 对Pangene图的注释和调整

图片

图4 携带有倒位Pangene图的示例

图片

图5 使基于bubble查找的网络图复杂化的Pangene图的示例

图片

图6 人类 _LRRC37A*_基因示例

Pangene 浏览器页面

图片

图片

图片

Cite

Heng Li, Maximillian Marin, Maha R Farhat, Exploring gene content with pangene graphs, Bioinformatics, Volume 40, Issue 7, July 2024, btae456, https://doi.org/10.1093/bioinformatics/btae456

来源:进化随想

标签:基因图谱,基因,基因组,单倍,Pangene,构建,李恒,工具
From: https://www.cnblogs.com/miyuanbiotech/p/18449536

相关文章

  • 基因图谱(Genomic Mapping)分析与应用
    基因图谱(GenomicMapping)是基因组学研究中一项至关重要的技术,它为科学家提供了关于基因的位置和距离的详细信息。通过基因图谱的构建,研究人员可以揭示基因与性状之间的关系,探索疾病的遗传机制,并推动个性化医学的发展。本文将详细分析基因图谱的类型、构建方法、应用场景以及它......
  • Allen基因图谱:python Aabgen的安装
    1.abagen使用教程的官方链接:abagen:AtoolboxfortheAllenBrainAtlasgeneticsdata—abagen0.1.3-doc+0.g2aeab5b.dirtydocumentation2.在安装abagen之前先提前安装好一下的包window系统操作步骤:(1)安装好python(假如安装在E盘,E:\python\)(2)win+R打开任务管理器,输入......
  • 生信大神李恒综述:T2T时代的基因组组装
    目录影响组装的基因组特性长读长和长范围(long-range)测序技术近T2T基因组组装核心组装算法评估序列组装李恒的观点生信领域大神李恒今年发在预印本上的一篇综述:Genomeassemblyinthetelomere-to-telomereera,小编总结下要点。影响组装的基因组特性决定基因组组装难易程度的主......