首页 > 其他分享 >基于多源生物信息发现新蛋白并对E18分析

基于多源生物信息发现新蛋白并对E18分析

时间:2023-06-11 11:12:54浏览次数:50  
标签:E18 al 表位 et 分支 多源 蛋白 蛋白质

摘要:挖掘必要的蛋白质对于发现细胞的组织和生存过程至关重要。目前,检测必需蛋白质的计算方法很多。然而,这些现有的方法只关注网络的拓扑信息,而忽略了蛋白质的生物信息,导致对必需蛋白质的识别准确率较低。因此,本文提出了一种新的关键蛋白质预测策略,称为DEP-MSB,它综合了多种生物信息,包括基因表达谱、GO注释和结构域相互作用强度。为了评估DEP-MSB的性能,我们在酵母PPI网络上进行了一系列的实验,实验结果表明,该算法比现有的其他传统方法更优越,在预测精度上有明显的提高。

 

1引言

蛋白质是生命活动的物质基础,是生物功能的主要执行者。同时,蛋白质在生物体的新陈代谢中起着重要的作用。它是各种细胞和组织不可缺少的一部分。蛋白质的种类很多。根据蛋白质功能的不同,蛋白质可分为非必需蛋白质和必需蛋白质。特别是,必需蛋白在生物组织的发育和健康生长中发挥着不可或缺的作用。因此,挖掘必要的蛋白质对于疾病预测和了解细胞生命是至关重要的。

近年来,随着高通量实验技术的快速发展,积累了大量的PPI数据,为从PPI网络中检测关键蛋白质、功能模块和蛋白质复合体提供了机会。传统的检测必需蛋白质的方法主要集中在实验方法上,如单基因敲除(Giaever等人,2002)、条件敲除(Giaever等人,2002)和RNA干扰(Cullen和Arndt,2005)。然而,这些实验方法既昂贵又不方便。为了弥补实验技术的不足,出现了许多计算方法作为实验方法的补充和替代手段。目前,已有的研究表明,蛋白质的重要性与PPI网络中节点的拓扑特征密切相关。根据Jeong等人(2001)的说法,相互关系密切的蛋白质很可能是PPI网络中不可或缺的蛋白质。此后,人们提出了许多中心性方法来检测必需蛋白质。例如,信息中心性(IC)(Stephenson和Zelen,1989)、度中心性(DC)(Jeong等,2001年)、紧密度中心性(CC)(Wuchty和Stadler,2003年)、介间性中心性(BC)(joy等,2005年)、子图中心性(SC)(Estrada和Rodriguez-veLázquez,2005年)、特征向量中心性(EC)(Vallabhajosyula等,2009年)、边缘聚类系数中心性(NC)(Wang等,2012年)和局部平均连通性(LAC)(Li等,2011年)等。

本文结合PPI网络的拓扑特征和多源生物信息,提出了一种新的关键蛋白质检测方法DEP-MSB。我们使用蛋白质的多源生物信息。基因表达数据被用来评估相互作用的蛋白质是否强烈共表达。GO注释描述了不同物种中同源基因及其遗传产物的功能。

研究发现,增加GO术语的语义相似度可以提高蛋白质复合体的预测精度。此外,结构域被认为是蛋白质中的功能和结构单位,在蛋白质相互作用中发挥着重要作用。

 

2方法

我们提出了一种新的基于基因表达、GO注释、结构域相互作用强度和网络拓扑结构的关键蛋白质检测方法DEP-MSB。DEP-MSB方法的基本思想是:(1)连接越多的蛋白质往往是必需蛋白质;(2)同一簇中的必需蛋白质往往有更多的共表达机会和更强的功能相似性;(3)蛋白质的本质与结构域的类型和结构域相互作用的强度有关。

同时,我们给出了一个方法结构图,如图1所示。

 

 

对必需蛋白质的检测有助于我们研究药物设计和细胞生命。目前,对于必需蛋白质的检测,已经提出了很多计算方法。然而,以往的研究大多是基于中心性的方法,只依赖于网络的结构和拓扑性质。本文提出了一种结合生物信息和拓扑特征的关键蛋白质检测方法DEP-MSB。该方法不同于以往的基于拓扑信息的方法,该方法考虑了包括基因表达谱、基因本体标注和结构域相互作用强度在内的生物信息。实验结果表明,DEP-MSB方法融合了拓扑特征和蛋白质复杂数据源LBCC、CoEWC,优于其他传统的中心性方法DC、EC、BC、NC和其他两种方法。同时,在倾角数据集上与最近提出的SON和OGN方法进行了比较。综上所述,本文提出的方法是一种更稳定、有效、准确的鉴定必需蛋白质的方法。

 

3探究

人肠道病毒属小RNA病毒科(Picornaviridae),肠道病毒属(Enterovirus),包括肠道病毒A种(EV-A)、B种(EV-B)、C种(EV-C)和D种(EV-D)。EV-A代表性血清型包括肠道病毒A组71型(EnterovirusA71,EV-A71)和柯萨奇病毒A组16型(CoxsackievirusA16,CV-A16)等;EV-B代表性血清型包括埃可病毒18型(Echovirus18,E18)等;EV-C代表性血清型包括脊髓灰质炎病毒1型(Polioviurs1,PV1)、PV2和PV3等;EV-D代表性血清型为EV-D68。E18可引起手足口病、病毒性脑膜炎和急性胃肠炎等疾病[1-4],通常感染后症状较为轻微,但严重时也会危及生命[5]。自1955年在美国首次分离病毒毒株后,E18感染鲜有报道,直到21世纪E18开始在全球流行,并且引起多起较大规模的疫情[6-9]。2014—2016年美国肠道病毒监测报告显示,E18在最常引起疫情的肠道病毒中排第4位[10]。Chen等[11]在2015—2016年从我国6个省份(山东、河北、山西、黑龙江、江苏和云南)的手足口病、病毒性脑炎和病毒性脑膜炎病例中分离出34株E18,测定其结构蛋白(ViralProtein,VP)VP1序列,并完成了其中6株的全基因组测序。2015—2020年,E18在我国广东[4,12]、河北[13]、山东[14]和云南[15]等省大量检出,提示我国存在E18暴发风险。与其他肠道病毒相似,E18有一个长度约为7。4kb的单股正链RNA基因组,其病毒衣壳由60个亚单位构成[16-18]。每个非对称亚单位由VP1~VP4构成,其中VP4位于衣壳内表面,VP1~VP3位于衣壳外表面,后者是病毒构象表位的所在区域。抗原表位的确定对掌握病毒的致病机制[19-20]、监测病毒的变异和进化[21]、研发抗病毒药物[22-23]和疫苗[24-25]都有重要作用。然而,目前尚无针对E18表位的研究报道。

3.1E18结构蛋白的序列和结构特征分析

从RCSBPDB数据库[26](https://www。rcsb。org)和NCBINucleotide数据库[27](https://www。ncbi。nlm。nih。gov/nuccore)中分别下载E18天然成熟颗粒的结构蛋白的三维结构文件(PDBID:6HBG[16];病毒毒株名:Metcalf,为简便以下用PDBID指代病毒毒株)和其氨基酸序列(AccessionID:AAL37163)。将PDB文件和氨基酸序列导入在线工具ESPript3。0[28](http://espript。ibcp。fr)中注释二级结构信息。使用PyMOL[29]绘制病毒衣壳的表面结构图。所有软件和在线工具都采用默认参数。

3.2E18构象表位的生物信息学预测

实验室前期在Borley算法[30]基础上发展了人肠道病毒构象表位的生物信息学预测算法,并成功地应用于肠道病毒A种(EV-A71、CV-A16[17])和D种(EV-D68)的表位预测。预测算法主要包括以下3步(详见文献[17-18]):

(1)在PDB文件中删除VP4并生成复合链(图1),将复合链整体看作一个蛋白质,代替单个结构蛋白进行表位预测。

(2)利用3个表位预测工具Epitopia(http://epitopia。tau。ac。il)、Ellipro(http://tools。iedb。org/ellipro)

以及DiscoTope[34](http://www。cbs。dtu。dk/services/DiscoTope)分别预测复合链的表位。三者的阈值均使用默认参数(0。174、0。3、-10。7)。采用投票法,将同时被3种工具预测为表位的氨基酸残基作为一致性表位。

(3)提取中心链Chain1(一个由VP1~VP3组成的亚单位)上的一致性表位,并筛选处于病毒衣壳相对暴露面的残基(其Cα到衣壳中心的距离超过所有Cα到衣壳中心的平均距离),获得最终的预测结果。

 

4结果

4.1E18的结构蛋白特征和构象表位预测结果

E18病毒颗粒6HBG的结构蛋白VP1、VP2和VP3的长度分别为287、260和239个氨基酸残基,由8条反向平行的β链(βB-βI)构成β桶(β-barrel),链之间的部分为环区(loop),两端为N-端(N-terminus)和C-端(C-terminus),如图1和图2所标注。E18的衣壳表面结构如图1所示,衣壳表面有峡谷(canyon)、峡谷两侧的“边缘”(rim)、“平台”(puff)和“突起”(knob)等结构特征以及五倍轴、三倍轴和二倍轴等三维结构标记。

E18构象表位预测结果见表1及图1和图2。E18共有27个氨基酸残基预测为表位,分布在VP1(BC环、DE环、HI环和C-端)、VP2(EF环和HI环)和VP3(N-端knob区域、BC环和C-端)。与EV-A[17]和EV-D[30]相似,E18的构象表位也聚集成三簇(表1和图1):site1、site2和site3,分别位于峡谷的“北侧边缘”区域、峡谷南侧的“平台”区域、峡谷南侧的“突起”区域和三倍轴区域。其中VP1BC环和C-端、VP2EF环是E18表位的主要构成区域。

4.2E18的分子进化分析

利用Nextstrain平台的augur病原体生物信息分析包,分别构建了基于E18基因组和VP1序列的时间尺度的分子进化树,分别简称为基因组进化树(图3(a))和VP1进化树(图3(b)),两者具有一致的拓扑结构,都分为A、B、C三个进化分支,C分支又分为C1和C2两个子分支,原株Metcalf不属于任何一个分支。以序列数较多的VP1进化树为例,大约1946年Metcalf从A、B、C三个分支的共同祖先A~C中分歧出来,并于1955年在美国首次分离。1970年分子进化树首先分歧出A分支;1979年又分歧出B和C分支;最后在1989年C分支分歧成C1和C2两个子分支。C分支尤其是C2分支是目前流行的病毒分支。A分支由2株来自中国的病毒毒株构成。B分支有1株来自埃塞俄比亚,其余都来自印度。C1分支主要来自法国、德国、俄罗斯、瑞典和澳大利亚。C2分支全球分布广泛,其中分离病毒毒株数最多的国家为中国(168株)、法国(14株)、澳大利亚(14株)、日本(13株)和美国(7株)。

每个进化分支都有若干个决定进化分支的分支突变。以包含VP1~VP3的基因组进化树为例(图3(a)),A分支的分支突变为VP1C-端的T271A和D275E,B分支的分支突变为VP1C-端的K271S、A285V和T286S。C1的分支突变包括VP1C-端的D275E以及R6K、VP2EF环的S159P、VP3的V2I和H182N。C2的分支突变包括VP1C-端的G257S、A262V、A285V以及I42L和I92V,VP2的T74S,VP3knob的V58I以及N11T。从图3(a)可以发现,分子进化树上多数(61.2%)的分支突变都位于表位处,即分支进化伴随着表位处的氨基酸突变,是VP1C-端是突变热点区域。此外,还有VP2的EF环。VP1进化树(图3(b))也表现为高度一致,绝大多数分支突变在两种进化树上分布一致,但由于序列数目差异较大(285比63),个别分支突变产生了差异,例如VP1进化树B~C分支上的突变D129E成为基因组进化树C分支上的突变。

 

 

 

 

5结论

对于流感病毒和冠状病毒,由于接种疫苗和广泛感染产生群体免疫,使得病毒处于正选择进化压力下,因此不仅表位突变频繁,而且受体结合区域也存在广泛突变,从而产生免疫逃避。而对于肠道病毒,由于新生儿不断补充易感群体使得多数肠道病毒并没有面临显著的进化压力,因此相对突变速率要慢一些(E18的VP1约为5.6×10-3替换·(位点·a)-1,与其他肠道病毒相似),在表位区域存在较弱的正选择压力,其他区域则偏向中性进化[50]。E18受体结合区域也更加保守,其足迹图提供了佐证。但随着E18的广泛流行,人群血清中普遍存在中和抗体,病毒面临越来越强的正选择压力,表位也会突变得更加频繁,需要密切监测其抗原性是否会发生较大改变,出现类似EVA71那样的大规模疫情。生物信息学在流感病毒的优势病毒毒株预测方面取得了巨大成功,为流感疫苗的研发和准备提供了重要的技术支撑.对肠道病毒表位生物信息学的研究,可为进一步通过实验鉴定构象表位、病毒的监测和预警以及抗病毒药物和疫苗的研发提供重要支持。

 

 

参考文献

[1] Graf J, Hartmann C J, Lehmann H C, et al. Meningitis gone viral: Description of the echovirus wave 2013 in Germany[J]. BMC Infectious Diseases, 2019, 19(1):1010.

[2] Tsai H P, Huang S W, Wu F L, et al. An echovirus 18- associated outbreak of aseptic meningitis in Taiwan: Epidemiology and diagnostic and genetic aspects[J]. Journal of Medical Microbiology, 2011, 60:1360-1365.

[3] Zhang H H, Zhao Y L, Liu H B, et al. Molecular characterization of two novel echovirus 18 recombinants associated with hand-foot-mouth disease[J]. Scientific Reports, 2017, 7:8448.

[4] 周健明, 谢显清, 方苓, 等. 引起一起暴发性急性胃肠 炎疫情的埃可病毒18型 VP1 基因特征分析[J]. 病毒学 报, 2021, 37(1):133-139.

[5] Krumbholz A, Egerer R, Braun H, et al. Analysis of an echovirus 18 outbreak in Thuringia, Germany: Insights into the molecular epidemiology and evolution of several enterovirus species B members[J]. Medical Microbiology and Immunology, 2016, 205(5):471-483.

[6] Kelly H, Brussen K A, Lawrence A, et al. Polioviruses and other enteroviruses isolated from faecal samples of patients with acute flaccid paralysis in Australia, 1996-2004[J]. Journal of Paediatrics and Child Health, 2006, 42(6):370-376.

[7] Othman I, Mirand A, Slama I, et al. Enterovirus migration patterns between France and Tunisia[J]. PLoS One, 2015, 10(12):e0145674.

[8] Kusuhara K, Saito M, Sasaki Y, et al. An echovirus type 18 outbreak in a neonatal intensive care unit[J]. European Journal of Pediatrics, 2008, 167(5):587-589.

[9] Bubba L, Broberg E K, Jasir A, et al. Circulation of non-polio enteroviruses in 24 EU and EEA countries between 2015 and 2017: A retrospective surveillance study[J]. The Lancet Infectious Diseases, 2020, 20(3): 350-361.

[10] Abedi G R, Watson J T, Nix W A, et al. Enterovirus and Parechovirus surveillance - United States, 2014-2016[J]. Morbidity and Mortality Weekly Report, 2018, 67(18): 515-518.

[11] Chen X P, Ji T J, Guo J Y, et al. Molecular epidemiology of echovirus 18 circulating in mainland China from 2015 to 2016[J]. Virologica Sinica, 2019, 34(1):50-58.

[12] 尚永朋, 赵宇曦, 邓名贵, 等. 宏基因组二代测序技术 辅助诊断新生儿埃可病毒 18 型聚集性感染[J]. 中国感 染控制杂志, 2022, 21(4):317-322.

[13] Chen X P, Li J J, Guo J Y, et al. An outbreak of echovirus 18 encephalitis/meningitis in children in Hebei Province, China, 2015[J]. Emerging Microbes & Infections, 2017, 6(6):e54.

[14] Wang J, Meng M, Xu H, et al. Analysis of echovirus genotypes in the cerebrospinal fluid of children associated with aseptic meningitis in Liaocheng, China, from 2018 to 2019[J]. BMC Infectious Diseases, 2021, 21(1):1-9.

[15] 张名, 许丹菡, 冯昌增, 等. 2019 年云南省埃可病毒 18 型分离株的全基因组分析[J]. 中国病原生物学杂志, 2021, 16(8):888-892.

[16] Buchta D, Füzik T, Hrebík D, et al. Enterovirus particles expel capsid pentamers to enable genome release[J]. Nature Communications, 2019, 10:1138.

[17] Wang L P, Zhu M, Fang Y L, et al. Bioinformatics-based prediction of conformational epitopes for enterovirus A71 and coxsackievirus A16[J]. Scientific Reports, 2021, 11:5701.

[18] 祝苗. 人肠道病毒 71 型和柯萨奇病毒 A16 型抗原表位 的生物信息学预测[D]. 宁波: 宁波大学, 2018.

[19] Wang K, Zhu L, Sun Y, et al. Structures of echovirus 30 in complex with its receptors inform a rational prediction for enterovirus receptor usage[J]. Nature Communications, 2020, 11:4421.

[20] Zhao X, Zhang G G, Liu S, et al. Human neonatal Fc receptor is the cellular uncoating receptor for enterovirus B[J]. Cell, 2019, 177(6):1553-1565.

[21] Huang S W, Tai C H, Fonville J M, et al. Mapping enterovirus A71 antigenic determinants from viral evolution[J]. Journal of Virology, 2015, 89(22):11500- 11506.

[22] Meng B, Lan K K, Xie J, et al. Inhibitory antibodies identify unique sites of therapeutic vulnerability in rhinovirus and other enteroviruses[J]. Proceedings of the National Academy of Sciences of the United States of America, 2020, 117(24):13499-13508.

[23] Xu L F, Zheng Q B, Zhu R, et al. Cryo-EM structures reveal the molecular basis of receptor-initiated coxsackievirus uncoating[J]. Cell Host & Microbe, 2021, 29(3):448-462.

[24] Xu L F, He D L, Li Z Q, et al. Protection against lethal enterovirus 71 challenge in mice by a recombinant vaccine candidate containing a broadly cross-neutralizing epitope within the VP2 EF loop[J]. Theranostics, 2014, 4(5):498-513.

[25] Anasir M I, Poh C L. Structural vaccinology for viral vaccine design[J]. Frontiers in Microbiology, 2019, 10: 738.

[26] Burley S K, Berman H M, Bhikadiya C, et al. RCSB Protein Data Bank: Biological macromolecular structures enabling research and education in fundamental biology, biomedicine, biotechnology and energy[J]. Nucleic Acids Research, 2019, 47(D1):D464-D474.

[27] Clark K, Karsch-Mizrachi I, Lipman D J, et al. GenBank[J]. Nucleic Acids Research, 2016, 44(D1): D67-D72.

[28] Robert X, Gouet P. Deciphering key features in protein structures with the new ENDscript server[J]. Nucleic Acids Research, 2014, 42:W320-W324.

[29] Rigsby R E, Parker A B. Using the PyMOL application to reinforce visual understanding of protein structure[J]. Biochemistry and Molecular Biology Education, 2016, 44(5):433-437.

[30] Borley D W, Mahapatra M, Paton D J, et al. Evaluation and use of in-silico structure-based epitope prediction with foot-and-mouth disease virus[J]. PLoS One, 2013, 8(5):e61122.

 

食硕2204班 赫晓菡 22020080099:文献查阅、整理

食硕2204班 金怡然 22020080103:论文编写、修改

食硕2204班 王士桢 22020080125:论文的整合、讨论后修改

翻译

搜索

复制

标签:E18,al,表位,et,分支,多源,蛋白,蛋白质
From: https://www.cnblogs.com/wszyy/p/17472641.html

相关文章

  • 蛋白质是如何生成的
    蛋白质的生成过程称为蛋白质合成或蛋白质生物合成,它发生在细胞内的核糖体中。蛋白质合成包括两个主要的步骤:转录和翻译。转录(Transcription):转录是指将DNA中的基因信息转录成RNA的过程。在细胞核中,DNA的两条链解开,其中一条链作为模板,由RNA聚合酶酶依据碱基配对原则合成与DNA模......
  • 蛋白质结构生物信息学
    蛋白质结构生物信息学参与人员:张航22020080140白艳梅22020080001徐旭22020080135张章晟22020080144摘要:蛋白质结构生物信息学有很多功能,可以进行蛋白质建模、蛋白质对接、蛋白质分子动力学和蛋白质相互作用。本博文简要介绍了蛋白质结构生物信息学的主要领域,讨论并指出了几种......
  • 硒蛋白的生物信息学
    硒蛋白的生物信息学李思思  孟琪 金伟萍摘要:生物信息学为硒的研究领域带来了重要的启示。过去二十年来,随着基因组资源的不断增长,计算工具的发展取得了进展,为研究硒蛋白提供了新的机会。本文综述了硒蛋白基因发现和其他硒生物学研究的生物信息学方法。最近的进展完整的硒蛋......
  • 蛋白质从头测序技术
    1引言测序技术能够为研究学者带来大量的测序数据,而测序技术的不断优化使得测序数据更加准确。从头测序是一项不依赖于任何已知或参考序列的测序技术,它利用生物信息学分析技术将序列片段进行拼接、组装以实现整个序列的鉴定,可用于未知基因组、转录组和蛋白质的全序列分析。......
  • Linux 系统升级node18
    解决/lib64/libc.so.6:versionGLIBC_2.28‘notfound解决方案:升级glibc到2.28版本wgethttps://mirror.bjtu.edu.cn/gnu/libc/glibc-2.28.tar.xztar-xfglibc-2.28.tar.xz-C/usr/local/cd/usr/local/glibc-2.28/mkdirbuildcdbuild/../configure--prefix=/usr/lo......
  • 深度学习进阶篇[7]:Transformer模型长输入序列、广义注意力、FAVOR+快速注意力、蛋白质
    深度学习进阶篇[7]:Transformer模型长输入序列、广义注意力、FAVOR+快速注意力、蛋白质序列建模实操。基于Transformer模型在众多领域已取得卓越成果,包括自然语言、图像甚至是音乐。然而,Transformer架构一直以来为人所诟病的是其注意力模块的低效,即长度二次依赖限制问题。随着输入......
  • 蛋白质测序学习
    蛋白质有四级结构,基本单位是氨基酸。氨基酸的分子结构通式为一个氨基-NH2、一个羧基-COOH、一个氢原子-H、一个侧链R基团连接在同一个碳原子上。根据R基团的不同,氨基酸分为20种。氨基酸之间羧基和氨基通过脱水缩合形成肽键-CO-NH-连接在一起,多个氨基酸最终形成一条肽链,肽链上氨......
  • 贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据
    原文链接:http://tecdat.cn/?p=22702最近我们被客户要求撰写关于贝叶斯分位数回归的研究报告,包括一些图形和统计输出。贝叶斯回归分位数在最近的文献中受到广泛关注,本文实现了贝叶斯系数估计和回归分位数(RQ)中的变量选择,带有lasso和自适应lasso惩罚的贝叶斯摘要还包括总结结果、......
  • MATLAB代码:多源动态最优潮流的分布鲁棒优化方法 关
    MATLAB代码:多源动态最优潮流的分布鲁棒优化方法关键词:鲁棒优化;最优潮流;数据驱动;多源电力系统;不确定性参考文档:《多源动态最优潮流的分布鲁棒优化方法》仿真平台:MATLABYALMIPGUROBI主要内容:针对大规模清洁能源接入电网引起的系统鲁棒性和经济性协调问题,提出含风–光–水–火多种......
  • 蛋白质深度学习
    本文主要面向两类目标读者:一类是想使用机器学习的生物学家,一类是想进入生物学领域的机器学习研究者。如果你不熟悉生物学或机器学习,仍然欢迎你阅读本文,但有时你可能会觉得有点读不太懂!如果你已经熟悉这两者,那么你可能根本不需要本文——你可以直接跳到我们的示例notebook以......