首页 > 其他分享 >最全 蛋白质结构数据集(不定期更新)

最全 蛋白质结构数据集(不定期更新)

时间:2024-10-12 13:50:59浏览次数:9  
标签:信息学 最全 不定期 地址 蛋白质 数据 链接 结构

当地时间10月8日,瑞典皇家科学院宣布,将2024年诺贝尔化学奖授予三位科学家,一半奖金授予戴维·贝克,以表彰他在“计算蛋白质设计”方面的贡献,并将另一半奖金授予德米斯·哈萨比斯和约翰·江珀,以表彰他们在“蛋白质结构预测”方面的贡献。

化学家们长久以来一直梦想着完全理解和掌握生命的化学工具——蛋白质。现在,这个梦想已经触手可及。

德米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John M. Jumper)成功利用人工智能预测了几乎所有已知蛋白质的结构。

戴维·贝克(David Baker)学会了如何掌握生命的构建块并创造全新的蛋白质。

数据集:Atlas.Y Dataset|生物学数据集|蛋白质研究数据集

  • 创建时间:2024-09-26

  • 链接地址:Atlas.Y Dataset|生物学数据集|蛋白质研究数据集

  • 数据集介绍:Atlas.Y数据集包括两个主要部分:信号肽数据集和连接子数据集。信号肽数据集旨在促进蛋白质亚细胞定位和运输的研究,而连接子数据集则用于研究信号肽与目标蛋白质之间的连接子,帮助设计和优化融合蛋白质。

数据集:Dynamic PDB|蛋白质结构数据集|分子动力学数据集

  • 创建时间:2024-09-01

  • 链接地址:Dynamic PDB|蛋白质结构数据集|分子动力学数据集

  • 数据集介绍:Dynamic PDB是一个大规模的数据集,通过整合动态数据和额外的物理属性,增强了现有的著名静态3D蛋白质结构数据库,如蛋白质数据银行(PDB)。它包含大约12.6k个经过筛选的蛋白质,每个蛋白质都经过全原子分子动力学(MD)模拟以捕捉构象变化。与现有的蛋白质MD数据集相比,Dynamic PDB提供了三个关键的进步:扩展的模拟持续时间、更细粒度的采样间隔和丰富的物理属性数组(在MD过程中捕获,包括原子速度和力、势能/动能、模拟环境的温度等)。

数据集:protein_secondary_structure_from_PDB|蛋白质结构数据集|机器学习

  • 创建时间:2024-07-27

  • 链接地址:protein_secondary_structure_from_PDB|蛋白质结构数据集|机器学习数据集

  • 数据集介绍:该数据集包含125,955个蛋白质序列,每个序列包含蛋白质的PDB ID、长度、序列(初级结构)以及通过实验识别的二级结构。数据集还包括八类二级结构的总体含量,以及每个序列的初级和次级二级结构类型。数据集用于训练模型,以基于序列预测蛋白质的二级结构含量。此外,数据集还展示了蛋白质设计示例,展示了点突变对α-螺旋和β-折叠含量的系统性影响。

数据集:Dataset-Structural_Similarity-ProteinShake|蛋白质结构数据集|深度学习

  • 更新时间:2024-07-10

  • 链接地址:SaProtHub/Dataset-Structural_Similarity-ProteinShake|蛋白质结构数据集|深度学习数据集

  • 数据集介绍:结构相似性预测数据集用于预测未对齐的一对蛋白质的结构相似性,通过预测对齐后的局部距离差异测试(LDDT)值。数据集包含1000个随机抽样的单链蛋白质对,这些蛋白质对通过TM-align进行对齐,并计算目标值。数据集根据70%的结构相似性进行分割,包括300699个训练样本、4559个验证样本和4850个测试样本。数据格式采用LMDB,详细记录了每对蛋白质的PDB ID、链ID、结构感知序列和相似性值。

数据集:SaProtHub/Dataset-Thermostability-FLIP|蛋白质热稳定性数据集|结构分析

  • 更新时间:2024-07-10

  • 链接地址:SaProtHub/Dataset-Thermostability-FLIP|蛋白质热稳定性数据集|结构分析数据集

  • 数据集介绍:热稳定性预测是一个回归任务,其中每个输入蛋白质x映射到一个标签y∈R,对应于x的热稳定性。数据集来自FLIP: Benchmark tasks in fitness landscape inference for proteins,使用了所有来自“Human-cell”分割的蛋白质(移除了缺乏AF2结构的蛋白质),并根据70%的结构相似性进行分割。数据集包含5310个训练样本,706个验证样本和706个测试样本。所有数据以LMDB格式组织,数据库架构包括蛋白质的UniProt ID、结构感知序列、pLDDT值和适应度标签。

数据集:SaProtHub/Dataset-Fluorescence-TAPE|蛋白质分析数据集|机器学习数据集

  • 更新时间:2024-07-10

  • 链接地址:SaProtHub/Dataset-Fluorescence-TAPE|蛋白质分析数据集|机器学习数据集

  • 数据集介绍:荧光预测是一个回归任务,其中每个输入蛋白质*x*被映射到一个标签*y* ∈ *R*,对应于*x*的log-荧光强度。数据集采用LMDB格式组织,包含结构感知序列和适应度标签。数据集来源于Evaluating Protein Transfer Learning with TAPE,并遵循原始的数据分割,包括20963个训练样本,5235个验证样本和25517个测试样本。

数据集:ProteinGym 蛋白质突变数据集|生物信息学数据集|蛋白质工程数据集

数据集:MPDock|跨膜蛋白数据集|蛋白质结构数据集

数据集:rouskinlab/PDB|蛋白质结构数据集|生物化学数据集

  • 更新时间:2024-06-26

  • 链接地址:rouskinlab/PDB|蛋白质结构数据集|生物化学数据集

  • 数据集介绍:该数据集包含356个sequence和356个structure数据点,涉及化学和生物学领域。所有数据点均为有效,无重复或无效数据。数据集由Silvi Rouskin创建,源文件为data.json,遵循MIT许可证。

数据集:lhallee/Full_PDB_Contacts|生物信息学数据集|蛋白质结构分析数据集

  • 更新时间:2024-05-27

  • 链接地址:lhallee/Full_PDB_Contacts|生物信息学数据集|蛋白质结构分析数据集

  • 数据集介绍:该数据集包含所有截至2024年5月24日的PDB蛋白质信息,记录的接触信息采用COO格式,表示两个氨基酸之间的距离在8埃以内的接触。数据集在HuggingFace格式中包含90,000个非冗余选择,而全部200,000+个样本以pickle文件形式上传。

数据集:tsynbio/ProteinLMBench|蛋白质研究数据集|问答任务数据集

  • 更新时间:2024-05-23

  • 链接地址:tsynbio/ProteinLMBench|蛋白质研究数据集|问答任务数据集

  • 数据集介绍:ProteinLMBench是一个用于蛋白质相关任务的大型语言模型(LLMs)的基准数据集,包含多个配置文件,每个配置文件针对不同的蛋白质相关主题,如功能、诱导、疾病相关性、翻译后修饰、亚基结构和组织特异性等。数据集主要以英文编写,涉及生物学、医学和化学领域,数据量小于1千条。

数据集:CATH / Gene3D v4.3|生物信息学数据集|蛋白质结构数据集

数据集:Pfam|生物信息学数据集|蛋白质结构数据集

数据集:monsoon-nlp/greenbeing-proteins|蛋白质数据集|植物生物学数据集

  • 更新时间:2024-05-20

  • 链接地址:monsoon-nlp/greenbeing-proteins|蛋白质数据集|植物生物学数据集

  • 数据集介绍:GreenBeing Proteins数据集是一个专注于蛋白质和植物生物学的数据集,来源于UniProtKB知识库,包含从选定的食物作物和相关物种中提取的蛋白质信息。数据集分为四个部分:pretraining、finetuning、evaluation和research,分别用于不同的研究目的。pretraining部分包含未审查的蛋白质序列,主要来自TrEMBL数据库;finetuning部分包含审查过的蛋白质序列,主要来自Swiss-Prot数据库。数据集详细记录了蛋白质的氨基酸序列、物种信息以及相关的注释和评论。此外,数据集还提供了关于蛋白质序列的详细分类信息,如不同植物科属的蛋白质分布比例。

数据集:keanec27/Drug_Protein_Interactions|药物蛋白质相互作用数据集

数据集:tyang816/DeepLocBinary_AlphaFold2|蛋白质定位数据集|结构预测数据集

  • 更新时间:2024-05-10

  • 链接地址:tyang816/DeepLocBinary_AlphaFold2|蛋白质定位数据集|结构预测数据集

  • 数据集介绍:DeepLocBinary数据集包含AlphaFold2结构序列,用于蛋白质定位研究,涉及蛋白质在特定位置的建立和维护过程。数据集包含两种标签,用于单标签分类问题,具体列包括蛋白质氨基酸序列、foldseek 20 3di结构序列、DSSP 8二级结构序列以及蛋白质是否位于膜上的位置信息。

数据集:DeepFoldProtein/afdb_over80_MeriUni95|蛋白质结构数据集|机器学习

数据集:蛋白质结构数据集|抗体研究数据集

数据集:蛋白结晶及结构数据|蛋白质结构数据集|生物信息学数据集

数据集:Rostlab/ProstT5Dataset|蛋白质结构数据集|序列分析数据集

  • 更新时间:2023-12-04

  • 链接地址:Rostlab/ProstT5Dataset|蛋白质结构数据集|序列分析数据集

  • 数据集介绍: ProstT5Dataset是一个精心策划的蛋白质序列及其对应结构序列(3Di)的*标记化*集合,源自AlphaFold蛋白质结构数据库,包括多个聚类和质量过滤步骤。数据集包括两个主要字段:**input_id_x**(3Di标记)和**input_id_y**(氨基酸标记)。数据集通过比较蛋白质的基本属性与蛋白质数据银行中的蛋白质进行了分析,发现氨基酸分布相似,某些3Di标记和螺旋结构在AlphaFold2预测中过度代表,以及该数据集中蛋白质长度较短。数据集的收集和注释始于AlphaFold蛋白质结构数据库,经过两步聚类和一步质量过滤,最终训练集包含1700万蛋白质。数据集被分为训练、测试和验证集,测试和验证集各包含474个蛋白质,训练集包含约1700万个蛋白质。

数据集:蛋白质结构数据集|癌症研究数据集

  • 创建时间:2023-11-29

  • 链接地址:蛋白质结构数据集|癌症研究数据集

  • 数据集介绍:通过溶液核磁共振(NMR)光谱学,使用一种新颖的纳米粒子辅助自旋弛豫方法,结合弛豫分散和化学交换饱和转移实验,覆盖从皮秒到毫秒的整个时间尺度,报告了K-Ras·GTP及其两个致癌P环突变体G12D和G12C的定量主链结构动态。

数据集:mevol/protein_structure_NER_model_v1.2|生物学数据集|蛋白质结构

  • 更新时间:2023-11-01

  • 链接地址:mevol/protein_structure_NER_model_v1.2|生物学数据集|蛋白质结构数据集

  • 数据集介绍:该数据集用于训练蛋白质结构命名实体识别模型,包含19种不同的实体类型,如化学物质、基因、蛋白质等。数据以IOB、BioC XML、BioC JSON和CSV格式提供,包括训练、开发和测试三个部分,总计10409个注释和1961个句子。注释工作通过TeamTat工具完成,并转换为不同格式以供使用。

数据集:PDBEurope/protein_structure_NER_model_v1.4|蛋白质结构分析

  • 更新时间:2023-11-01

  • 链接地址:PDBEurope/protein_structure_NER_model_v1.4|生物学数据集|蛋白质结构分析数据集

  • 数据集介绍:该数据集用于训练蛋白质结构命名实体识别模型,包含19种不同的实体类型,如化学物质、基因、蛋白质等。数据以IOB、BioC JSON、BioC XML和CSV格式提供,注释工作通过TeamTat工具完成,并提供了详细的注释信息,包括实体类型、位置、注释者等。

数据集:蛋白质结构|蛋白质结构数据集|细胞运动数据集

  • 创建时间:2023-09-15

  • 链接地址:蛋白质结构|蛋白质结构数据集|细胞运动数据集

  • 数据集介绍:运动关键分子马达为主要研究对象,重点研究纤毛相关分子马达及其调控因子,并建立相关技术方法来综合研究细胞运动关键分子马达。本课题使用结构生物学方法,通过蛋白的表达纯化,数据收集和分析,最终获得细胞运动关键分子马达的蛋白质结构。通过本课题的研究,主要揭示纤毛相关驱动蛋白的运动行走机制,阐明纤毛组装及其中央微管形成的调控机理,并发现纤毛物质运输相关分子马达的关键调控因子,为进一步认识分子马达驱动的纤毛相关细胞运动提供一定的理论基础。

数据集:拥挤环境对蛋白质动态结构的调控|蛋白质结构数据集|细胞环境影响数据集

  • 创建时间:2023-09-15

  • 链接地址:拥挤环境对蛋白质动态结构的调控|蛋白质结构数据集|细胞环境影响数据集

  • 数据集介绍: 该数据面向研究原位、细胞环境对蛋白质机器动态结构的影响。该研究以磷酸转移酶I的N端结构域(EIN)与组氨酸载体蛋白(HPr)的复合体作为研究对象,研究了蛋白质复合体在聚合物Ficoll-70和蛋白质拥挤剂牛血清蛋白(BSA)条件下的结构和动态变化。该数据集包括蛋白质在不同条件下的核磁共振数据,在稀溶液下的小角X射线散射数据以及在拥挤环境下的小角中子散射数据。其中,核磁共振数据在中国科学院精密测量科学与技术创新研究院武汉磁共振中心和北京大学核磁共振中心的高场核磁共振谱仪上采集,主要记录了蛋白在不同环境(稀溶液和拥挤剂)条件下的弛豫数据。小角X射线散射数据在国家蛋白质中心-上海同步辐射光源BL19U2线站采集,主要记录了蛋白在稀溶液条件下的小角散射数据。小角中子散射数据在中国散裂中子源采集,主要记录了蛋白在两种拥挤剂条件下的小角散射数据,数据量约为100MB。

数据集:基于蛋白质空间结构的FGF分子改良和药效研究|蛋白质结构数据集|药物设计

  • 创建时间:2023-09-15

  • 链接地址:基于蛋白质空间结构的FGF分子改良和药效研究|蛋白质结构数据集|药物设计数据集

  • 数据集介绍:基于蛋白质空间结构的FGF分子改良和药效研究数据集是由温州医科大学所建立的一个国家重点研发项目“蛋白激酶关联性代谢调控蛋白质机器的分离、鉴定与结构解析”的重要成果的原始数据集,涵盖支持基于FGF19-FGFR-βklotho三元复合物结构并结合二聚化阈值模型设计非促肿瘤型FGF19改构体,应用于二型糖尿病的临床前研究;基于结构分析提出并验收旁分泌-内分泌嵌合策略可显著改善FGF21的结构缺陷的相关研究成果的统计图表原始数据,蛋白质表达、结构表征图像原始数据和动物药理学原始数据。数据于2017年-2020年在温州医科大学采集。采集方案按对应实验具体要求的规范实施,设备为浙江省生物技术药物重点实验室和温州医科大学校级科研实验中心的生物医学相关仪器。

数据集:Wisesofi/Storage.google|生物信息学数据集|蛋白质结构预测数据集

数据集:蛋白质表达模式决定了EPSC小鼠类囊胚的形成潜力|蛋白质组学

  • 创建时间:2023-05-06

  • 链接地址:蛋白质表达模式决定了EPSC小鼠类囊胚的形成潜力|胚胎发育数据集|蛋白质组学数据集

  • 数据集介绍:植入前胚胎发育是一个由母系遗传和新合成的蛋白质组织的精确调控过程。最近,一些研究报告称,胚泡样结构,称为胚泡,可以由小鼠胚胎干细胞或扩展多能干细胞产生。在本研究中,为了探索蛋白质及其PTMs在小鼠EPS母细胞中的动态表达特征,我们通过基于TMT的定量质谱(MS)策略揭示了EPS母细胞的蛋白质表达谱和代谢产物特征。此外,鉴定了蛋白质磷酸化位点,以显示与小鼠早期胚胎相比,卵裂球中的磷酸化蛋白质组学分析。最重要的是,我们的研究揭示了在植入前发育过程中,与小鼠胚胎相比,EPS卵裂球的蛋白质表达谱,并表明葡萄糖代谢是卵裂球形成的关键。

数据集:PS4 Dataset|蛋白质结构预测数据集|生物信息学数据集

  • 创建时间:2023-02-21

  • 链接地址:PS4 Dataset|蛋白质结构预测数据集|生物信息学数据集

  • 数据集介绍:PS4是用于蛋白质单序列二级结构预测的最大开源数据集。该数据集包含18,731种蛋白质,包括它们的PDB代码、DSSP文件中第一个残基的索引、残基序列以及9类二级结构序列(包括聚脯氨酸螺旋)。

数据集:Uni-Fold 蛋白折叠训练数据|生物信息学数据集|蛋白质结构预测数据集

数据集:AlphaFold DB蛋白质结构预测数据集-智人与大肠杆菌部分|蛋白质结构预测

数据集:蛋白质三级结构的理化性质数据集|生物信息学数据集|蛋白质结构数据集

数据集:cpdb, cpdb2|生物信息学数据集|蛋白质结构预测数据集

数据集:1976-2015年蛋白质结构分类数据库镜像|蛋白质结构分类数据集|生物信息学数据集

标签:信息学,最全,不定期,地址,蛋白质,数据,链接,结构
From: https://blog.csdn.net/u011559552/article/details/142875765

相关文章

  • 2024年诺贝尔化学奖揭晓:AI破解了几乎所有蛋白质密码
    当地时间周三(10月9日),瑞典皇家科学院宣布,将2024年诺贝尔化学奖授予大卫·贝克(DavidBaker)、戴米斯·哈萨比斯(DemisHassabis)和约翰·江珀(JohnM.Jumper),以表彰他们在蛋白质设计和蛋白质结构预测领域作出的贡献,这些技术有潜力改变药物开发的方式,并且能够提高我们对生物......
  • 2024最新最全:网络安全人士【必备的30个安全工具】
    1.WiresharkWireshark(前称Ethereal)是一个网络封包分析软件。网络封包分析软件的功能是截取网络封包,并尽可能显示出最为详细的网络封包资料。Wireshark使用WinPCAP作为接口,直接与网卡进行数据报文交换。2.MetasploitMetasploit是一个免费的、可下载的框架,通过它可以很容易......
  • 2024最新最全:Wireshark抓包详解(非常详细)零基础入门到精通,收藏这篇就够了
    在网络工程、安全分析和网络维护中,经常需要诊断和解决各种网络问题。Wireshark作为一款强大的网络抓包工具,因其支持多种操作系统、网络协议和网络接口,成为了网络工程师、安全专家和学习者的必备工具。本文将详细讲解如何通过Wireshark抓包并分析网络问题,帮助读者更好地理解......
  • JDK线程池详解(全网最全-原理解析、源码详解)
    频繁创建新线程的缺点?不受控风险系统资源有限,每个人针对不同业务都可以手动创建线程,并且创建标准不一样(比如线程没有名字)。当系统运行起来,所有线程都在疯狂抢占资源,毫无规则,不好管控。另外,过多的线程自然也会引起上下文切换的开销。频繁创建开销大newThread()在操作系统层......
  • JDK线程池详解(全网最全-原理解析、源码详解)
    频繁创建新线程的缺点?不受控风险系统资源有限,每个人针对不同业务都可以手动创建线程,并且创建标准不一样(比如线程没有名字)。当系统运行起来,所有线程都在疯狂抢占资源,毫无规则,不好管控。另外,过多的线程自然也会引起上下文切换的开销。频繁创建开销大newThread()在操作......
  • 【学习笔记】Git代码管理手册与协同开发(全网最全Git教程)
    目录一.简介与环境搭建        n.注册账户二.基本操作 1.创建和提交2.版本回退3.查看工作区状态4.撤销修改5.删除文件三.协同开发1.远程仓库配置公钥:新建仓库:关联远程仓库:推送到远程仓库: 从远程仓库拉取: 删除远程仓库:从远程库克隆工程:2.分支管理......
  • MHAD数据集:由京东健康、华中科技大学和浙江大学联合收集,最全面包含多角度、多活动和多
    2024-08-30,由京东健康、华中科技大学和浙江大学联合收集的第一个真实家庭环境中的多模态数据集MHAD,包含不同拍摄角度和各种家庭场景。它包含了迄今为止最全面的生理信号,是计算机视觉、机器学习和生物医学工程等多个学术研究领域的宝贵资源。一、研究背景:在家庭环境中实现非......
  • YOLOv10最全详细翻译【人工校对版】
    ......
  • 这可能是最全的输入法教程了
    输入法是我们离不开的软件,如果要评选用户最常使用的工具类应用,输入法一定名列前茅。由于输入法实在太常用了,我们往往会忽略它:我用自带的输入法就行,打几个字,用的着琢磨吗?实则不然,输入法软件有很多,也有很多进阶用法,这也是我写这系列教程的原因——让你打字速度更快,体验更好。‍......
  • 吐血整理(最全论文指令手册),还有 ChatGPT 3.5/4.0 新手使用手册~ 【亲测好用】
    今天给大家分享下论文润色、降重、写作的GPT指令提示词,按论文步骤整理让你的文章更加有逻辑且通顺,助力快速完成论文,相信对你有帮助~一、论文写作润色指令1、写作选题指令①确定研究对象我是一名【XXXXX】,请从以下素材内容中,结合【XXXXX】相关知识,提炼出可供参考的学术......