当地时间10月8日,瑞典皇家科学院宣布,将2024年诺贝尔化学奖授予三位科学家,一半奖金授予戴维·贝克,以表彰他在“计算蛋白质设计”方面的贡献,并将另一半奖金授予德米斯·哈萨比斯和约翰·江珀,以表彰他们在“蛋白质结构预测”方面的贡献。
化学家们长久以来一直梦想着完全理解和掌握生命的化学工具——蛋白质。现在,这个梦想已经触手可及。
德米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John M. Jumper)成功利用人工智能预测了几乎所有已知蛋白质的结构。
戴维·贝克(David Baker)学会了如何掌握生命的构建块并创造全新的蛋白质。
数据集:Atlas.Y Dataset|生物学数据集|蛋白质研究数据集
-
创建时间:2024-09-26
-
数据集介绍:Atlas.Y数据集包括两个主要部分:信号肽数据集和连接子数据集。信号肽数据集旨在促进蛋白质亚细胞定位和运输的研究,而连接子数据集则用于研究信号肽与目标蛋白质之间的连接子,帮助设计和优化融合蛋白质。
数据集:Dynamic PDB|蛋白质结构数据集|分子动力学数据集
-
创建时间:2024-09-01
-
数据集介绍:Dynamic PDB是一个大规模的数据集,通过整合动态数据和额外的物理属性,增强了现有的著名静态3D蛋白质结构数据库,如蛋白质数据银行(PDB)。它包含大约12.6k个经过筛选的蛋白质,每个蛋白质都经过全原子分子动力学(MD)模拟以捕捉构象变化。与现有的蛋白质MD数据集相比,Dynamic PDB提供了三个关键的进步:扩展的模拟持续时间、更细粒度的采样间隔和丰富的物理属性数组(在MD过程中捕获,包括原子速度和力、势能/动能、模拟环境的温度等)。
数据集:protein_secondary_structure_from_PDB|蛋白质结构数据集|机器学习
-
创建时间:2024-07-27
-
数据集介绍:该数据集包含125,955个蛋白质序列,每个序列包含蛋白质的PDB ID、长度、序列(初级结构)以及通过实验识别的二级结构。数据集还包括八类二级结构的总体含量,以及每个序列的初级和次级二级结构类型。数据集用于训练模型,以基于序列预测蛋白质的二级结构含量。此外,数据集还展示了蛋白质设计示例,展示了点突变对α-螺旋和β-折叠含量的系统性影响。
数据集:Dataset-Structural_Similarity-ProteinShake|蛋白质结构数据集|深度学习
-
更新时间:2024-07-10
-
链接地址:SaProtHub/Dataset-Structural_Similarity-ProteinShake|蛋白质结构数据集|深度学习数据集
-
数据集介绍:结构相似性预测数据集用于预测未对齐的一对蛋白质的结构相似性,通过预测对齐后的局部距离差异测试(LDDT)值。数据集包含1000个随机抽样的单链蛋白质对,这些蛋白质对通过TM-align进行对齐,并计算目标值。数据集根据70%的结构相似性进行分割,包括300699个训练样本、4559个验证样本和4850个测试样本。数据格式采用LMDB,详细记录了每对蛋白质的PDB ID、链ID、结构感知序列和相似性值。
数据集:SaProtHub/Dataset-Thermostability-FLIP|蛋白质热稳定性数据集|结构分析
-
更新时间:2024-07-10
-
链接地址:SaProtHub/Dataset-Thermostability-FLIP|蛋白质热稳定性数据集|结构分析数据集
-
数据集介绍:热稳定性预测是一个回归任务,其中每个输入蛋白质x映射到一个标签y∈R,对应于x的热稳定性。数据集来自FLIP: Benchmark tasks in fitness landscape inference for proteins,使用了所有来自“Human-cell”分割的蛋白质(移除了缺乏AF2结构的蛋白质),并根据70%的结构相似性进行分割。数据集包含5310个训练样本,706个验证样本和706个测试样本。所有数据以LMDB格式组织,数据库架构包括蛋白质的UniProt ID、结构感知序列、pLDDT值和适应度标签。
数据集:SaProtHub/Dataset-Fluorescence-TAPE|蛋白质分析数据集|机器学习数据集
-
更新时间:2024-07-10
-
数据集介绍:荧光预测是一个回归任务,其中每个输入蛋白质*x*被映射到一个标签*y* ∈ *R*,对应于*x*的log-荧光强度。数据集采用LMDB格式组织,包含结构感知序列和适应度标签。数据集来源于Evaluating Protein Transfer Learning with TAPE,并遵循原始的数据分割,包括20963个训练样本,5235个验证样本和25517个测试样本。
数据集:ProteinGym 蛋白质突变数据集|生物信息学数据集|蛋白质工程数据集
-
创建时间:2024-07-09
-
数据集介绍:数据集共包含来自 87 个 DMS 测序实验的大约 150 万个错义变体。
数据集:MPDock|跨膜蛋白数据集|蛋白质结构数据集
-
创建时间:2024-07-05
-
数据集介绍:该数据集包含29个不同刚性的跨膜蛋白复合物及其未结合的蛋白质结构。
数据集:rouskinlab/PDB|蛋白质结构数据集|生物化学数据集
-
更新时间:2024-06-26
-
数据集介绍:该数据集包含356个sequence和356个structure数据点,涉及化学和生物学领域。所有数据点均为有效,无重复或无效数据。数据集由Silvi Rouskin创建,源文件为data.json,遵循MIT许可证。
数据集:lhallee/Full_PDB_Contacts|生物信息学数据集|蛋白质结构分析数据集
-
更新时间:2024-05-27
-
数据集介绍:该数据集包含所有截至2024年5月24日的PDB蛋白质信息,记录的接触信息采用COO格式,表示两个氨基酸之间的距离在8埃以内的接触。数据集在HuggingFace格式中包含90,000个非冗余选择,而全部200,000+个样本以pickle文件形式上传。
数据集:tsynbio/ProteinLMBench|蛋白质研究数据集|问答任务数据集
-
更新时间:2024-05-23
-
数据集介绍:ProteinLMBench是一个用于蛋白质相关任务的大型语言模型(LLMs)的基准数据集,包含多个配置文件,每个配置文件针对不同的蛋白质相关主题,如功能、诱导、疾病相关性、翻译后修饰、亚基结构和组织特异性等。数据集主要以英文编写,涉及生物学、医学和化学领域,数据量小于1千条。
数据集:CATH / Gene3D v4.3|生物信息学数据集|蛋白质结构数据集
-
创建时间:2024-05-23
-
数据集介绍:蛋白质结构分类和注释的数据库
数据集:Pfam|生物信息学数据集|蛋白质结构数据集
-
创建时间:2024-05-23
-
数据集介绍:基于蛋白质家族和结构域的分类数据库
数据集:monsoon-nlp/greenbeing-proteins|蛋白质数据集|植物生物学数据集
-
更新时间:2024-05-20
-
数据集介绍:GreenBeing Proteins数据集是一个专注于蛋白质和植物生物学的数据集,来源于UniProtKB知识库,包含从选定的食物作物和相关物种中提取的蛋白质信息。数据集分为四个部分:pretraining、finetuning、evaluation和research,分别用于不同的研究目的。pretraining部分包含未审查的蛋白质序列,主要来自TrEMBL数据库;finetuning部分包含审查过的蛋白质序列,主要来自Swiss-Prot数据库。数据集详细记录了蛋白质的氨基酸序列、物种信息以及相关的注释和评论。此外,数据集还提供了关于蛋白质序列的详细分类信息,如不同植物科属的蛋白质分布比例。
数据集:keanec27/Drug_Protein_Interactions|药物蛋白质相互作用数据集
-
更新时间:2024-05-18
-
数据集介绍:蛋白质-药物相互作用数据集,包含蛋白质和药物的配对信息,用于训练数据分析。
数据集:tyang816/DeepLocBinary_AlphaFold2|蛋白质定位数据集|结构预测数据集
-
更新时间:2024-05-10
-
数据集介绍:DeepLocBinary数据集包含AlphaFold2结构序列,用于蛋白质定位研究,涉及蛋白质在特定位置的建立和维护过程。数据集包含两种标签,用于单标签分类问题,具体列包括蛋白质氨基酸序列、foldseek 20 3di结构序列、DSSP 8二级结构序列以及蛋白质是否位于膜上的位置信息。
数据集:DeepFoldProtein/afdb_over80_MeriUni95|蛋白质结构数据集|机器学习
-
更新时间:2024-04-29
-
数据集介绍: 该数据集包含生物信息学相关的数据,具体包括蛋白质的UniProt访问号、蛋白质域标签、非域数、分类ID以及蛋白质序列。数据集分为训练集,大小为149637927字节,包含542611个样本。
数据集:蛋白质结构数据集|抗体研究数据集
-
创建时间:2024-03-06
-
数据集介绍:PDB:3AB0,炭疽芽孢杆菌主要芽孢表面蛋白BclA与ScFv抗体片段复合物的晶体结构(312K,39°C,100纳秒):随机种子#1。每50纳秒获得的PDB。
数据集:蛋白结晶及结构数据|蛋白质结构数据集|生物信息学数据集
-
更新时间:2023-12-11
-
数据集介绍:该数据集包含涉及蛋白结晶与结构信息的PDB和MTZ文件,包括8H0A,8H0B,8H0C,8H0D,8H09。
数据集:Rostlab/ProstT5Dataset|蛋白质结构数据集|序列分析数据集
-
更新时间:2023-12-04
-
数据集介绍: ProstT5Dataset是一个精心策划的蛋白质序列及其对应结构序列(3Di)的*标记化*集合,源自AlphaFold蛋白质结构数据库,包括多个聚类和质量过滤步骤。数据集包括两个主要字段:**input_id_x**(3Di标记)和**input_id_y**(氨基酸标记)。数据集通过比较蛋白质的基本属性与蛋白质数据银行中的蛋白质进行了分析,发现氨基酸分布相似,某些3Di标记和螺旋结构在AlphaFold2预测中过度代表,以及该数据集中蛋白质长度较短。数据集的收集和注释始于AlphaFold蛋白质结构数据库,经过两步聚类和一步质量过滤,最终训练集包含1700万蛋白质。数据集被分为训练、测试和验证集,测试和验证集各包含474个蛋白质,训练集包含约1700万个蛋白质。
数据集:蛋白质结构数据集|癌症研究数据集
-
创建时间:2023-11-29
-
链接地址:蛋白质结构数据集|癌症研究数据集
-
数据集介绍:通过溶液核磁共振(NMR)光谱学,使用一种新颖的纳米粒子辅助自旋弛豫方法,结合弛豫分散和化学交换饱和转移实验,覆盖从皮秒到毫秒的整个时间尺度,报告了K-Ras·GTP及其两个致癌P环突变体G12D和G12C的定量主链结构动态。
数据集:mevol/protein_structure_NER_model_v1.2|生物学数据集|蛋白质结构
-
更新时间:2023-11-01
-
数据集介绍:该数据集用于训练蛋白质结构命名实体识别模型,包含19种不同的实体类型,如化学物质、基因、蛋白质等。数据以IOB、BioC XML、BioC JSON和CSV格式提供,包括训练、开发和测试三个部分,总计10409个注释和1961个句子。注释工作通过TeamTat工具完成,并转换为不同格式以供使用。
数据集:PDBEurope/protein_structure_NER_model_v1.4|蛋白质结构分析
-
更新时间:2023-11-01
-
链接地址:PDBEurope/protein_structure_NER_model_v1.4|生物学数据集|蛋白质结构分析数据集
-
数据集介绍:该数据集用于训练蛋白质结构命名实体识别模型,包含19种不同的实体类型,如化学物质、基因、蛋白质等。数据以IOB、BioC JSON、BioC XML和CSV格式提供,注释工作通过TeamTat工具完成,并提供了详细的注释信息,包括实体类型、位置、注释者等。
数据集:蛋白质结构|蛋白质结构数据集|细胞运动数据集
-
创建时间:2023-09-15
-
数据集介绍:运动关键分子马达为主要研究对象,重点研究纤毛相关分子马达及其调控因子,并建立相关技术方法来综合研究细胞运动关键分子马达。本课题使用结构生物学方法,通过蛋白的表达纯化,数据收集和分析,最终获得细胞运动关键分子马达的蛋白质结构。通过本课题的研究,主要揭示纤毛相关驱动蛋白的运动行走机制,阐明纤毛组装及其中央微管形成的调控机理,并发现纤毛物质运输相关分子马达的关键调控因子,为进一步认识分子马达驱动的纤毛相关细胞运动提供一定的理论基础。
数据集:拥挤环境对蛋白质动态结构的调控|蛋白质结构数据集|细胞环境影响数据集
-
创建时间:2023-09-15
-
数据集介绍: 该数据面向研究原位、细胞环境对蛋白质机器动态结构的影响。该研究以磷酸转移酶I的N端结构域(EIN)与组氨酸载体蛋白(HPr)的复合体作为研究对象,研究了蛋白质复合体在聚合物Ficoll-70和蛋白质拥挤剂牛血清蛋白(BSA)条件下的结构和动态变化。该数据集包括蛋白质在不同条件下的核磁共振数据,在稀溶液下的小角X射线散射数据以及在拥挤环境下的小角中子散射数据。其中,核磁共振数据在中国科学院精密测量科学与技术创新研究院武汉磁共振中心和北京大学核磁共振中心的高场核磁共振谱仪上采集,主要记录了蛋白在不同环境(稀溶液和拥挤剂)条件下的弛豫数据。小角X射线散射数据在国家蛋白质中心-上海同步辐射光源BL19U2线站采集,主要记录了蛋白在稀溶液条件下的小角散射数据。小角中子散射数据在中国散裂中子源采集,主要记录了蛋白在两种拥挤剂条件下的小角散射数据,数据量约为100MB。
数据集:基于蛋白质空间结构的FGF分子改良和药效研究|蛋白质结构数据集|药物设计
-
创建时间:2023-09-15
-
数据集介绍:基于蛋白质空间结构的FGF分子改良和药效研究数据集是由温州医科大学所建立的一个国家重点研发项目“蛋白激酶关联性代谢调控蛋白质机器的分离、鉴定与结构解析”的重要成果的原始数据集,涵盖支持基于FGF19-FGFR-βklotho三元复合物结构并结合二聚化阈值模型设计非促肿瘤型FGF19改构体,应用于二型糖尿病的临床前研究;基于结构分析提出并验收旁分泌-内分泌嵌合策略可显著改善FGF21的结构缺陷的相关研究成果的统计图表原始数据,蛋白质表达、结构表征图像原始数据和动物药理学原始数据。数据于2017年-2020年在温州医科大学采集。采集方案按对应实验具体要求的规范实施,设备为浙江省生物技术药物重点实验室和温州医科大学校级科研实验中心的生物医学相关仪器。
数据集:Wisesofi/Storage.google|生物信息学数据集|蛋白质结构预测数据集
-
更新时间:2023-08-05
-
数据介绍:该数据集用于存储和分析DNA结构,特别是蛋白质结构,通过与AlphaFold模型结合,实现对输入DNA序列的蛋白质结构预测。
数据集:蛋白质表达模式决定了EPSC小鼠类囊胚的形成潜力|蛋白质组学
-
创建时间:2023-05-06
-
数据集介绍:植入前胚胎发育是一个由母系遗传和新合成的蛋白质组织的精确调控过程。最近,一些研究报告称,胚泡样结构,称为胚泡,可以由小鼠胚胎干细胞或扩展多能干细胞产生。在本研究中,为了探索蛋白质及其PTMs在小鼠EPS母细胞中的动态表达特征,我们通过基于TMT的定量质谱(MS)策略揭示了EPS母细胞的蛋白质表达谱和代谢产物特征。此外,鉴定了蛋白质磷酸化位点,以显示与小鼠早期胚胎相比,卵裂球中的磷酸化蛋白质组学分析。最重要的是,我们的研究揭示了在植入前发育过程中,与小鼠胚胎相比,EPS卵裂球的蛋白质表达谱,并表明葡萄糖代谢是卵裂球形成的关键。
数据集:PS4 Dataset|蛋白质结构预测数据集|生物信息学数据集
-
创建时间:2023-02-21
-
数据集介绍:PS4是用于蛋白质单序列二级结构预测的最大开源数据集。该数据集包含18,731种蛋白质,包括它们的PDB代码、DSSP文件中第一个残基的索引、残基序列以及9类二级结构序列(包括聚脯氨酸螺旋)。
数据集:Uni-Fold 蛋白折叠训练数据|生物信息学数据集|蛋白质结构预测数据集
-
创建时间:2022-10-24
-
数据集介绍:Uni-Fold-Data 开源的蛋白质折叠训练数据,适用于Uni-Fold-Multimer蛋白质复合物结构预测模型,以及Uni-Fold-Monomer蛋白质单体结构预测模型。
数据集:AlphaFold DB蛋白质结构预测数据集-智人与大肠杆菌部分|蛋白质结构预测
-
更新时间:2021-08-30
-
数据集介绍:数据集包含AlphaFold对智人与大肠杆菌生物进行的蛋白质结构预测数据
数据集:蛋白质三级结构的理化性质数据集|生物信息学数据集|蛋白质结构数据集
-
创建时间:2021-05-28
-
数据集介绍:蛋白质三级结构的理化性质数据集,包含9个属性,45730条数
数据集:cpdb, cpdb2|生物信息学数据集|蛋白质结构预测数据集
-
创建时间:2018-03-21
-
数据集介绍:cpdb: 与cullPDB数据集相关的操作,该数据集由Zhou & Troyanskaya在2014年创建。cpdb2: 基于cullPDB数据集的方法创建的新蛋白质序列-结构数据集。
数据集:1976-2015年蛋白质结构分类数据库镜像|蛋白质结构分类数据集|生物信息学数据集
-
创建时间:2018-03-14
-
数据集介绍:CATH 是一个著名的蛋白质结构分类数据库,其含义为类型(Class)、构架(Architecture)、拓扑结构(Topology)和同源性(Homology),它由英国伦敦大学UCL开发和维护。目前 ftp 服务器上提供CATH数据库最新版本的下载服务。