2 Luo's dataset
Luo's dataset数据集是在DTINet模型论文中提出并构建出来的,下载地址
从公共数据集中收集了代表不同药物相关信息的四种类型的节点和六种类型的边,并用于构建DTI预测任务的异构网络。
构建的异构网络中,共包括12015个节点和1895445条边。
具体该数据集内文件目录如下图所示。
节点
- 从DrugBank(Version 3.0)中提取了药物节点
- 从HPRD(Release 9)中提取了蛋白质节点
- 从Comparative Toxicogenomics数据库中提取疾病节点
- 从SIDER(Version 2)中提取了副作用节点
药物节点
从DrugBank中提取了708种不同的药物,所有药物在drug.txt
中,所有药物使用DrugBank编号方式。
所有编号与药名的对应在drug_dict_map.txt
或drug_dict_map.csv
中展示。
蛋白质节点
从HPRD(Release 9)中提取了1512种不同的药物,所有蛋白质在protein.txt
中展示,所有蛋白质使用UniPort编号方式。
所有编号与蛋白质的对应在protein_dict_map.txt
或drug_dict_map.csv
中展示。
疾病节点
从Comparative Toxicogenomics数据库中提取了5603种不同的药物,所有副作用在disease.txt
中展示。
副作用节点
从SIDER(Version 2)中提取了4191种不同的药物,所有副作用在se.txt
中展示。
边
- 从DrugBank(Version 3.0)导入已知的DTI以及药物间相互作用
- 从HPRD(Release 9)中导入蛋白质-蛋白质相互作用
- 从Comparative Toxicogenomics数据库中导入药物-疾病和蛋白质-疾病的关联
- 从SIDER(Version 2)纳入了药物副作用的相关性
- 通过药物的化学结构构建及蛋白质序列信息分别构建药物相似度和蛋白质相似度
药物间相互作用
药物间的相互作用以矩阵的形式进行展示,具体内容见mat_drug_drug.txt
内,0表示不存在相互作用,1表示存在相互作用。
3 Yamanishi_08
简介
Yamanishi_08数据集是在Prediction of drug-target interaction networks from the integration of chemical and genomic spaces
论文中提出并构建出来的,下载地址
Yamanishi_08含有四个子数据集,分别为:离子通道(IC)、G蛋白偶联受体(GPCR)、酶(E)和核受体(NR)。
数据集结构
药物标靶相互作用数据
二元关系列表形式
除了上述表示形式,还存在矩阵表示形式
相似矩阵
该数据集中提供了化合物结构相似矩阵和蛋白质序列相似矩阵。
4 Hetionet
简介
Hetionet整合了29个公共资源的生物医学数据,最终获得了11种类型的47,031个节点和24种类型的2250197个关系。
具体而言,这些节点包括1552种小分子化合物和20945种基因,以及疾病、解剖学、途径、生物学过程、分子功能、细胞组分、扰动、药理学类别、药物副作用和疾病症状。
节点
元节点 | 缩写 | 元边缘 | 个数 | 未连接的节点 |
---|---|---|---|---|
解剖学 | A | 4 | 402 | 2 |
生物过程 | BP | 1 | 11381 | 0 |
细胞组分 | CC | 1 | 1391 | 0 |
化合物 | C | 8 | 1552 | 14 |
疾病 | D | 8 | 137 | 1 |
基因 | G | 16 | 20945 | 1800 |
分子功能 | MF | 1 | 2884 | 0 |
途径 | PW | 1 | 1822 | 0 |
药理类 | PC | 1 | 345 | 0 |
副作用 | SE | 1 | 5734 | 33 |
症状 | S | 1 | 438 | 23 |
边
元关系 | 缩写 | 边 | 源节点 | 目标节点 | 无偏 |
---|---|---|---|---|---|
Anatomy - downregulates - Gene | AdG | 102240 | 36 | 15097 | 102240 |
Anatomy - expresses - Gene | AeG | 526407 | 241 | 18094 | 453477 |
Anatomy - upregulates - Gene | AuG | 97848 | 36 | 15929 | 97848 |
Compound - binds - Gene | CbG | 11571 | 1389 | 1689 | 0 |
Compound - causes - Side Effect | CcSE | 138944 | 1071 | 5701 | 0 |
Compound - downregulates - Gene | CdG | 21102 | 734 | 2880 | 21102 |
Compound - palliates - Disease | CpD | 390 | 221 | 50 | 0 |
Compound - resembles - Compound | CrC | 6486 | 1042 | 1054 | 6486 |
Compound - treats - Disease | CtD | 755 | 387 | 77 | 0 |
Compound - upregulates - Gene | CuG | 18756 | 703 | 3247 | 18756 |
Disease - associates - Gene | DaG | 12623 | 134 | 5392 | 1284 |
Disease - downregulates - Gene | DdG | 7623 | 44 | 5745 | 7623 |
Disease - localizes - Anatomy | DIA | 3602 | 133 | 398 | 0 |
Disease - presents - Symptom | DpS | 3357 | 133 | 415 | 0 |
Disease - resembles - Disease | DrD | 543 | 112 | 106 | 0 |
Disease - upregulates - Gene | DuG | 7731 | 44 | 5630 | 7731 |
Gene - covaries - Gene | GcG | 61690 | 9043 | 9532 | 61690 |
Gene - interacts - Gene | GiG | 147164 | 9526 | 14084 | 15517 |
Gene - participates - Biological Process | GpBP | 559504 | 14772 | 11381 | 0 |
Gene - participates - Cellular Component | GpCC | 73566 | 10580 | 1391 | 0 |
Gene - participates - Molecular Function | GpMF | 97222 | 13063 | 2884 | 0 |
Gene - participates - Pathway | GpPW | 84372 | 8979 | 1822 | 0 |
Gene > regulates > Gene | Gr>G | 265672 | 4634 | 7048 | 265672 |
Pharmacologic Class - includes - Compound | PCiC | 1029 | 345 | 724 | 0 |
每个文件中保存了两个节点之间是否存在关系,如果为True则存在关系,如果为False则不存在关系。
在应用此数据集的论文中,将数据改造为了head relation tail
三元组形式
5 BioKG
简介
BioKG是一个生物知识图谱,整合了来自14个数据库的生物医学数据,专为关系学习而设计。
BioKG的内容可以分为三类:链接、属性和元数据。
节点
包含了药物、通路、蛋白质、疾病四种源节点,并且有药物、疾病、通路、蛋白质、细胞系的属性信息。
其中源节点信息格式如下图所示
属性信息格式如下图所示
边
边定义格式如下
标签:药物,汇总,Disease,Compound,格式,Gene,数据,节点,蛋白质 From: https://www.cnblogs.com/Gazikel/p/18047907