首页 > 其他分享 >数据集格式汇总

数据集格式汇总

时间:2024-03-01 20:56:55浏览次数:27  
标签:药物 汇总 Disease Compound 格式 Gene 数据 节点 蛋白质

2 Luo's dataset

Luo's dataset数据集是在DTINet模型论文中提出并构建出来的,下载地址

从公共数据集中收集了代表不同药物相关信息的四种类型的节点六种类型的边,并用于构建DTI预测任务的异构网络。

构建的异构网络中,共包括12015个节点和1895445条边。

具体该数据集内文件目录如下图所示。

节点

  • DrugBank(Version 3.0)中提取了药物节点
  • HPRD(Release 9)中提取了蛋白质节点
  • Comparative Toxicogenomics数据库中提取疾病节点
  • SIDER(Version 2)中提取了副作用节点

药物节点

从DrugBank中提取了708种不同的药物,所有药物在drug.txt中,所有药物使用DrugBank编号方式。

所有编号与药名的对应在drug_dict_map.txtdrug_dict_map.csv中展示。

蛋白质节点

HPRD(Release 9)中提取了1512种不同的药物,所有蛋白质在protein.txt中展示,所有蛋白质使用UniPort编号方式。

所有编号与蛋白质的对应在protein_dict_map.txtdrug_dict_map.csv中展示。

疾病节点

Comparative Toxicogenomics数据库中提取了5603种不同的药物,所有副作用在disease.txt中展示。

副作用节点

SIDER(Version 2)中提取了4191种不同的药物,所有副作用在se.txt中展示。

  • DrugBank(Version 3.0)导入已知的DTI以及药物间相互作用
  • HPRD(Release 9)中导入蛋白质-蛋白质相互作用
  • Comparative Toxicogenomics数据库中导入药物-疾病蛋白质-疾病的关联
  • SIDER(Version 2)纳入了药物副作用的相关性
  • 通过药物的化学结构构建及蛋白质序列信息分别构建药物相似度蛋白质相似度

药物间相互作用

药物间的相互作用以矩阵的形式进行展示,具体内容见mat_drug_drug.txt内,0表示不存在相互作用,1表示存在相互作用。

3 Yamanishi_08

简介

Yamanishi_08数据集是在Prediction of drug-target interaction networks from the integration of chemical and genomic spaces论文中提出并构建出来的,下载地址

Yamanishi_08含有四个子数据集,分别为:离子通道(IC)、G蛋白偶联受体(GPCR)、酶(E)和核受体(NR)。

数据集结构

药物标靶相互作用数据

二元关系列表形式

除了上述表示形式,还存在矩阵表示形式

相似矩阵

该数据集中提供了化合物结构相似矩阵和蛋白质序列相似矩阵。

4 Hetionet

简介

Hetionet整合了29个公共资源的生物医学数据,最终获得了11种类型的47,031个节点和24种类型的2250197个关系。

具体而言,这些节点包括1552种小分子化合物和20945种基因,以及疾病、解剖学、途径、生物学过程、分子功能、细胞组分、扰动、药理学类别、药物副作用和疾病症状。

下载地址

节点

元节点 缩写 元边缘 个数 未连接的节点
解剖学 A 4 402 2
生物过程 BP 1 11381 0
细胞组分 CC 1 1391 0
化合物 C 8 1552 14
疾病 D 8 137 1
基因 G 16 20945 1800
分子功能 MF 1 2884 0
途径 PW 1 1822 0
药理类 PC 1 345 0
副作用 SE 1 5734 33
症状 S 1 438 23

元关系 缩写 源节点 目标节点 无偏
Anatomy - downregulates - Gene AdG 102240 36 15097 102240
Anatomy - expresses - Gene AeG 526407 241 18094 453477
Anatomy - upregulates - Gene AuG 97848 36 15929 97848
Compound - binds - Gene CbG 11571 1389 1689 0
Compound - causes - Side Effect CcSE 138944 1071 5701 0
Compound - downregulates - Gene CdG 21102 734 2880 21102
Compound - palliates - Disease CpD 390 221 50 0
Compound - resembles - Compound CrC 6486 1042 1054 6486
Compound - treats - Disease CtD 755 387 77 0
Compound - upregulates - Gene CuG 18756 703 3247 18756
Disease - associates - Gene DaG 12623 134 5392 1284
Disease - downregulates - Gene DdG 7623 44 5745 7623
Disease - localizes - Anatomy DIA 3602 133 398 0
Disease - presents - Symptom DpS 3357 133 415 0
Disease - resembles - Disease DrD 543 112 106 0
Disease - upregulates - Gene DuG 7731 44 5630 7731
Gene - covaries - Gene GcG 61690 9043 9532 61690
Gene - interacts - Gene GiG 147164 9526 14084 15517
Gene - participates - Biological Process GpBP 559504 14772 11381 0
Gene - participates - Cellular Component GpCC 73566 10580 1391 0
Gene - participates - Molecular Function GpMF 97222 13063 2884 0
Gene - participates - Pathway GpPW 84372 8979 1822 0
Gene > regulates > Gene Gr>G 265672 4634 7048 265672
Pharmacologic Class - includes - Compound PCiC 1029 345 724 0

每个文件中保存了两个节点之间是否存在关系,如果为True则存在关系,如果为False则不存在关系。

在应用此数据集的论文中,将数据改造为了head relation tail三元组形式

5 BioKG

简介

BioKG是一个生物知识图谱,整合了来自14个数据库的生物医学数据,专为关系学习而设计。

BioKG的内容可以分为三类:链接、属性和元数据。

下载地址

节点

包含了药物、通路、蛋白质、疾病四种源节点,并且有药物、疾病、通路、蛋白质、细胞系的属性信息。

其中源节点信息格式如下图所示

属性信息格式如下图所示

边定义格式如下

标签:药物,汇总,Disease,Compound,格式,Gene,数据,节点,蛋白质
From: https://www.cnblogs.com/Gazikel/p/18047907

相关文章

  • Spectrum PXIe高速数据采集卡M4x.22xx-x4
    产品简介:♦PXIe×4Gen2接口♦独立ADC的双通道或者四通道♦4通道,1.25GS/s;1通道,5GS/s♦8bit数字化仪更多信息请加weixin-pt890111获取技术指标: 超高速PXIex4Gen2接口1通道,5GSS/s采样率;2通道,2.5GSS/s采样率;4通道,1.25GSS/s采样率;每通道独立ADC和放大器4个输......
  • Spectrum 模拟数据采集卡--M2p.59xx-x4 多达8通道同步采集,5M~125MSPS 采样率,16bit
    M2p.59xx-x4-高达125MS/s的16位数字转换器 该卡512MSample板载内存,并支持standard采集、FIFO采集、门采样,ABA等多种采集模式和时间戳。支持Windows/Linux32位和64位的操作系统驱动程序,支持C/C++,LabVIEW(Windows),MATLAB(Windows和Linux),LabWindows/CVI,IVI,.NET,Delphi,VisualBasic,Ja......
  • Spectrum PCIe高速数据采集卡M4i.44xx -1~4通道 130M~500M 16bit采集PCIe
    产品简介:♦PCIe×8Gen2接口♦独立ADC的双通道或者四通道♦4通道,130MS/S~500MS/s♦14/16bit数字化仪更多信息请加weixin-pt890111获取技术指标: 4通道500MS/s采样率(分别有130MS/s和250MS/s)超高速PCIe×8Gen2接口所有通道同步采样每通道独立ADC和放大器6......
  • 前端 xlsx js javascript 处理excel 数据展示 日期格式处理
     1、参考https://blog.csdn.net/Seven71111/article/details/107375712https://blog.csdn.net/weixin_44987713/article/details/130129282 https://blog.csdn.net/qq_57952018/article/details/134812452 2、存在的问题a、千年虫b、定义一个转换日期格式的方法(转成......
  • 双向数据绑定是什么
    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助一、什么是双向绑定我们先从单向绑定切入单向绑定非常简单,就是把Model绑定到View,当我们用JavaScript代码更新Model时,View就会自动更新双向绑定就很容易联想到了,在单向绑定的基础上,用户更新了View,Model的数据也自动......
  • 数据类型
    当然,我会帮你整理这些Python代码并转化为Markdown格式的笔记。以下是你的Markdown笔记:Python数据类型1.列表(List)列表是Python中最基本的数据结构之一,它是有序的元素集合,每个元素都可以通过索引进行访问和修改。#定义列表listvar=[98,6.9,True,12-90j,"赵万里"]#......
  • C#连接SQL Server数据库(完整代码在最后)
    c#连接SQLServer数据库(完整代码在最后)安装System.Data.SqlClient包usingSystem.Data.SqlClient;建立连接stringconnectionString="server=localhost;database=test;uid=sa;pwd=961121";SqlConnectionconnection=newSqlConnection(connectionString);conne......
  • 华企盾DSC数据防泄密系统如何防止文件被非法复制?
    华企盾DSC数据防泄密系统通过一系列精细的控制策略防止文件被非法复制:文件加密:将敏感文件加密,只有授权的用户才能解密进行访问,非授权用户即便复制了文件,也无法打开查看文件内容。U盘管制:通过设定U盘使用规则,例如禁止U盘读写或限制U盘读写速度,防止敏感数据被直接复制到U盘。......
  • JAVA格式化文件大小字节数据
      /***格式化字节数据**@paramsize大小,单位字节*/publicstaticStringformatSize(Longsize){if(size==null||size<=0){return"";}String[]units={"B","KB&quo......
  • python列表、集合、字典转换要点以及查找速度区别,如何在大规模数据中实现快速查找
    1.list与set的区别与优缺点:循环速度:list最适合做固定长度的遍历,而且有顺序。set是无序的,list转换为set会乱序,若用set给list去重,转化为list时须用原list的index排序:new_list.sort(key=old_list.index)。所以这种循环尽量用list查询速度:set>list,set查询的key都是ha......