MIMIC IV 3.0在上月已经发布了,那么如何安装这个最新的MIMIC数据库呢?
1.MIMIC IV 3.0数据库变化情况
2024年7月19日,知名医疗数据库MIMIC-IV发布了最新的3.0版本,此次更新为数据库带来了诸多重要改进和新增数据。此次更新最显著的变化是新增了2020年至2022年期间的住院数据。新增数据的具体情况如下:
- 患者数:从v2.2的299,712增加至364,627。
- 住院次数:从v2.2的431,231增加至546,028。
- ICU停留次数:从v2.2的73,181增加至94,458。
此外,数据库中还包含了住院或急诊出院后最长1年的院外死亡率数据。这一改进将极大地提升研究人员对于患者长期预后的研究能力。(MIMIC-IV v3.0 重磅发布:新增2020-2022年住院数据及多项改进)
这里需要说明一点,经常有人说MIMIC 3、MIMIC 4等等名词,本身没有错,但是如果把MIMIC IV 3.0说成MIMIC 3是错误的表达,因为MIMIC 3实际指的是MIMIC iii。
2.MIMIC IV 3.0安装准备
首先需要到MIMIC的官方网站(https://physionet.org/content/mimiciv/3.0/)下载原始数据包,原始数据包是csv.gz压缩包,大概9.8GB。如果之前已经有MIMIC IV 2.2版本的权限,那么无需申请,可以直接下载。如果没有权限访问是无法下载的,需要进行申请。不过申请MIMIC数据库可不是件容易的事情,可以找专业人士(加微 idata01)帮忙协助,省时省力。
如果您的账号有权限那么可以直接通过浏览器下载,但由于国内网络条件情况以及9.8GB的数据包,下载过程很容易中断。这里需要说明的是任何有权限的人下载得到的数据库都是完全一样的,就是A医生下载的MIMIC IV 3.0和B医生下载的并没有区别,只要版本一样文件大小一样,那么就是一样的。
安装MIMIC IV 3.0数据库其实是不需要physionet网站访问权限,很多以为现申请后才能安装,其实不然。申请citiprogram和physionet权限,本质上是为了在发表论文时符合学术要求,因为MIMIC、eICU等数据库是受限访问和使用的,所以您发文章必须要证明您有资格使用这些数据进行研究,否则您的研究成功违法学术要求,会有很大的风险。所以才发论文之前必须要申请到citiprogram和physionet权限,需要特别说明的是仅仅有citiprogram权限是不符合要求的,因为citiprogram权限只是申请physionet权限的一个前置条件。目前国内很多人在这方面投机取巧,虽然文章也发表了,但是后患无穷。
3.MIMIC IV 3.0软件环境准备
MIMIC数据库的安装环境主要是Postgresql数据库软件和7z解压软件。官方建议把MIMIC IV数据库安装到Postgresql数据库,虽然国内目前也有人安装到SQL Server数据库,但是实在是非常非常小众,不建议这样做。否则到时拿到其他人代码来执行提取,都不能保证通用。毕竟全世界国内外大都是用Postgresql来安装的。对于广大医学生和医务工作者来说,安装MIMIC也是一件痛苦的事情,平时看书、做实验、上班、做手术已经够累了,对计算机技术方面还要深入学习的话就难上加累,因此建议可以找专人人士(加微 idata01)来安装,一般Windows电脑安装10多分钟安装好,自己折腾要几个小时甚至几天都搞不定。
4.MIMIC IV 3.0导入数据方法
目前MIMIC的code还没有更新,在安装MIMIC IV 3.0的时候会直接报错,也不知道官方何时能够更新。这些报错对于懂数据库的人来说很简单,但是对于没搞过这方面的人简直是噩梦,一头雾水,因此建议可以找专人人士(加微 idata01)来安装。
另外就是构建concept也是十分费事,官方其实没有说的很明确,导致有些人把concept生成到Public表,有些人生成到mimiciv_derived的表。其实concept是用来生成派生或者衍生数据的代码,它是从hosp和ICU模块通过官方提供的代码提取出来的数据,可以直接理解为官方给大家提前提取的数据,方便研究人员进行参考和开展研究。国外会把concept数据生成到实体化视图(物化视图)中,而不是表,而国内很多MIMIC培训班讲师大都说这样做不对,认为安装到表才对,我认为这里其实是很大的误区。从技术上讲太深可能很难理解,但是实体化视图(物化视图)其实是一直更优的做法,视图可以通过简单的代码就能够自动或手动更新数据,而表不行,假设对Hosp和ICU数据进行了清洗处理,那么对应的视图可以快速进行自动或者手动更新。
5.MIMIC IV 3.0提取数据
提取数据是大家安装MIMIC IV 3.0数据库的终极需求,这里我给大家一点建议。我看很多人还是使用pgadmin来提取数据,我知道造成情况的原因是视频教程里用了pgadmin来做演示数据提取,但是实际上这个pgadmin使用体验上比较槽糕,界面也不太友好。我建议大家使用Navicat来提取,Navicat是一款商业数据库可视化工具,目前个人版已经免费了,旗舰版也有很多方法可以使用。Navicat在界面友好,代码运行性能,操作功能等等方面都值得大家去用。当然无论是用pgadmin还是Navicat,SQL代码是通用的,不会因为使用的SQL工具不一样,代码就会不同。
关于提取代码的备份问题:如果用SQL提取数据,我建议大家写SQL的时候要注意备份好代码。有些人会把SQL保存在查询的对话里,虽然这是一种便利的操作,但是容易丢失无法恢复,千五别把自己辛苦研究的代码交给一个软件去给你保管。无论是SQL代码、R代码、python代码,我们建议都进行备份,例如备份到有道云笔记、OneNote或者邮箱等云产品中,这样的话即使电脑坏掉了或者被偷了,自己也能够找回来代码。
6.MIMIC IV 3.0安装总结
MIMIC IV 3.0数据库安装方法或者思路如上,其实和MIMIC IV 2.2没有区别。常规的安装方法,会安装且电脑也比较快的话一般需要2-4小时,慢的也有七八小时的情况。idata01(加微 idata01)全网首创了一种极速安装技术,安装好的数据和官网是完全一样的,但是安装时间只需要10-20分钟,极大的节省了科研人员的时间。
标签:代码,IV,MIMIC,3.0,安装,数据库 From: https://blog.csdn.net/idata01/article/details/141034352