首页 > 其他分享 >TCGA代码分析流程 - 1.1. 下载表达矩阵和临床信息数据

TCGA代码分析流程 - 1.1. 下载表达矩阵和临床信息数据

时间:2022-09-27 23:12:12浏览次数:83  
标签:文件夹 文件 1.1 TCGA 矩阵 manifest gdc 下载 数据文件

0. 在工作目录建立存储文件夹

options(stringsAsFactors = F)
library(stringr)
cancer_type="TCGA-CHOL"
if(!dir.exists("clinical"))dir.create("clinical")
if(!dir.exists("expdata"))dir.create("expdata")
dir()

3. 设置癌症类型,需修改(保持格式不变)

4. 在工作目录下创建clinical文件夹,用来存放下载的临床数据文件

5. 在工作目录下创建expdata文件夹,用来存放下载的表达数据文件

6. 查看工作目录下的文件及文件夹


1. 下载表达数据文件

数据存放网站: https://portal.gdc.cancer.gov/  

在Repository勾选需要的case和file类型。

 

选好后添加到Cart,进入Cart界面下载(调用IDM)

表达数据文件包括:

 Metadata:metadata.cart.2022-09-26.json

(json文件,包括文件信息和样本barcode的关系。tsv文件名为“file_name”,该文件所属的文件夹为“file_id”,该tsv文件对应的样品id为“associated_entities”下的“entity_submitter_id”。)

Download-Cart:gdc_download_20220926_143651.032766.tar.gz

(tsv文件,表达数据文件。下载的文件是按样本存放的,每个样品一个文件夹,每个文件夹下都有一个tsv文件。)

将表达数据的压缩包文件解压到“expdata”文件夹中。


2. 下载临床数据文件

清空Cart,

 

选好后添加到Cart,进入Cart界面下载(需刷新页面,否则可能下载到上次下载的文件)(调用IDM)

表达数据文件包括:

Download-Cart:gdc_download_20220926_143651.032766.tar.gz

(xml文件,临床数据文件。)

将临床数据的压缩包文件解压到“clinical”文件夹中。


3. 如果表达数据或临床数据的数据包太大,从网页下载不下来,则使用gdc-client工具下载

gdc-client工具下载网站: https://gdc.cancer.gov/access-data/gdc-data-transfer-tool 

先从网站选择数据,并下载表达数据或临床数据的Manifest文件:

 

将表达数据的Manifest文件重命名为:gdc_manifest_expdata.2020-03-23.txt

将临床数据的Manifest文件重命名为:gdc_manifest_clinical.2020-03-23.txt

 将gdc-client.exe和两个manifest文件放在工作目录下;

terminal中分别运行下面两行命令进行文件下载(注意空格):

gdc-client.exe download -m gdc_manifest_clinical.2020-03-23.txt -d clinical
gdc-client.exe download -m gdc_manifest_expdata.2020-03-23.txt -d expdata

gdc-client:下载工具文件

download:函数,实现下载功能

-m:download的参数,表示manifest,清单文件

gdc_manifest_cl.2020-03-23.txt:-m参数的值,需修改(与manifest文件名一致)

-d:download的参数,表示directory,下载路径

clinical:-d参数的值

查看下载文件的数量:

length(dir("./clinical/"))
length(dir("./expdata/"))

下载的文件是按样本存放的,我们需要得到的是表格,需要将他们批量读入R语言并整理。

 

标签:文件夹,文件,1.1,TCGA,矩阵,manifest,gdc,下载,数据文件
From: https://www.cnblogs.com/xiaogaobugao/p/16725929.html

相关文章