0. 在工作目录建立存储文件夹
options(stringsAsFactors = F) library(stringr) cancer_type="TCGA-CHOL" if(!dir.exists("clinical"))dir.create("clinical") if(!dir.exists("expdata"))dir.create("expdata") dir()
3. 设置癌症类型,需修改(保持格式不变)
4. 在工作目录下创建clinical文件夹,用来存放下载的临床数据文件
5. 在工作目录下创建expdata文件夹,用来存放下载的表达数据文件
6. 查看工作目录下的文件及文件夹
1. 下载表达数据文件
数据存放网站: https://portal.gdc.cancer.gov/
在Repository勾选需要的case和file类型。
选好后添加到Cart,进入Cart界面下载(调用IDM)
表达数据文件包括:
Metadata:metadata.cart.2022-09-26.json
(json文件,包括文件信息和样本barcode的关系。tsv文件名为“file_name”,该文件所属的文件夹为“file_id”,该tsv文件对应的样品id为“associated_entities”下的“entity_submitter_id”。)
Download-Cart:gdc_download_20220926_143651.032766.tar.gz
(tsv文件,表达数据文件。下载的文件是按样本存放的,每个样品一个文件夹,每个文件夹下都有一个tsv文件。)
将表达数据的压缩包文件解压到“expdata”文件夹中。
2. 下载临床数据文件
清空Cart,
选好后添加到Cart,进入Cart界面下载(需刷新页面,否则可能下载到上次下载的文件)(调用IDM)
表达数据文件包括:
Download-Cart:gdc_download_20220926_143651.032766.tar.gz
(xml文件,临床数据文件。)
将临床数据的压缩包文件解压到“clinical”文件夹中。
3. 如果表达数据或临床数据的数据包太大,从网页下载不下来,则使用gdc-client工具下载
gdc-client工具下载网站: https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
先从网站选择数据,并下载表达数据或临床数据的Manifest文件:
将表达数据的Manifest文件重命名为:gdc_manifest_expdata.2020-03-23.txt
将临床数据的Manifest文件重命名为:gdc_manifest_clinical.2020-03-23.txt
将gdc-client.exe和两个manifest文件放在工作目录下;
在terminal中分别运行下面两行命令进行文件下载(注意空格):
gdc-client.exe download -m gdc_manifest_clinical.2020-03-23.txt -d clinical gdc-client.exe download -m gdc_manifest_expdata.2020-03-23.txt -d expdata
gdc-client:下载工具文件
download:函数,实现下载功能
-m:download的参数,表示manifest,清单文件
gdc_manifest_cl.2020-03-23.txt:-m参数的值,需修改(与manifest文件名一致)
-d:download的参数,表示directory,下载路径
clinical:-d参数的值
查看下载文件的数量:
length(dir("./clinical/")) length(dir("./expdata/"))
下载的文件是按样本存放的,我们需要得到的是表格,需要将他们批量读入R语言并整理。
标签:文件夹,文件,1.1,TCGA,矩阵,manifest,gdc,下载,数据文件 From: https://www.cnblogs.com/xiaogaobugao/p/16725929.html