首页 > 其他分享 >03.转录组数据下载

03.转录组数据下载

时间:2023-11-06 13:55:31浏览次数:34  
标签:转录 03 文件 client gdc manifest id 下载

表达矩阵文件一般比较大,小的几百M,大的1-2个G,浏览器直接下载很慢,后台一直打包下载不下来。

1.用命令行下载。 gdc-client工具下载网站: https://gdc.cancer.gov/access-data/gdc-data-transfer-tool 。此外,用 gdc-client.exe 下载的话还需要额外安装 Strawberry Perl。

2.用R语言代码下载。


1. 用命令行下载

在工作目录下创建expdata文件夹,用来存放下载的表达数据文件

进入GDC官网: https://portal.gdc.cancer.gov/  :

选择数据前记得清空购物车:

在Repository勾选需要的case和file类型。

mRNA转录组数据的file类型如下:

 

选好后添加到Cart,进入Cart界面下载。

表达数据文件包括:Manifest、Metadata。(这两个文件很小,不需要调用IDM等下载器)

Manifest:txt文件,清单文件。用 gdc-client.exe 下载文件要用到。

Manifest文件长这样:

其中,“id”为各文件夹名称,“filename”为tsv文件名称。

Metadata:json文件,包括文件信息和样本的关系。数据分析要用。

Metadata文件长这样:

其中,“associated_entities”下的“entity_submitter_id”为该tsv文件对应的样品id,“file_name”为样本对应的tsv文件名称,“file_id”为该文件所属的文件夹。

下载好两个文件后,把这两个文件连同 gdc-client.exe 文件一起放在工作目录下。然后在 cmd 或者 powershall 中运行以下命令:

(不要直接复制粘贴,用手打。因为manifest文件名每次都不一样)

gdc-client.exe download -m gdc_manifest_expdata.2020-03-23.txt -d expdata
# 代码解析:
# gdc-client:下载工具文件
# download:函数,实现下载功能
# -m:download的参数,表示manifest,清单文件
# gdc_manifest_cl.2020-03-23.txt:-m参数的值,需修改(与manifest文件名一致)
# -d:download的参数,表示directory,下载路径
# clinical:-d参数的值

下载好的文件是按样本存放的,每个样品一个文件夹,每个文件夹下都有一个tsv文件。tsv文件长这样:

其中,“gene_id”为Ensembl id;“gene_name”为symbol id;“gene_type”为该基因的类型,有protein coding(mRNA),lncRNA,这两个种RNA是常用的。另外,miRNA的分析得单独下载。unstranded就是count数,tpmfpkm是常用的标准化数据,但tpm更好一些。

 如果是做差异分析的话,建议采用counts ,有不少的差异分析的软件都是基于counts数,比如edgeR和DEseq2,要求输入的为counts数。如果是计算样品间的相关性,聚类等,那就可以采用均一化的TPM。

TPM与FPKM的区别:从计算公式来说,唯一的不同是计算操作的顺序,TPM是先去除了基因长度的影响,而FPKM是先去除测序深度的影响,TPM实际上改进了FPKM方法在跨样品间定量的不准确性。

查看一下下载文件的数量:

length(dir("./expdata/"))

下载的文件是按样本存放的,我们需要得到的是表格,需要将他们批量读入R语言并整理。

2.用R语言代码下载

这些R包都可以进行TCGA数据下载。

主要有这几种R包:GDCRNATools,TCGAbiolinks,RTCGA,GenomicDataCommons。

详见分类R包及函数学习。

 

标签:转录,03,文件,client,gdc,manifest,id,下载
From: https://www.cnblogs.com/Ixiaozhu/p/17810585.html

相关文章

  • 解决适用EntityFramework生成时报错“无法解析依赖项。"EntityFramework 6.4.4" 与 '
    点击添加,出现错误提示:......
  • ASP.NET窗体开发实现下载Excel表格数据
    使用Excel表格下载,还是要先下载NPOI插件,下载安装后,才能直接下载Excel表格。usingSystem;usingSystem.Collections.Generic;usingSystem.Data;usingSystem.IO;usingSystem.Linq;usingSystem.Web;usingSystem.Web.UI;usingSystem.Web.UI.WebControls;usingEnglishPr......
  • Android Studio 下载Gradle 超时解决方案
    错误提示1、卡在Gradle:Downloadhttps://services.gradle.org/distributions/gradle-3.2-all.zip不动。2、提示Error:Connectiontimedout:connect。  解决方案:1、手动下载gradle.zip文件打开项目里gradle\wrapper\gradle-wrapper.properties这个文件,找到类似于下面的这一......
  • '/webhook'​​​是你的服务器上的一个路径,当有人发送POST请求到这个路径时,​​webhoo
    在这段代码中,'/webhook'是你的服务器上的一个路径,当有人发送POST请求到这个路径时,webhook()函数就会被调用。你可以根据你的需求来选择这个路径,只要它在你的服务器上是唯一的。例如,如果你的服务器的URL是http://myserver.com,那么当飞书机器人发送POST请求到http://myserver.com/web......
  • fatal: unable to access 'https://github.com/wolfcw/libfaketime.git/': Encountere
    您遇到的问题可能是网络问题或与`git`配置有关。以下是一些建议的解决步骤:1.**检查网络连接**:确保您的服务器/计算机可以正常访问外部网站。您可以尝试使用`ping`或`curl`来检查网络连接。 ```bash pinggithub.com ```2.**使用HTTP代替HTTPS**:尝试使用HTTP代替HTT......
  • 记一次 OSS 大批量文件下载的实现 → bat脚本不好玩!
    开心一刻一天夜里,侄女跟我哥聊天侄女一脸期待的看着我哥:爸爸,你说妈妈和奶奶谁漂亮啊?我哥不慌不忙的拿起一粒瓜子,轻声说道:为啥没有你啊?侄女笑容渐起,似乎得到了她想要的回答,仍继续问道:那妈妈和奶奶还有我,谁漂亮?我哥瞄了一眼侄女,又拿起一粒瓜子坚定的说到:奶......
  • iframe预览pdf在H5页面上变成了下载操作
    上图展示了问题,那么怎么解决问题。因为我开发是在内网,安装依赖包对我来说很费劲。所以我选择了pdfh5的快速使用,教程可以看这个链接 https://gitee.com/gjTool/pdfh5,我选择的是第一种方式,请看下图 下面是我运行成功的代码截图 ①在static里面放入下载的文件,并在index.htm......
  • vue 网络图片访问不到,403的解决办法(详解)
    index.html中添加 <metaname="referrer"content="no-referrer"/>原因:防盗链的机制:通过页面的referrer信息,判断访问者来源,是否本站点,然后对图片等请求作出相应no-referrer:1、整个Referer首部包含了当前请求页面的来源页面的地址,即表示当前页面是通过此来源页面里的链接进......
  • test20231103
    T1还算是一道简单题,通过二分可以轻松求解。(但是我因为没有判断左端点挂了\(10pts\),不然我就是本场比赛的\(rk1\)了)虽然题解上说单调性是错误的,但是而二分能过,那就二分水过去吧。intn,k;inta[2050];boolvis[2050];inlineintwork(intx){memset(vis,0,sizeof......
  • 039-第三代软件开发-PDF阅读器
    第三代软件开发-PDF阅读器文章目录第三代软件开发-PDF阅读器项目介绍PDF阅读器1初始化PDFview2qml中使用3创建模块关键字:Qt、Qml、pdf、LTDev、本地项目介绍欢迎来到我们的QML&C++项目!这个项目结合了QML(QtMeta-ObjectLanguage)和C++的强大功能,旨在开发出色的......