首页 > 其他分享 >10. 数据下载

10. 数据下载

时间:2023-10-02 10:22:05浏览次数:60  
标签:10 SRA 数据库 测序 sra 数据 下载

1. 引入

  当我们想比对测序数据与参考基因组时,先下载好参考基因组的数据,接下来就是准备测序数据.那么问题来了,测序数据是如何准备呢?
image

2. database

  我们打开一篇论文,通常我们可以在论文尾部发现数据下载处.论文尾部会介绍数据上传位置或者数据出处.下图就是上传至GEO数据库中.

GEO数据库全称Gene Expression Omnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。 它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据.也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到.

image
  在NCBI的GEO数据库中搜索GSE108930,可以得到如下所示的页面.这是作者上传的甜橙RNA-seq数据,标题其实是论文名,也就是甜橙成熟期间DNA甲基化的全局增长.
image
  在下面的Platforms可以看到作者使用什么测序工具:
image
  \(Samples\)表示作者使用了多少样本,我们查阅可知是15个样本(作者测了甜橙5个时期,每个时期3个样本).GSM实际上是作者的样本编号.
  下图的BioProject是项目编号,SRA是测序数据原始的编号.这里实际是存储在SRA数据库的编号.

SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics.除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息.

image

  那么我们在前面的GSE的编号到底是什么呢?关于GEO数据库,我们只需要知道这三个概念就好:

  • GEO Platform (GPL)
  • GEO Sample (GSM)
  • GEO Series (GSE)

image

  在进行参考基因组比对时,我们要下载的数据是原始数据.因此要到\(SRA\)数据库中下载,通过左上角一次性全部下载.
image
  进入后看见如下页面.\(Run\)可以理解为数据序号,\(BioSample\)是数据对应的样本编号,\(Base\)是测序的碱基数量.\(Byte\)是文件大小.\(Developmental\_Stage\)是样本描述.
image
  找到了数据下载地址,接下来是下载数据.我们总共介绍三种方法.

3. How to download data from public database

3.1 prefetch

  这个方法是\(NCBI\)官方提高的方法,它主要来源于NCBI的官方软件包sra‑tookit,也就是说\(prefetch\)是sra‑tookit的工具之一.但是请注意在\(conda\)的安装仓库中,这个软件的名字被改成了\(sra-tools\).
  安装完成后,使用\(RUN\)的ID进行安装.

prefetch SRR6451531

  这个方法用的不多,因为国内下载速度比较慢.

3.2 sra-explorer

  \(sra-explorer\)是一个用于搜索\(sra\)数据的网页.它支持输入:GSE、SRA、SRP、PRJ(项目编号)、ERP,甚至直接通过物种+组织+测序技术搜索.
  这里我们干脆整理一下\(sra\)数据库的编号意义.

SRA 数据库的组织架构
1,meta 数据是指与测序实验及其实验样品相关的数据, 如实验目的、 实验设计、 测序平台、 样本数据(物种, 菌株,个体表型等),在SRA数据库中,meta数据分如下层次来存储:
(1)研究课题(study). 在 SRA 数据库中, 研究课题的检索号(accession number)以前缀 DRP, ERP 或SRP 开头。
(2)样本信息(sample). 样本的检索号以前缀 DRS, ERS 或 SRS开头。 样本信息可以包括物种信息、 菌株(品系)信息、 家系信息、 表型数据、 临床数据, 组织类型等。
(3)实验信息(experiment). 实验的检索号以前缀DRX, ERX 或 SRX 开头。 实验是 SRA 数据库的最基本单元, 就像 PubMed 数据库的每一篇文献是 PubMed数据库的基本单元一样。 一个实验隶属于某个研究课题, 对一个或多个样本进行测序, 产生的测序数据以 runs 的形式存储于 SRA .
2,序列数据
包括序列及其质量信息等, 在 SRA 数据库中以run 为单元存储。 run 的检索号以前缀 DRR, ERR 或SRR 开头。
3。SRA 数据库中的测序数据来自四个测序平台
分别为: Roche_LS454,Illumina,ABI_SOLID和HELICOS。

  我们把要下载的数据放在购物车后,页面显示如下.
image
  我们可以直接\(wget\)下载.一般情况是可以下载的,也不排除国内网络连不上的情况.

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR645/001/SRR6451531/SRR6451531_1.fastq.gz

  上图还有批量命令下载,写个脚本直接复制进去即可.

3.3 kingfisher

  我们直接去官网查询.直接使用conda下载.下载后可以使用\(-h\)查看帮助.
image
  查阅文档可知-r后跟下载数据的编号,-m后跟下载数据的方法,备用方法用空格分割.

kingfisher -r SRR6451531 -m aws-http ena-ftp prefetch

  这样下载数据是特别慢的,我们会将它放在后台运行.也可以使用htop -u 用户名来看具体进程运行情况.

nohup kingfisher get -r SRR6451531 -m aws-http ena-ftp prefetch &

标签:10,SRA,数据库,测序,sra,数据,下载
From: https://www.cnblogs.com/newblg/p/17737112.html

相关文章

  • pandas(进阶操作)-- 处理非数值型数据 -- 数据分析三剑客(核心)
    博客地址:https://www.cnblogs.com/zylyehuo/开发环境anaconda集成环境:集成好了数据分析和机器学习中所需要的全部环境安装目录不可以有中文和特殊符号jupyteranaconda提供的一个基于浏览器的可视化开发工具importnumpyasnpimportpandasaspdfrompandasi......
  • 上周热点回顾(9.25-10.1)
    热点随笔:· 在小公司编程是一种什么样的体验? (公众号_陶朱公Boy)· 一个混乱千万级软件项目 (烂人)· 《优化接口设计的思路》系列:第四篇—接口的权限控制 (sum墨)· C#开源且免费的Windows桌面快速预览神器-QuickLook (追逐时光者)· .NET开发工作效率提升利器-Cod......
  • 掌握这些技巧,让Excel批量数据清洗变得简单高效!
    什么是数据清洗数据清洗是指在数据处理过程中对原始数据进行筛选、转换和修正,以确保数据的准确性、一致性和完整性的过程。它是数据预处理的一部分,旨在处理和纠正可能存在的错误、缺失值、异常值和不一致性等数据质量问题。为什么要数据清洗Excel在数据采集场景中非常常用。作......
  • 算法训练day23 LeetCode669.108.538.
    算法训练day23LeetCode669.108.538.669.修剪二叉搜索树题目669.修剪二叉搜索树-力扣(LeetCode)题解代码随想录(programmercarl.com)递归不能单纯地由根节点的值直接删除单值,需要继续判断子节点是否符合条件classSolution{public:TreeNode*trimBST(T......
  • 出租率100%!这家产业园挺牛
    随着国家经济由高速增长转向高质量发展,产业结构不断升级,城市化进程不断提升,我国不动产行业逐步过渡到以质量为前提,多元化业务并举的新阶段。其中,作为有着数十年市场化发展深厚积淀的庞大产业,作为稳住经济的重要抓手,在新的周期,也正在衍生出新的生态体系。身处其间的行业企业们,如何......
  • template 2023.10.01
    特斯拉ModelY2023小更新款AllInOne⚠️没有座椅通风......
  • 迷失岛2笔记3 场景数据保存
     首先我们注册一下这个场景前后数据变化的事件 然后在我们切换场景这里做一个场景前场景后的一个数据切换 事件调用 然后再里面写逻辑   可以看到上面的字典他是一个枚举和一个Bool 就是用这个来判断哪些物品是否要激活使用过   他就是查找当前场......
  • 2023.10.1
    今天,上午去挂水了,下午去搞之前一直没搞定的一道题目,终于搞清楚了之前我一直在犯得错误,那就是这道题是64位的,我以前做过的需要泄露libc的题目,只有ctfwiki上自带的例题(32位),所以用栈溢出调用函数的时候,按照以前的想法,参数是直接放在payload里,之后payload被读到栈上后,参数就是在栈上的......
  • 9.29~10.1总结
    9.30上午RoundC4:A题签到。B题脑抽sum没清零痛失50。C题考场写了个N方DP,不知道为啥3,4点WA了。正解其实只需二分查找优化DP到\(O(nlogn)\)即可。D题没弄懂正解。下午补题。然后练习了下线段树,基本是面向题解编程了,还是没掌握。晚上ZROI第一题打完就走了,一个贪心。然......
  • modin pandas 大规模数据处理方案
    modin是一个可以快速替换原生pandas的方案,我们只需要替换一个简单的引用,就可以将pandas的数据处理速度有很大的提升modin支持与不少框架的集成(ray,dask,unidisk),目前modin对于常用read操作都有很不错的支持,参考图参考架构如下图,可以看出modin的扩展能力还是很强大的......