首页 > 数据库 >安装Toolkits,使用prefetch下载SRA数据库

安装Toolkits,使用prefetch下载SRA数据库

时间:2024-08-13 20:15:44浏览次数:14  
标签:SRA Toolkits dump -- fastq sra prefetch 下载

准备

安装Toolkits

建议conda安装,命令如下。(兼容性还行,没必要新建环境)

conda install -c bioconda sra-tools

注意: 使用时记得先激活conda环境。

直接安装,请参考:SRA ToolKit (sra-tools) 的安装和使用

配置prefetch下载路径

prefetch的默认目录是配置Toolkits的路径,非常建议更改下载路径

  1. 如果是conda下载,需要激活相应conda环境;如果是直接安装,cd到sra-toolkit的安装路径下的bin
  2. 命令行输入vdb-config -i --interactive-mode textual,会有以下选项
$ vdb-config -i --interactive-mode textual

     vdb-config interactive

  data source

   NCBI SRA: enabled (recommended) (1)


  local workspaces: local file caching: enabled (recommended) (6)

  Open Access Data
cached (recommended) (3)
location: '/mnt/data/xxxxx/xxxxx' (4)

To cancel and exit      : Press <Enter>
To update and continue  : Enter corresponding symbol and Press <Enter>

  1. 输入4,回车;
  2. 输入新路径(需要保证新路径为空),回车即可

也可以自行通过图形化界面探索其他配置vdb-config -i。(图形界面也可以配置下载路径)

其他配置请参考:三、工具包配置

使用

prefetch下载sra

  1. 如果是conda下载,需要激活相应conda环境conda activate env_name;如果是直接安装,直接使用
  2. 命令行输入prefetch SRRxxxxxx或者prefetch SRPxxxxx即可下载,下载数据在上面配置路径下的sra目录。

注意:

  1. 下载成功之后会得到SRRxxxx/的文件夹,文件夹内有一个SRRxxxxxxx.sra文件,它就是我们的模板文件,还需要进一步操作,转化成fastq文件才能使用。

  2. prefetch自动支持断点续传,若下载过程中,ctrl + c/或其他因素 打断程序运行,重新执行相同的下载命令会在原有基础上下载。

prefetch命令的详细介绍如下

prefetch -X 100G -f no -p -o SRRxxxxx.sra SRRxxxxx
# -X|--max-size <size>
#       Maximum file size to download in KB (exclusive). Default: 20G
# -f|--force <yes|no|all|ALL>
#       Force object download: one of: no, yes, all, ALL. 
#       no [default]: skip download if the object if found and complete; 
#       yes: download it even if it is found and is complete; 
#       all: ignore lock files (stale locks or it is being downloaded by another process use at your own risk!);
#       ALL: ignore lock files, restart download from beginning. 
# -p|--progress
#       Show progress.
# -o|--output-file <FILE>
#       Write file to FILE when downloading single file.

多文件下载

如果你的info.csv中有许多个文件,都需要下载,如图则下载示例如下

# zsh
for i in `cat ../info.csv | awk -F',' '{print $1}' | sed 1d`
prefetch -X 100G -f no -p -o $i.sra $i
# or
# bash
for i in `cat ../info.csv | awk -F',' '{print $1}' | sed 1d`; do
prefetch -X 100G -f no -p -o $i.sra $i
done

格式转换sra to fastq

常见的 sra to fastq 格式转换工具有三个:fastq-dumpfasterq-dump和 parallel-fastq-dump。性能测试可见:https://zhuanlan.zhihu.com/p/591140275

  • fastq-dump官方出品的初代版本,稳定可靠,但是没有多线程,性能极差(缺点:速度极慢);
  • fasterq-dump官方出品,在fastq-dump基础上加入了多线程,提升了数倍性能,但是输出文件不是压缩文件(缺点:不支持压缩);
  • parallel-fastq-dump性能最强,但是输出文件是压缩后的文件,但是非官方出品,兼容性和可靠性有待考证。(缺点:非官方出品)

个人建议用fasterq-dump,对parallel-fastq-dump感兴趣自行搜索

fasterp-dump解析成fastq

fasterp-dump命令如下,一般只需要调整最下面的sra路径和-O 输出fastq文件的目录。

fasterq-dump \
    -p -e 12 --split-files --include-technical\
    -O . \
    /mnt/data/prefetch_data/sra/SRRxxxxx.sra
#- -p:指定输出文件为 paired-end (双端) 读取。这意味着输入的 SRA 文件包含配对的读段,输出将生成两个 FASTQ 文件,分别对应每对读段中的第一条和第二条。
#- -e 12:指定使用 12 个线程进行并行处理,可以显著加快转换速度,尤其是对于大型 SRA 文件。
#- --split-3/--split-files:分割文件的方式。
#- -O .:指定输出文件的目录为当前目录 (.)。可以自己指定
# xxxx/sra/SRRxxxxxx.sra : 输入的sra文件的目录

注意:

  1. fasterq-dump没有--gzip|--bizp2选择,您必须在转化成fastq文件后自己再压缩。
  2. 对于为了cellranger分析的数据,必须使用 --split-files --include-technical参数才能保证输出的文件为三个(如果转化后不为3个,说明转换成sra文件前就不是3个)。

fastq-dump

标签:SRA,Toolkits,dump,--,fastq,sra,prefetch,下载
From: https://www.cnblogs.com/kingwz/p/18357628

相关文章

  • SRAM的Write Assist与Read Assist
    SRAM的WriteAssist与ReadAssist简介随着工艺节点的不断提升,诸如阈值电压的偏差,以及供电电压的减小,寄生电阻电容的影响等,都会越来越影响SRAM的稳定性。因此需要通过writeAssist和ReadAssist方法来提升SRAM的写入能力,可读性以及稳定性。具体来说,以一个典型的6TSRAM结构为例:......
  • SRAM和DRAM
    SRAM和DRAM的比较SDRAM(同步动态随机存取存储器,英语:synchronousdynamicrandom-accessmemory)也是DRAM的一种DRAM的刷新DRAM的刷新需要注意以下问题:刷新操作对CPU是透明的,即CPU不参与DRAM的刷新过程DRAM的刷新单位是行,由芯片内部自行生成行地址刷新操作类似于读操......
  • android IO Prefetch源码分析
    I/OPrefetcher是高通本身提供的一套优化方案,可以用在Android手机App冷启动的时候。本文基于androidQ主要分libqti-iopd、[email protected]、libqti-iopd-client_system、libqti-perfd-client_system、libperfconfig、libqti_performance,编译后在/vendor/lib/目......
  • SRAM&DRAM
    SRAM(StaticRandomAccessMemory)和DRAM(DynamicRandomAccessMemory)是两种常见的计算机内存类型,它们在结构、工作原理和性能特点上有一些显著的区别:1.结构:•SRAM:SRAM使用触发器(flip-flops)来存储数据,每个存储单元由多个晶体管构成,因此SRAM的存储单元比较......
  • SRAM CIM的后续发展之我见
    SRAMCIM的后续发展之我见目前CIM技术已经应用在诸多存储器上,如主流存储器SRAM,DRAM,Flash,以及新型NVM,如RRAM,PCM,FeRAM,MRAM等。其中SRAMCIM是一个进展较快的方向,主要受益于其工艺上的成熟性,与CMOS先进工艺的高度兼容,并且SRAM的高速度也是SRAMCIM性能上的一个重要优势。工业界对于......
  • (138)SRAM接口--->(001)基于FPGA实现SRAM接口
    1目录(a)FPGA简介(b)IC简介(c)Verilog简介(d)基于FPGA实现SRAM接口(e)结束1FPGA简介(a)FPGA(FieldProgrammableGateArray)是在PAL(可编程阵列逻辑)、GAL(通用阵列逻辑)等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电......
  • (137)SRAM接口--->(004)基于FPGA实现SRAM接口
    1目录(a)FPGA简介(b)IC简介(c)Verilog简介(d)基于FPGA实现SRAM接口(e)结束1FPGA简介(a)FPGA(FieldProgrammableGateArray)是在PAL(可编程阵列逻辑)、GAL(通用阵列逻辑)等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电......
  • 如何通过SRA Tools处理从NCBI获得的SRA数据
    1.安装SRATools通过SRAToolkit可以方便的从NCBI下载SRA数据,但是速度较慢,Aspera虽然快,但是难点在于找NCBI的源文件地址,而且SRAToolkit好像可以调用Aspera(虽然还没找到方法)具体操作可以参考这个帖子,下载安装很容易,主要是配置环境要配置好,不然用不了https://blog.csdn.net/m0_6......
  • BK7258--wifi音视频soc芯片,1080P H264 wifi低功耗保活,内置BLE,音频code,psram,flash,USB2.
    BK7258是上海博通推出的高度集成的Wi-Fi+BLE combo音视频芯片,支持UVC和DVP摄像头,该芯片集成音视频外设及接口,1080P,H.264,低功耗,内置flash,dsp,psram,驱屏,回声消除及降噪等,广泛适用于可视猫眼,门锁,门铃,ipc,内窥,儿童相机等应用市场。可视门铃应用:DVP接口支持720p25fps图像采集;MJPE......
  • 为什么GD32F303代码运行在flash比sram更快?
    我们知道一般MCU的flash有等待周期,随主频提升需要插入flash读取的等待周期,以stm32f103为例,主频在72M时需要插入2个等待周期,故而代码效率无法达到最大时钟频率。所以STM32F103将代码加载到sram运行速度更快。但使用GD32F303时将代码加载到SRAM后速度反而下降了一些,这是为什么......