SRA数据库: Sequence Read Archive:隶属NCBl (National Center for Biotechnology Information)它是一个保存大规模平行测序原始数据以及比对信息和元数据(metadata)的数据库,所有已发表的了献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的,SRA数据库可以用于搜索和展示SRA项目数据,包括SRA主页和 Entrezsystem,由 NCBI负责维护。
1.下载安装sratoolkit(建议在pack文件夹中)
wget --output-document sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
tar -vxzf sratoolkit.tar.gz
cd sratoolkit.3.1.1-ubuntu64
设置环境变量
echo "export PATH=$PATH:/home/路径/pack/sratoolkit.3.1.1-ubuntu64/bin" >> ~/.bashrc
source ~/.bashrc
vdb-config --interactive
此时出现一个窗口,按x退出配置完成
2.下载方法
下载单条序列
prefetch SRR23427143
批量下载序列,从ncbi批量选择序列,导出SRR_ACC_List.txt
prefetch --option-file SRR_ACC_List.txt
fastq是旧版,fasterq是新版,个人使用过程中fastq有时会出问题,优先用新版吧,不过新版不能用压缩命令。
fastq-dump --split-3 --gzip SRR23427143
fasterq-dump -p SRR23427143
pigz SRR23427143.sra
-p 显示进程
-e 线程数
--split-spot 将双端测序分为两份,但是都放在同一个文件中
--split-files 将双端测序分为两份,放在不同的文件,对于一方有而一方没有的reads直接丢弃
--split-3 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里