首页 > 其他分享 >sra数据的下载及后续操作

sra数据的下载及后续操作

时间:2024-10-14 13:43:10浏览次数:13  
标签:sra 后续 tar -- 测序 SRA SRR23427143 下载

SRA数据库: Sequence Read Archive:隶属NCBl (National Center for Biotechnology Information)它是一个保存大规模平行测序原始数据以及比对信息和元数据(metadata)的数据库,所有已发表的了献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的,SRA数据库可以用于搜索和展示SRA项目数据,包括SRA主页和 Entrezsystem,由 NCBI负责维护。
1.下载安装sratoolkit(建议在pack文件夹中)

wget --output-document sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
tar -vxzf sratoolkit.tar.gz
cd sratoolkit.3.1.1-ubuntu64

设置环境变量

echo "export PATH=$PATH:/home/路径/pack/sratoolkit.3.1.1-ubuntu64/bin" >> ~/.bashrc
source ~/.bashrc
vdb-config --interactive

此时出现一个窗口,按x退出配置完成

2.下载方法
下载单条序列
prefetch SRR23427143
批量下载序列,从ncbi批量选择序列,导出SRR_ACC_List.txt
prefetch --option-file SRR_ACC_List.txt

fastq是旧版,fasterq是新版,个人使用过程中fastq有时会出问题,优先用新版吧,不过新版不能用压缩命令。
fastq-dump --split-3 --gzip SRR23427143

fasterq-dump -p SRR23427143
pigz SRR23427143.sra

-p 显示进程
-e 线程数
--split-spot 将双端测序分为两份,但是都放在同一个文件中
--split-files 将双端测序分为两份,放在不同的文件,对于一方有而一方没有的reads直接丢弃
--split-3 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里

标签:sra,后续,tar,--,测序,SRA,SRR23427143,下载
From: https://www.cnblogs.com/ft-2024/p/18463955

相关文章

  • 全球30米地表覆盖与全国行政区划、路网、水系、管网数据免费下载:国家基础地理信息中心
      本文介绍在国家基础地理信息中心中,免费下载全球30米地表覆盖数据,以及全国行政区、路网、水系、居民地、管线等各类矢量数据的方法。  我们之前介绍过多种下载GIS数据的官方方法(这里的官方指的是来源可信的大平台,如政府机构、科研机构等,而不是那种说不出数据来源的小......
  • 监听下载上传进度
    在Web开发中,监听文件的上传和下载进度是提升用户体验的重要功能。通过使用现代浏览器的API,我们可以轻松实现这个功能。以下是关于如何监听上传和下载进度的详细说明。1. 监听文件上传进度对于文件上传,通常使用XMLHttpRequest(XHR)或FetchAPI。以下是如何通过这两种方法监听上......
  • Nexpose 6.6.272 发布下载,新增功能概览
    Nexpose6.6.272forLinux&Windows-漏洞扫描Rapid7VulnerabilityManagement,releasedOct03,2024请访问原文链接:https://sysin.org/blog/nexpose-6/查看最新版。原创作品,转载请保留出处。作者主页:sysin.org您的本地漏洞扫描程序新增功能2024年10月3日......