首页 > 其他分享 >如何通过SRA Tools处理从NCBI获得的SRA数据

如何通过SRA Tools处理从NCBI获得的SRA数据

时间:2024-07-10 17:45:12浏览次数:14  
标签:SRA 提取 NCBI -- 双端 测序 Tools

1.安装SRA Tools

通过SRA Toolkit可以方便的从NCBI下载SRA数据,但是速度较慢,Aspera虽然快,但是难点在于找NCBI的源文件地址,而且SRA Toolkit好像可以调用Aspera(虽然还没找到方法)
具体操作可以参考这个帖子,下载安装很容易,主要是配置环境要配置好,不然用不了
https://blog.csdn.net/m0_69574256/article/details/134645370

2.下载SRA数据

从NCBI网站上进SAR,找到自己感兴趣的数据

选择sent to

然后选择Run selector,然后GO,他会输出一个SRR_Acc_List.txt,这个文件里面包含了你想要的数据的编号,之后可以通过这个文件批量下载,或者通过里面的编号一个一个下,里面的内容都是SRRxxxxxx

想要下载这些数据时,可以参考这个帖子
https://blog.csdn.net/m0_69574256/article/details/134645370
主要操作就是:
prefetch SRRXXXXXX(这里是你想要下的数据的标号),这个命令是下载这个SAR文件

这样就是下载好了
对于下载好的SRA文件来说,就下来就是提取数据了,使用如下命令可以提取数据:
fastq-dump --split-3 --gzip SRRxxxxxxx.sra
fastq-dump:提取内容的命令,提取fastq, fastq-dump这步很容易出错,一定要注意原始数据的类型是单端测序还是双端测序,单端测序和双端测序处理方法不同
--split-3:这个要着重说一下,因为单端测序和双端测序是不一样的, 双端测序不要直接提取,将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里
关于遇到的Rejected XXXXX READS because of filtering out non-biological READS就是因为原来是SE数据,但是用--split-3当作PE数据处理,出现的问题. 看起来好像有问题,但是对后续结果分析没有太多影响.

因此,对于一个你不知道到底是单端还是双端的SRA文件,一律用--split-3.

--gzip:将提取出来的fastq文件转换为gz文件,可以节省服务器存储资源,同时gz文件也便于后续处理

下面就是数据提取出来的最终形态,看得出来这个对存储大小要求很高,不压缩会很占空间,记得在下载和提取过程中留足充足的磁盘资源,不然会报错,内存越大越好,这样提取的更快。

标签:SRA,提取,NCBI,--,双端,测序,Tools
From: https://www.cnblogs.com/wu8567612/p/18294680

相关文章

  • 如何从NCBI上下载ATAC-seq数据
    如何从NCBI上下载数据——使用ASCP下载数据1.下载ASCPhttps://cloud.tencent.com/developer/article/23681502.获取NCBI上的ACCESSIONIDs①.在NCBI-SRA上检索自己想要数据。②.拉到最底下,选择sendto,再选择Runselect,最后选择GO。③.进入SRARunselect页面,选择Accessi......
  • Kutools-for-Excel学习版下载
    一、软件介绍在处理Excel文件时,经常会遇到一些繁琐但又不可避免的操作,严重影响到文档编辑效率。KutoolsforExcel与Excel2007/2010/2013/Microsoft365的界面完美融合,超过300+的功能都提供了详细操作提示,即使是从未接触过的功能,也能立马上手使用,是你使用Excel......
  • Kutools for Word v9.0学习版下载
    概述KutoolsforWordv9.0是一款功能强大的MicrosoftWord插件,旨在提高用户的工作效率和文档处理能力,是Word用户的得力助手。主要功能:增强功能:为Word添加了300多个高级功能,大大扩展了Word的基础功能。界面集成:完美集成到Word界面中,使用起来自然流畅。文档管理......
  • 算法金 | 推导式、生成器、向量化、map、filter、reduce、itertools,再见 for 循环
    大侠幸会,在下全网同名「算法金」0基础转AI上岸,多个算法赛Top「日更万日,让更多人享受智能乐趣」不要轻易使用For循环For循环,老铁们在编程中经常用到的一个基本结构,特别是在处理列表、字典这类数据结构时。但是,这东西真的是个双刃剑。虽然看起来挺直白,一用就上手,但是......
  • C# WinForm给ToolStrip工具栏扩展一个CheckBox单选框类型按钮的方法
    [ToolStripItemDesignerAvailability(ToolStripItemDesignerAvailability.ToolStrip)]publicpartialclassToolStripCheckBox:ToolStripItem{privateboolIsChecked=false;publicboolHasChecked{get......
  • 【VMware vSphere】使用RVTools中的PowerShell脚本创建导出vSphere环境信息的自动化任
    RVTools是VMware生态系统中一个非常受欢迎且免费的Windows实用工具,用于收集并显示VMwarevSphere环境中的相关信息,如虚拟机、主机及集群等相关配置。RVTools利用VMwarevSphereManagementSDK8.0和CISRESTAPI提供的丰富数据来直接获取和收集信息,这在管理员对VMwa......
  • vue-devtools (firefox浏览器,火狐浏览器) Vue调试
    vue-devtools(firefox浏览器,火狐浏览器)vuedevtools  vue-devtools(firefox浏览器) 打开firefox浏览器,使用快捷键【Ctrl+Shift+A】打开组件管理列表,并搜索vue  安装   重启Firefox 访问一个Vue应用,打开开发者工具 ......
  • 单细胞测序最好的教程(十四)测序原始数据公开至NCBI数据库
    作者按国内对于单细胞测序相关的中文教程确实不够全面,当然NCBI官网给的上传教程也比较详细了,所以变成了会者不难。本教程你现在可能用不上,但是你如果做单细胞测序,那么未来你一定会用上,建议收藏。在这里,我们将演示如何将测序文件完整上传到NCBI上。本教程首发于单细胞最好的中文......
  • Tools Used in Experiments
    ToolsUsedinExperimentsFortheexperimentsyou'llneedtheRISC-Vversionsofacoupledifferenttools:QEMU5.1+,GDB8.3+,GCC,andBinutils.InstallingonWindowsWestronglydiscouragestudentsfromusingWSLforexperimentsbecauseitslows......
  • 安装VMware Tools
    安装VMwareTools在Debian9系统上安装1、查看系统版本hostnamectl查看系统版本信息显示当前的操作系统是Debian9,代号为"stretch"。这是Debian的一个长期支持版本,发布于2017年。root@ucs-8389:~#hostnamectlStatichostname:ucs-8389Iconname:computer-vmChassis:......