基因组之单倍型基因组数据处理(二)
那么,今天让我们来看第二期,关于对于下机后的数据的处理,使其能够符合我们的分析要求,让我们的分析能够进入下一步的组装。
1. Smrtlink12 简介:
-
PacBio开发的处理HiFi测序数据的open-source工具;
-
基于网页的端对端工作流程管理,也可以用linux command-line分析;
-
它包括用于构建样品,监控测序过程,分析和测序数据的软件应用。
2. smrtlink12下载和安装
官网:https://www.pacb.com/support/software-downloads/
下载:smrtlink_12.0.0.177059.zip
安装:
unzip smrtlink_12.0.0.177059.zip
./smrtlink_12.0.0.177059.run
3.HiFi数据质控报告
$ HiFibam = sample_hifi.bam
#这行代码将变量HiFibam设置为sample_hifi.bam,这是一个BAM文件的路径,该文件包含了PacBio HiFi测序数据的比对结果。
$ prefix= sample_hifi
#这行代码将变量prefix设置为sample_hifi,这个前缀将用于后续生成的文件。
$ export PATH=/work/frasergen/PUB/software/smrtlink/smrtlink_12.0.0/smrtcmds/bin:$PATH
#这行命令将smrtcmds工具的二进制文件路径添加到环境变量PATH中,使得您可以在任何目录下直接调用这些工具。
$ dataset create --force --type ConsensusReadSet ${prefix}.xml ${HiFibam}
#这个命令创建一个数据集,类型为ConsensusReadSet,这是PacBio数据分析中的一个常见步骤。--force参数表示如果输出文件已存在,则覆盖它。${prefix}.xml是输出的XML文件名,${HiFibam}是输入的BAM文件。
$ runqc-reports ${prefix}.xml
#这个命令运行质量控制报告,输入的是上一步创建的XML文件。这个报告会提供关于数据集质量的详细信息,包括读长、准确性、覆盖度等关键指标。
能输出以下的相关的结果,比如HiFi reads质量分布的图。
4.HiFi.bam格式转化
$ HiFibam = sample_hifi.bam
#这行代码将变量HiFibam设置为sample_hifi.bam,这是一个BAM文件的路径,该文件包含了PacBio HiFi测序数据的比对结果。
$ prefix= sample_hifi
#这行代码将变量prefix设置为sample_hifi,这个前缀将用于后续生成的文件。
$ bam2fasta ${HiFibam} -o ${prefix} -u
#这个命令使用bam2fasta工具从BAM文件中提取序列,并将其转换为FASTA格式。
${HiFibam}是输入的BAM文件。
#-o ${prefix}指定输出文件的前缀,这里会生成两个文件:${prefix}.fasta和${prefix}.qual,分别包含序列和质量分数。
#-u参数表示输出未比对的序列(unaligned sequences)。如果不使用-u参数,bam2fasta默认只输出比对到参考基因组上的序列。
#这些命令通常用于处理PacBio的HiFi测序数据,将比对结果从BAM格式转换为FASTA格式,以便进行进一步的分析,如序列组装、变异检测等。
那么对于对应的三代ONT数据也有相应的软件进行处理数据
下期让我们关注使用HiFiasm软件对基因组的测序数据进行初步的组装。
标签:sample,hifi,文件,HiFibam,测序,基因组,单倍,prefix,数据处理 From: https://blog.csdn.net/2401_89507557/article/details/144604391