像fastq这样的原始文件是肯定不能丢掉的,必须保存在硬盘里或者放到ftp服务器上,以便之后再度调取分析。
fastq保存时问题不大,但因为文件巨大,传输通常需要几小时-几天,非常容易在传输过程中损毁,这时候我们就需要一种方法来检验我们下载的fastq(任何其他原始文件)是否完整。
MD5信息摘要算法(英语:MD5 Message-Digest Algorithm),一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。
安装:Macos 安装md5sum、sha1sum、md5deep、sha1deep
brew install md5sha1sum
建议:任何原始文件都必须构建md5原始验证码,然后存档。
md5sum *.gz > md5.txt
检测:
md5sum -c md5.txt
如果下载的fastq没有md5,则有两种办法:
一、用gzip检验gz的文件完整性
参考:使用gunzip命令的t参数检测fastq的gz文件完整度
gunzip -t SRR11652583_2.fastq.gz
二、检查配对端FASTQ数据完整性
直接计数行数即可,配对就基本没问题。
wc -l `gzcat *.gz`
wc -l `find -name *.gz`
OSX不能直接用zcat,Linux则可以。
对于这种大数据,最好使用C写的工具,哪些别人用perl和python写的就不要用了,速度可以气死你,Linux上的基础命令基本能胜任大部分工作。
标签:文件,FASTQ,gz,传输,完整性,原始,fastq,md5 From: https://www.cnblogs.com/leezx/p/16666414.html