1、定义变量:
HiFi 和 ONT 分别存储了HiFi和ONT(Oxford Nanopore Technology)测序平台产生的原始数据文件的路径。
hic1 和 hic2 存储了HiC(Chromosome Conformation Capture-on-Chip)技术的两个测序文件的路径,这些文件被压缩为.gz格式。
prefix 定义了输出文件的前缀,这里使用的是Fragaria_vesca。
$ HiFi= …/deliver/rawdata/HiFi.fastq
$ ONT= …/deliver/rawdata/ONT.fastq
$ hic1= …/deliver/rawdata/HiC_1.fastq.gz
$ hic2= …/deliver/rawdata/HiC_2.fastq.gz
$ prefix=Fragaria_vesca
2、运行hifiasm进行基因组组装:
$ hifiasm -o ${prefix} -t 26 --ul ${ONT} --h1 ${hic1} --h2 ${hic2} ${HiFi} 2> out.log
hifiasm 是一个用于基因组组装的软件。
-o ${prefix} 指定输出文件的前缀。
-t 26 指定使用26个线程进行计算。
–ul ${ONT} 使用Ultra-long reads(长读长)数据,这里指的是ONT数据。
–h1 ${hic1} 和 --h2 ${hic2} 使用HiC技术的数据,帮助组装过程中的scaffolding(将contigs排列到scaffolds)。
${HiFi} 是HiFi数据文件。
2> out.log 将标准错误输出重定向到out.log文件中。
3、提取HiC产生的contigs:
$ awk '/^S/{print ">"$2;print $3}' ${prefix}.hic.hap1.p_ctg.gfa > ${prefix}.hic.hap1.p_ctg.fa
$ awk '/^S/{print ">"$2;print $3}' ${prefix}.hic.hap2.p_ctg.gfa > ${prefix}.hic.hap2.p_ctg.fa
这两行命令使用awk工具从GFA(Graph Fragment Assembly)文件中提取序列信息。
/^S/ 匹配以S开头的行,这通常表示序列的开始。
{print “>”$2;print $3} 打印序列的名称($2)和序列本身($3)。
${prefix}.hic.hap1.p_ctg.fa 和 > ${prefix}.hic.hap2.p_ctg.fa 将输出重定向到两个不同的FASTA文件中,分别存储两个haploid(单倍体)的contigs。这是基因组组装流程的一部分,涉及到长读长数据和HiC数据的整合,以产生更准确的基因组组装结果。
4、输出结果
Hi-C partition输出文件
1、prefix.hic.p_ctg.gfa
这是primary contigs的组装图。这个文件包含了主要contigs的组装信息,展示了基因组的初步组装结果。
2、prefix.hic.hap1.p_ctg.gfa
这是完全分型的单倍型1的contig图,每个contig都被完全分型。这个文件提供了单倍型1的详细组装信息。
3、prefix.hic.hap2.p_ctg.gfa
这是完全分型的单倍型2的contig图,每个contig都被完全分型。这个文件提供了单倍型2的详细组装信息