1.hifiasm组装
hifi + hic
hifiasm -o GN.asm -t48 --h1 GN_h1.cl.fq.gz --h2 GN_h2.cl.fq.gz GN_hifi.fq.gz 2> GN.asm.log
这一步是改变序列和文件格式
for i in *ctg.gfa; do n=$(echo $i | awk -F '_' '{print $1"_"$2}'); awk '/^S/{print">"$2;print $3}' $i > $n\_ctg.fa; done
对组装评估,产生报告
quast-lg.py -t48 -o quast_GN GN.asm.hic.p_ctg.fa GN.asm.hic.hap1.p_ctg.fa GN.asm.hic.hap2.p_ctg.fa
2.、以GN为例,形成限制酶切位点、contigs长度列表、以及参考序列index,建立原始数据路径
打开hicpro运行环境
mamba activate HiC-Pro_v3.1.0/hicpro
链接到需要使用的文件
ln -s ../../hifiasm/GN.asm.hic.p_ctg.fa ./
调用digest_genome.py(hicpro自带的限制酶切信息位点),形成限制酶切位点,其中,-r指定酶的名称或序列,在代码给了如下字典:
~/pack/HiC-Pro/bin/utils/digest_genome.py GN.asm.hic.p_ctg.fa -r dpnii -o GN.asm.hic.p_ctg.dpnii.bed
SeqKit是一种跨平台的、极快的,全面的fasta/q处理工具
seqkit fx2tab -n -l GN.asm.hic.p_ctg.fa > GN.asm.hic.p_ctg.table
Bowtie 2是一种超快速、高效使用内存的工具,用于将测序读段与长参考序列比对。它特别擅长将大约50个字符到100个字符的读段与相对较长的(如哺乳动物)基因组比对。
bowtie2-build --threads 48 GN.asm.hic.p_ctg.fa GN.asm.hic.p_ctg
能够对fasta 序列建立一个后缀为.fai 的文件,根据这个.fai 文件和原始的fastsa文件, 能够快速的提取任意区域的序列
samtools faidx GN.asm.hic.p_ctg.fa
创建文件夹并打开
mkdir -p rawdata/samples1/; cd rawdata/samples1
链接到原始数据中并命名
ln -s ../../../../rawdata/hic/GN_h1.cl.fq.gz hic_R1.fastq.gz
ln -s ../../../../rawdata/hic/GN_h2.cl.fq.gz hic_R2.fastq.gz
3.复制安装路径下的配置文件到当前路径,更改必要的参数
复制配置文件并打开
cp ~/pack/HiC-Pro/config-hicpro.txt ./
vim config-hicpro.txt
更改参数
# N_CPU = 60
# SORT_RAM = 180000M
# BOWTIE2_IDX_PATH =
/mnt/sda/home/liutongjian/data/240419_Chrysantha_Genomes/hicasm/Yan02
# REFERENCE_GENOME = Yan02_asm2.hic.p_ctg
# GENOME_SIZE =
/mnt/sda/home/liutongjian/data/240419_Chrysantha_Genomes/hicasm/Yan02/Yan02_asm2.hic.p_ctg.table
# GENOME_FRAGMENT =
/mnt/sda/home/liutongjian/data/240419_Chrysantha_Genomes/hicasm/Yan02/Yan02_asm2.hic.p_ctg.dpnii.bed
# LIGATION_SITE = GATCGATC
输出hicpro_out文件夹,-i输入文件
~/pack/HiC-Pro/bin/HiC-Pro -i rawdata -o hicpro_out -c config-hicpro.txt
4.YaHS scaffolding
下载biobambam并激活环境
mamba create -n biobambam biobambam
mamba activate biobambam
在hicasm目录下创建yahs并打开文件夹。YaHS是一种使用 Hi-C 数据的scaffold工具。它依赖于一个新的算法进行重叠群连接检测,该算法考虑了 Hi-C 信号的拓扑分布,旨在将真实的交互信号与映射噪声区分开来。
mkdir yahs; cd yahs
输入bam文件,进行并行排序和重复标记
默认输出坐标,这里选择输出queryname(查询名称)
bamsormadup threads=24 SO=queryname
<../hicpro_out/bowtie_results/bwt2/samples1/hic_GN.asm.hic.p_ctg.bwt2pairs.bam
>hic_sormadup.bam
在pack环境clone yahs,并进入目录make
git clone https://github.com/c-zhou/yahs.git
make
在hicpro环境下利用之前的hifiasm的fa文件和上一步的bam文件产生一个bin文件、一个fa文件、一些AGP文件
mamba activate hicpro
~/pack/yahs/yahs ../GN.asm.hic.p_ctg.fa hic_sormadup.bam
产生fai文件
`samtools faidx yahs.out_scaffolds_final.fa```
标签:..,ctg,组装,基因组,fa,hic,GN,挂载,asm From: https://www.cnblogs.com/ft-2024/p/18397010