首页 > 其他分享 >基因组组装和挂载(1)

基因组组装和挂载(1)

时间:2024-09-04 17:38:21浏览次数:12  
标签:.. ctg 组装 基因组 fa hic GN 挂载 asm

1.hifiasm组装

hifi + hic

hifiasm -o GN.asm -t48 --h1 GN_h1.cl.fq.gz --h2 GN_h2.cl.fq.gz GN_hifi.fq.gz 2> GN.asm.log

这一步是改变序列和文件格式

for i in *ctg.gfa; do n=$(echo $i | awk -F '_' '{print $1"_"$2}'); awk '/^S/{print">"$2;print $3}' $i > $n\_ctg.fa; done

对组装评估,产生报告

quast-lg.py -t48 -o quast_GN GN.asm.hic.p_ctg.fa GN.asm.hic.hap1.p_ctg.fa GN.asm.hic.hap2.p_ctg.fa

2.、以GN为例,形成限制酶切位点、contigs长度列表、以及参考序列index,建立原始数据路径

打开hicpro运行环境

mamba activate HiC-Pro_v3.1.0/hicpro

链接到需要使用的文件

ln -s ../../hifiasm/GN.asm.hic.p_ctg.fa ./

调用digest_genome.py(hicpro自带的限制酶切信息位点),形成限制酶切位点,其中,-r指定酶的名称或序列,在代码给了如下字典:

~/pack/HiC-Pro/bin/utils/digest_genome.py GN.asm.hic.p_ctg.fa -r dpnii -o GN.asm.hic.p_ctg.dpnii.bed

SeqKit是一种跨平台的、极快的,全面的fasta/q处理工具

seqkit fx2tab -n -l GN.asm.hic.p_ctg.fa > GN.asm.hic.p_ctg.table

Bowtie 2是一种超快速、高效使用内存的工具,用于将测序读段与长参考序列比对。它特别擅长将大约50个字符到100个字符的读段与相对较长的(如哺乳动物)基因组比对。

bowtie2-build --threads 48 GN.asm.hic.p_ctg.fa GN.asm.hic.p_ctg

能够对fasta 序列建立一个后缀为.fai 的文件,根据这个.fai 文件和原始的fastsa文件, 能够快速的提取任意区域的序列

samtools faidx GN.asm.hic.p_ctg.fa

创建文件夹并打开

mkdir -p rawdata/samples1/; cd rawdata/samples1

链接到原始数据中并命名

ln -s ../../../../rawdata/hic/GN_h1.cl.fq.gz hic_R1.fastq.gz
ln -s ../../../../rawdata/hic/GN_h2.cl.fq.gz hic_R2.fastq.gz

3.复制安装路径下的配置文件到当前路径,更改必要的参数

复制配置文件并打开

cp ~/pack/HiC-Pro/config-hicpro.txt ./
vim config-hicpro.txt

更改参数

# N_CPU = 60
# SORT_RAM = 180000M
# BOWTIE2_IDX_PATH =
/mnt/sda/home/liutongjian/data/240419_Chrysantha_Genomes/hicasm/Yan02
# REFERENCE_GENOME = Yan02_asm2.hic.p_ctg
# GENOME_SIZE =
/mnt/sda/home/liutongjian/data/240419_Chrysantha_Genomes/hicasm/Yan02/Yan02_asm2.hic.p_ctg.table
# GENOME_FRAGMENT =
/mnt/sda/home/liutongjian/data/240419_Chrysantha_Genomes/hicasm/Yan02/Yan02_asm2.hic.p_ctg.dpnii.bed
# LIGATION_SITE = GATCGATC

输出hicpro_out文件夹,-i输入文件

~/pack/HiC-Pro/bin/HiC-Pro -i rawdata -o hicpro_out -c config-hicpro.txt

4.YaHS scaffolding

下载biobambam并激活环境

mamba create -n biobambam biobambam
mamba activate biobambam

在hicasm目录下创建yahs并打开文件夹。YaHS是一种使用 Hi-C 数据的scaffold工具。它依赖于一个新的算法进行重叠群连接检测,该算法考虑了 Hi-C 信号的拓扑分布,旨在将真实的交互信号与映射噪声区分开来。

mkdir yahs; cd yahs

输入bam文件,进行并行排序和重复标记

默认输出坐标,这里选择输出queryname(查询名称)

bamsormadup threads=24 SO=queryname
<../hicpro_out/bowtie_results/bwt2/samples1/hic_GN.asm.hic.p_ctg.bwt2pairs.bam
>hic_sormadup.bam

在pack环境clone yahs,并进入目录make

git clone https://github.com/c-zhou/yahs.git
make

在hicpro环境下利用之前的hifiasm的fa文件和上一步的bam文件产生一个bin文件、一个fa文件、一些AGP文件

mamba activate hicpro 
 ~/pack/yahs/yahs ../GN.asm.hic.p_ctg.fa hic_sormadup.bam

产生fai文件

`samtools faidx yahs.out_scaffolds_final.fa```

标签:..,ctg,组装,基因组,fa,hic,GN,挂载,asm
From: https://www.cnblogs.com/ft-2024/p/18397010

相关文章

  • 要在现有的 Thin Pool 薄池中创建一个新的卷,并将其作为存储挂载、存储
    要在现有的`data`薄池中创建一个新的卷,并将其作为存储挂载,你可以按照以下步骤操作:###1.创建新的逻辑卷在`data`薄池中创建一个新的逻辑卷(类似于`vm-171-disk-0`),你可以使用以下命令:```bashlvcreate--thin--virtualsize<size>--name<new_volume_name>pve/data`......
  • Openwrt中挂载NTFS格式USB硬盘无法正常显示中文目录及文件的解决办法
    在试图挂载硬盘使用alist作视频站的时候,我发现Openwrt访问自动挂载上的USB硬盘目录时,只能看得到英文的目录和文件。这就是固件自动挂载不太灵光的地方了自动挂载是Openwrt导航栏-系统-挂载点的[自动挂载磁盘]选项与[挂载已连接的设备]按钮。平常不想动手敲命令的时候固然很方便,但......
  • centos7 数据盘分区并挂载
    一、查看磁盘情况方式一lsblk注:根据上图已经确认有一个新的数据盘4T方式二fdisk-l注:根据上图已经确认有一个新的数据盘4T。二、使用parted命令创建新分区注:以上截图创建新分区完成,具体命令如下:1、选择数据盘输入:parted/dev/vdb2、转换gpt分区输入:mklabelgpt注:出......
  • Kubernetes利用Volume挂载ConfigMap与Secret
    1、概述在Kubernetes集群中,应用的配置管理是一个关键且复杂的任务。随着应用的扩展和微服务架构的普及,传统的配置文件管理方式已经难以满足动态、灵活的配置需求。幸运的是,Kubernetes提供了强大的配置管理能力,其中ConfigMap和Secret结合Volume挂载的方式是实现这一目标的重要......
  • Linux磁盘挂载
    Linux磁盘挂载硬盘分区表硬盘分区表是存储在硬盘上的一种数据结构,它定义了硬盘上各个分区的位置、大小、类型和其他属性。硬盘分区表是操作系统识别和管理硬盘分区的基础,它对于硬盘的使用和维护起到关键作用。分区表类型主要有两种类型的硬盘分区表MBR(MasterBootReco......
  • 如何使用clouddrive 在QNAP 威联通中挂载阿里云盘、天翼云盘、115网盘等
    hello大家好,我是你们的新伙伴,稳重的大王~创作立场:原创不易,拒绝搬运~》》日常求粉~QNAP威联通自带的hybridmount以及HBS3,虽然可以做到挂载、同步网盘数据,但是支持的国内网盘有限,本文给大家介绍一款非常好用的软件——clouddrive文章后面贴上app安装包下载地址,下载下来之后,......
  • Linux--实现U盘,SD卡的自动挂载
    1.编辑/etc/init.d/rsC或S10mdev文件在/etc/init.d/rsC或S10mdev中加入以下语句:echo/sbin/mdev>/proc/sys/kernel/hotplug当有热插拔事件产生时,内核会调用/proc/sys/kernel/hotplug文件里指定的应用程序来处理热插拔事件。把/sbin/mdev写到/proc/sys/kernel/hotplug文件......
  • Android 启动时判断overlay fs是否挂载
    一、背景Android新版本使用super分区替代原来的system、vendor后,就采用了overlayfs文件系统。这种文件系统在执行adbremount后,修改system、vendor分区内容并不是真正存储在原来的位置,而是单独利用super剩余空间或data分区存了一份新的,原来的文件并没有改变。系统使用时判断......
  • 【VMware VCF】VCF 5.2:挂载远程 vSAN 数据存储。
    VMwarevSAN解决方案中,为了充分利用vSANHCI集群内的存储资源,vSANHCI和vSANHCI集群之间可以相互共享存储资源,这种解决方案早期叫vSANHCIMesh,现在被称为具有数据存储共享的vSANHCI(vSANHCIwithdatastoresharing)。VMwarevSAN集群根据主机磁盘的组成方式分为Orig......
  • windows开机不自动挂载磁盘的方法-切记不要使用中文名称
    本人的电脑系统为win11 开机不挂载某块磁盘的理由1.本人电脑上有个仓库盘是机械硬盘,并不是每次开机都要用到,开机不挂载也许有利于增加数据盘的寿命2.挂载了数据盘,有时候打开文件页面会比较慢,不够丝滑3.通过本文的方法实现了:开机不自动挂载,使用中挂载和卸载足够方便步骤一:......