首页 > 其他分享 >基因组之单倍型基因混合数据组装解读(五)

基因组之单倍型基因混合数据组装解读(五)

时间:2024-12-23 22:31:09浏览次数:8  
标签:ctg HiFi 组装 基因组 单倍 prefix hic ONT

1、定义变量:

HiFi 和 ONT 分别存储了HiFi和ONT(Oxford Nanopore Technology)测序平台产生的原始数据文件的路径。

hic1 和 hic2 存储了HiC(Chromosome Conformation Capture-on-Chip)技术的两个测序文件的路径,这些文件被压缩为.gz格式。
prefix 定义了输出文件的前缀,这里使用的是Fragaria_vesca。

$ HiFi= …/deliver/rawdata/HiFi.fastq 
$ ONT= …/deliver/rawdata/ONT.fastq 
$ hic1= …/deliver/rawdata/HiC_1.fastq.gz 
$ hic2= …/deliver/rawdata/HiC_2.fastq.gz 
$ prefix=Fragaria_vesca 

2、运行hifiasm进行基因组组装:

$ hifiasm -o ${prefix} -t 26 --ul ${ONT} --h1 ${hic1} --h2 ${hic2} ${HiFi} 2> out.log 

hifiasm 是一个用于基因组组装的软件。
-o ${prefix} 指定输出文件的前缀。
-t 26 指定使用26个线程进行计算。
–ul ${ONT} 使用Ultra-long reads(长读长)数据,这里指的是ONT数据。
–h1 ${hic1} 和 --h2 ${hic2} 使用HiC技术的数据,帮助组装过程中的scaffolding(将contigs排列到scaffolds)。
${HiFi} 是HiFi数据文件。
2> out.log 将标准错误输出重定向到out.log文件中。

3、提取HiC产生的contigs:

$ awk '/^S/{print ">"$2;print $3}' ${prefix}.hic.hap1.p_ctg.gfa > ${prefix}.hic.hap1.p_ctg.fa 
$ awk '/^S/{print ">"$2;print $3}' ${prefix}.hic.hap2.p_ctg.gfa > ${prefix}.hic.hap2.p_ctg.fa

这两行命令使用awk工具从GFA(Graph Fragment Assembly)文件中提取序列信息。
/^S/ 匹配以S开头的行,这通常表示序列的开始。
{print “>”$2;print $3} 打印序列的名称($2)和序列本身($3)。
${prefix}.hic.hap1.p_ctg.fa 和 > ${prefix}.hic.hap2.p_ctg.fa 将输出重定向到两个不同的FASTA文件中,分别存储两个haploid(单倍体)的contigs。这是基因组组装流程的一部分,涉及到长读长数据和HiC数据的整合,以产生更准确的基因组组装结果。

4、输出结果

Hi-C partition输出文件

1、prefix.hic.p_ctg.gfa
这是primary contigs的组装图。这个文件包含了主要contigs的组装信息,展示了基因组的初步组装结果。
2、prefix.hic.hap1.p_ctg.gfa
这是完全分型的单倍型1的contig图,每个contig都被完全分型。这个文件提供了单倍型1的详细组装信息。
3、prefix.hic.hap2.p_ctg.gfa
这是完全分型的单倍型2的contig图,每个contig都被完全分型。这个文件提供了单倍型2的详细组装信息

标签:ctg,HiFi,组装,基因组,单倍,prefix,hic,ONT
From: https://blog.csdn.net/2401_89507557/article/details/144676058

相关文章

  • 基因组之单倍型基因组数据处理(二)
    基因组之单倍型基因组数据处理(二)那么,今天让我们来看第二期,关于对于下机后的数据的处理,使其能够符合我们的分析要求,让我们的分析能够进入下一步的组装。1.Smrtlink12简介:PacBio开发的处理HiFi测序数据的open-source工具;基于网页的端对端工作流程管理,也可以用linuxco......
  • 集成测试,也叫组装测试或联合测试
    一、定义集成测试是软件测试中的一个阶段,它是在单元测试的基础上,将各个软件单元按照设计要求(如根据软件的架构设计)组装起来进行测试。其目的是检验这些单元之间的接口是否正确,以及它们组合在一起后是否能正确工作,确保各个单元能够协同工作,形成一个完整的、符合预期功能的系统。......
  • 使用Python实现基因组数据处理
    基因组数据处理在现代生物学和医学研究中扮演着重要角色。通过分析基因组数据,我们可以揭示生物体的遗传信息,识别与疾病相关的基因变异,从而推动精准医学的发展。Python作为一种高效且易用的编程语言,提供了丰富的生物信息学库和工具,使得基因组数据处理变得更加便捷。本文将详......
  • 台式组装机电脑配置清单
    一、普通办公普通办公的组装电脑配置一般我们选用inter的,不用考虑adm,对于普通办公来说,使用adm有点小材大用,浪费RMB。intel的十代赛扬G5905(2核2线程)虽然是低端系列的,但基本的办公是完全能满足的。配件   品牌型号   价格CPU   intel赛扬G5905双核双线程   ......
  • 深度学习基因组学
    Nature与Science重磅!AI与生物医药迎来百年来最重磅进展!https://mp.weixin.qq.com/s/Vw3Jm4vVKP14_UH2jqwsxA第一天理论部分深度学习算法介绍1.有监督学习的神经网络算法1.1全连接深度神经网络DNN在基因组学中的应用举例1.2卷积神经网络CNN在基因组学中的应用举例1.3循......
  • 家具组装的智慧引导:智能工具与产品说明书的高效协作
    在家具市场中,消费者在购买家具后往往需要自行组装。然而,传统的产品说明书往往存在信息表述不清、步骤繁琐等问题,给消费者的组装过程带来诸多不便。为了帮助消费者更轻松地完成家具组装,将HelpLook与家具产品的产品说明书相结合,成为了一个切实可行的解决方案。一、家具市场的特点......
  • 无人机飞手教员培训持证,必须会组装,模拟,维修才能带好学员
    无人机飞手员的教培训不应仅仅局限于获取飞行执照或证书,而应是一个全面等多、方面的深入能力且,实践以确保导向能够的过程全面。、一个有效地合格的指导无人机学员飞。手教员不仅需要掌握扎实的飞行技能,还需要具备组装、模拟训练、维修。组装能力了解无人机的组装过程不仅有......
  • Nature Genetics | Rajeev K. Varshney综述:解锁植物遗传学的端粒到端粒(T2T)基因组组装
    近期,RajeevK.Varshney团队在Naturegenetics发表综述文章:Unlockingplantgeneticswithtelomere-to-telomeregenomeassemblies。摘要连续基因组序列组装将帮助我们实现作物转化基因组学的全面潜力。最近在测序技术方面的进步,尤其是长读长测序策略,使得构建无间隙的端粒到端粒(T......
  • 豌豆群体基因组撞车NG了?
    首个豌豆大规模群体基因组与GWAS见刊今天,浙江省农科院与浙江大学联合在NatureGenetics(NG)上发表豌豆群体基因组文章:ReferencegenomesequenceandpopulationgenomicanalysisofpeasprovideinsightsintothegeneticbasisofMendelianandotheragronomictraits。首次......
  • Liftoff:基于参考基因组的基因组注释
    Liftoff是一个可以准确根据同一物种或近缘物种基因组进行基因注释映射的工具(与liftOver进行不同基因组版本的染色体位置转换有点类似)。该工具仅需两个基因组序列和参考基因组的基因注释文件即可进行基因注释。Liftoff使用minimap2将参考基因组的基因序列与目标基因组比对,这样的好......