首页 > 其他分享 >如何统计参考基因组的大小

如何统计参考基因组的大小

时间:2023-06-24 23:55:04浏览次数:37  
标签:ARS 016772045.1 GCF 参考 基因组 v2.0 UI 统计 Ramb

 

以绵羊为例:

 

001、下载绵羊参考基因组

a、

 

b、

 

[root@PC1 test02]# wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/016/772/045/GCF_016772045.1_ARS-UI_Ramb_v2.0/GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
[root@PC1 test02]# gunzip GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna

 

002、统计基因组的大小

a、awk命令实现

[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
[root@PC1 test02]# awk '$0 !~ /^>/ {sum += length} END {print sum}' GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
2628146905

 

b、samtools + awk实现

[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
[root@PC1 test02]# samtools faidx GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.fai
[root@PC1 test02]# awk '{sum += $2} END {print sum}' GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.fai
2628146905

 

003、统计N的数目

[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
[root@PC1 test02]# grep -v "^>" GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna | grep -i -o "N" | wc -l
42000

 

 

标签:ARS,016772045.1,GCF,参考,基因组,v2.0,UI,统计,Ramb
From: https://www.cnblogs.com/liujiaxin2018/p/17501904.html

相关文章

  • linux 中shell脚本实现统计每一个read的长度
     001、[root@PC1test02]#lstest.fastq[root@PC1test02]#cattest.fastq##测试fastq数据@SRR8442980.988/2AAGG+:[email protected]/2AAGGTC+:FFF:,@SRR8442980.1134/1AAAAAAAATATAATTCCA+FFFFFFFFFFFFFFFFFF[root@PC1test02]#awk'{if((NR%......
  • 课程成绩统计程序1-3
    课程成绩统计程序系列分析博客采取总——分模式总体分析:1.最终设计类图:2.最终设计圈复杂度:3.最终设计代码:点击查看代码importjava.util.*;importjava.text.Collator;importjava.util.TreeMap;publicclassMain{publicstaticvoidmain(String[]args)......
  • 斯坦福2020年免费新课-CS221人工智能原理与技术-视频、ppt、参考书籍分享
        分享一套斯坦福大学在2020年初,2019年底放出一门免费精品课程-人工智能原理与技术课程,对于对于春节想要系统学习人工智能知识朋友绝对不容错过。课程介绍    这门课主要讲什么?网络搜索、语音识别、人脸识别、机器翻译、自动驾驶和自动调度有什么共同之处呢?这些都是复杂......
  • C/C++经典面试题1(精心整理,附参考答案)
    1.说一下static关键字的作用2.说一下C++和C的区别(1)设计思想上(2)语法上3.说一说c++中四种cast转换(1)const_cast(2)static_cast(3)dynamic_cast(4)reinterpret_cast(5)为什么不使用C的强制转换?4.请说一下C/C++中指针和引用的区别?5.给定三角形ABC和一点P(x,y,......
  • Python播放GIF图片(ChatGPT代码参考)
    在网上找了好几个方法,最后还是出现各种问题,解决不了播放GIF的功能。最后,通过ChatGPT给出了简单明了的方案(使用第三方库imageio和matplotlib.animation来实现),调试直接通过。但有小瑕疵,就是显示gif时隐藏掉坐标轴的功能无效,于是再做了一下优化。 [最终代码]显示GIF动画:imp......
  • NC20477 [ZJOI2008]树的统计COUNT
    题目链接题目题目描述一棵树上有n个节点,编号分别为1到n,每个节点都有一个权值w。我们将以下面的形式来要求你对这棵树完成一些操作:I.CHANGEut:把结点u的权值改为tII.QMAXuv:询问从点u到点v的路径上的节点的最大权值III.QSUMuv:询问从点u到点v的路径上的节点......
  • 自然语言处理必读经典-统计自然语言处理基础
    本书介绍    近年来,统计方法已经成为处理自然语言文本主流。本书是第一本全面介绍统计自然语言处理的基础文本。本书包含了构建自然语言处理工具所需的所有理论和算法。它提供了广泛但严格的数学和语言学基础,以及统计方法的详细讨论,允许学生和研究人员构建自己的代码和模型。这......
  • 机器学习新-统计机器学习第二版
    本书介绍    统计领域不断受到科学和工业带来的问题的挑战。在早期,这些问题往往来自农业和工业试验,范围相对较小。随着计算机和信息时代的到来,统计问题在规模和复杂性上都发生了爆炸。数据存储、组织和搜索领域的挑战导致了“数据挖掘”的新领域;生物学和医学中的统计和计算问题......
  • 人工智能数学基础-数据科学中的概率统计学
        数据科学是一个研究领域,涉及通过使用各种科学方法,算法和过程从大量数据中提取见解。它可以帮助您从原始数据中发现隐藏的模式,允许您从结构化或非结构化数据中提取知识。数据科学主要以统计学、机器学习、数据可视化以及领域知识为理论基础,其主要研究内容包括数据科学基础理......
  • 机器学习基础教材-《统计学习与数据分析介绍》
    本书介绍    本入门级统计教科书主要讲解发展和培养统计思维所需的基本概念和工具。它提供了描述性,归纳性和探索性的统计方法,并指导读者完成定量数据分析的过程。在实验科学和跨学科研究中,数据分析已成为任何科学研究的组成部分。诸如判断数据的可信度,分析数据,评估所获得结果的......