bam
  • 2024-10-26利用samtools flagstat 对bam文件统计比对率的时候看的是哪个mapping rate
     001、在samtoolsflagstat对bam的统计结果中,一共有三个比对率的结果: 002、比对率结果应该以哪个为准?答案是:以3为准 003、以山羊、绵羊的fastq数据,绵羊的参考基因组进行比对测试a、如果以primarymapped对比,基本看不出两者的差异(其中S是sheep,G是goat) b、如果以
  • 2024-10-26samtools flagstat参数对比对的bam文件进行统计
     001、命令samtoolsflagstatsample_name.sorted.bam>sample_name.flagstat.txt##基本命令  a、生成的文件是一个包含16行的文本文件: 002、(base)[b20223040323@admin2workdir]$catAsiatic1.flagstat.txt##查看统计结果622520785+0intotal
  • 2024-10-17基因组质量评估mapping法
    将测序后的reads与组装好的基因组做alignment(校准),这个过程就被叫做mapping。Mapping之后生成的SAM/BAM文件,可以获取readsmapping回参考基因组的信息(比如mappingrate,coverage,depth),从而评估基因组组装的质量。1.Mapping工具readsmappingtoolsIlluminaDNA-seqreadsB
  • 2024-08-10[E::bgzf_read_block] Invalid BGZF header at offset 21062256536
     001、samtools排序报错如下:[E::bgzf_read_block]InvalidBGZFheaderatoffset2106225653 问题原因:samtools转为sam格式为bam文件格式;和bam排序samtools格式不一致: a、将sam文件转换为bam文件用的samtools版本为:(base)[sy20213040737@admin2batch1]$samtools
  • 2024-07-23重测序数据处理得到vcf文件
    重测序数据处理得到vcf文件文章目录重测序数据处理前言1.数据是rawdata,需用fastp对数据进行质控和过滤2.利用getorganelle软件组装叶绿体基因组3.检查基因组大小,确认是否完整,然后和已知的红毛菜科叶绿体基因组一起构树4.根据树形结果挑选坛紫菜个体,为了后续分析方
  • 2024-07-11生信软件25 - 三代测序数据灵敏比对工具ngmlr
    1.ngmlr简介CoNvexGap-costMentsforLongReads(ngmlr)是一种长reads比对工具,可以将PacBio或OxfordNanopore灵敏地与(大)参考基因组(比如人类参考基因组)对齐,能快速和正确地比对reads,包括那些跨越(复杂)结构变异的reads。Ngmlr使用结构变异(SV)感知的k-mer搜索来找到reads的近
  • 2024-07-06YOLOv8改进 | 注意力机制 | 增强模型在图像分类和目标检测BAM注意力【小白必备 + 附完整代码】
    秋招面试专栏推荐:深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转
  • 2024-04-15多个生信分析上游分析Snakemake的编写
    准备基本的包condainstall-cbiocondasnakemakesamtoolshisat2trim-galoresubread-y准备数据wgethttps://ftp.ensembl.org/pub/release-110/fasta/sus_scrofa/dna/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa.gzwgethttps://ftp.ensembl.org/pub/release-110/gtf/sus_
  • 2024-04-15chip分析
    参考博客https://zhuanlan.zhihu.com/p/377600056https://www.jianshu.com/p/96688fecd864https://zhuanlan.zhihu.com/p/676395563查看质控#使用fastqc查看质控结果fastqc-t40-o1_rawdata_qc/0_rawdata/*.fastq.gz1>1_fastqc.log#使用MutliQC整合FastQC结果#m
  • 2024-03-01动手学强化学习(二):BAM代码
    一、greedyimportnumpyasnpimportmatplotlib.pyplotaspltclassBernoulliBandit:"""伯努利多臂老胡机,输入K表示拉杆个数"""def__init__(self,K):self.probs=np.random.uniform(size=K)#随机生成K个0~1的数,作为拉动每根拉杆的获奖
  • 2023-12-05上下游分析
    上游分析这里说的上游分析,通常指的是NGS组学数据的标准化流程,比如WGS/WES的fastq—>bam—>vcfRNA-seq的fastq—>bam—>表达矩阵-差异基因ChIP-seq等的fastq—>bam—>peaks(bed)—>motif(特征)理论上完全练习实践掌握其中一个,是算作入门生信,可以通过自学获取另外一些
  • 2023-11-2816-有参转录组实战2-将批量转录组比对到基因组上
     #1,我们先下载毛果杨的基因组文件和GFF注释文件,自己去NCBI下:(https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000002775.5/),选Genbank的。 #2,我们将GFF文件和genomic.fna文件上传到服务器,并重命名下,Ptri_genome.gff和Ptri_genome.fa。#3,安装hisat2condainstallhisat2
  • 2023-10-102022-006 在bam中检查指定突变
     转载2022-006在bam中检查指定突变SSSimonYang个人微信公众号SSSimonYang​关注他 2人赞同了该文章需求检查突变在bam文件中存不存在。注意:以下操作均需要bam文件按坐标排序并建立索引。[email protected]_sorted.bam
  • 2023-10-10gatk UnifiedGenotyper
    使用UnifiedGenotyper注意如下:(1)输入:.recalibration.bam(2)输入:.recalibration.bai(3)dbSNP:vcfdbsnp,有头部;有与DNA一样的染色体顺序;有idx文件;UnifiedGenotyperUnabletoreadindexfile,forinputsource:vcf.idxSorryforthedelayedresponse.Itturnsoutthatthisisa
  • 2023-10-06gatk线程数对标记重复速度的影响
     001、[b20223040323@admin1test]$lsSRR1770413.sorted.bamSRR1770413.sorted.markdup_metrics.txtSRR1770413.sorted.markdup.bamstep4.slurm[b20223040323@admin1test]$timegatk--java-options"-Xmx100g-XX:ParallelGCThreads=1"MarkDu
  • 2023-10-06线程数对samtools对bam文件构建索引速度的影响
     001、(base)[b20223040323@admin1test]$lsERR2985610.sorted.markdup.bam##1线程(base)[b20223040323@admin1test]$timesamtoolsindex-@1ERR2985610.sorted.markdup.bamreal1m3.268suser1m35.792ssys0m5.750s
  • 2023-09-22bam文件去重复
     建库过程PCA扩增过程中引入重复序列,会对变异检测结果产生影响,重复的DNA片段会比对到参考基因组的相同位置,根据这一特点来进行去重复。 001、gatk(picard标记重复)gatkMarkDuplicates-Isample01.sorted.bam-Osample01.sorted.markdup.bam-Msample01.sorted.markdup_m
  • 2023-08-29生信: 一起读官方文档 GATK2.1版本 篇
    一起读官方文档GATK2.1版本篇参考文章:GATK使用:https://www.plob.org/article/7070.htmlGATK介绍GATK做什么的?它主要用于从sequencing数据中进行variantcalling,包括SNP、INDEL。比如现在风行的exomesequencing找variant,一般通过BWA+GATK的pipeline进行数据分析。BWA
  • 2023-08-26转录组分析流程
    condainstallsra-tools#先找到SRAdatabase中的基因(SRA_accessionList.csv)#批量下载基因awk'{print"prefetch"$1"&"}'SRA_accessionList.csv>run_prefetch.sh#利用awk生成代码并保存再shell文件中#将sra转换为fastqfastq-dumpxxx.sra#下载参考基因组g
  • 2023-07-05加速体细胞突变检测分析流程-系列2(ctDNA等高深度样本)
    Sentieon●体细胞变异检测系列-2  Sentieon致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升NGS数据处理的效率、准确度和可靠性。 针对体细胞变异检测,Sentieon软件提供两个模块:TNscope和TNhaplotyer2。 TNscope:此模
  • 2023-07-05体细胞突变检测分析流程-系列1( WES&Panel)
    Sentieon●体细胞变异检测-系列1 Sentieon致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升NGS数据处理的效率、准确度和可靠性。 针对体细胞变异检测,Sentieon软件提供两个模块:TNscope和TNhaplotyer2。 TNscope:此模块
  • 2023-05-22NIPT检测流程
      NIPT检测流程 转自:https://pzweuj.github.io/2019/03/20/NIPT.htmlNIPT即非侵入性产前检测,适用于检测21、18、13号染色体的三体综合征。实际上,NIPT的分析流程与CNV的分析流程相似。主要的分析流程是先得到唯一比对的reads,再提取每条染色体的reads来做一个Z检验得到Z值
  • 2023-02-11samtools 实现对bam文件统计测序深度 和 比对率
     001、利用samtools计算每一个位点的测序深度[b20223040323@admin1test]$ls##测试bam文件SRR21814498.sorted.markdup.bamSRR2181
  • 2023-02-08去除Bam文件中的PCR 重复
    1.使用samtools去除重复[email protected]|samtoolsfixmate-m-@20--|samtoolssort-@20|samtoolsmarkdup-r-@20-->file.rmdup.bam
  • 2022-12-27ATAC-seq分析:数据介绍(2)
    1.简介ATACseq(AssayforTransposase-AccessibleChromatinusingsequencing)使用转座酶在测序前有效地片段化可访问的DNA(DNA可极性)。结果提供了一种绘制可访问/开