首页 > 其他分享 >基因测序中碱基质量值的计算

基因测序中碱基质量值的计算

时间:2024-01-30 16:12:01浏览次数:19  
标签:distances 某点 测序 碱基 基因 距离 质量 double 质心

当使用k-means将碱基聚类后,可使用下面的方法计算碱基质量

#include <stdio.h>
#include <math.h>
int main() { double proba = 0.0; // 某点的概率值初始化为0.0 double sum_distances = 0.0; // 某点到所属质心的距离除以到每个质心距离的四次方总和初始化为0.0 int num_centers = 4; // 质心数量为4个 double distances[4] = { 1.0, 20.0, 100.0, 100.0 }; // 某点距离四个质心的距离 double label_distance = 1.0; // 某点距离所属质心的距离 for (int i = 0; i < num_centers; i++) { sum_distances += pow(label_distance / distances[i], 4); // 某点到所属质心的距离除以到每个质心距离的四次方,并累加到总和中 } proba = 1.0 / sum_distances; // 计算概率值 double log = -10 * log10(1 - proba); // 计算对数值 char qual = 33 + (log < 40 ? log : 40); // 根据对数值计算一个字符,即质量值 printf("概率: %f, 对数: %f, 质量: %c\n", proba, log, qual); // 打印概率、对数和质量值 return 0; }

运行结果如下

 质量值是Q20,则错误识别的概率是1%,即错误率1%,或者正确率是99%;
 质量值是Q30,则错误识别的概率是0.1%,即错误率0.1%,或者正确率是99.9%;
 质量值是Q40,则错误识别的概率是0.01%,即错误率0.01%,或者正确率是99.99%;

标签:distances,某点,测序,碱基,基因,距离,质量,double,质心
From: https://www.cnblogs.com/lizhiqiang0204/p/17997335

相关文章

  • 易基因:ChIP-seq等揭示人畜共患寄生虫弓形虫的蛋白质乳酸化和代谢调控机制|项目文章
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。弓形虫(Toxoplasmagondii)是弓形虫病(toxoplasmosis)广泛传播的寄生虫病的病原体之一,但其生物学特性仍然知之甚少。乳酸(Lactate)作为葡萄糖代谢的产物,不仅在包括弓形虫在内的多种生物体中作为能量来源,还是一种参与基因激......
  • 100个GEO基因表达芯片或转录组数据处理之GSE26899(008)
    写在前边虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因......
  • 22-有参转录组实战8-基因功能注释_GO_KEGG_swissprot_pfam_TFDB_iTAK
    #进行功能注释时,我们只用到蛋白文件,就是上一期提取序列的文件“Ptri.protein.fa”。#使用命令“grep-c">"Ptri.protein.fa”统计下“>”的个数,发现有52400个。#新建文件夹“swissprot”wgethttps://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase......
  • 21-有参转录组实战7-基因序列提取
    #本教程仿自于“https://zhuanlan.zhihu.com/p/439168788”。#正则表达式教程https://www.runoob.com/regexp/regexp-tutorial.html。#1,提取转录本gffreadPtri_genome.gtf-gPtri_genome.fa-wPtri.transcripts.fa#2,CDSgffreadPtri_genome.gtf-gPtri_genome.fa-xPt......
  • 【卡梅德生物】基因编辑技术分享
        作为研究最为深入的基因编辑CRISPR/Cas技术,主要包括sgRNA(single-guideRNA)和Cas9蛋白两个作用元件,可以实现基因定点的精确编辑。sgRNA引导Cas9蛋白识别基因组特定位点,精确剪切待编辑的生物体基因组,导致双链断裂(DSB,doublestrandbreak),生物体随后利用非同源末端连接(NH......
  • 易基因:cfDNA甲基化在器官和组织损伤检测中的强大力量
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。检测器官和组织损伤对于早期诊断、治疗决策和监测疾病进展至关重要。由于DNA甲基化模式可以响应组织损伤而改变,甲基化检测提供了一种有前途的方法,在早筛早诊、疾病进展监测、治疗效果和器官移植评估等可行性方面具有......
  • GS | Julius报告:基因组预测的准确性
    JuliusVanderWerf是新英格兰大学(UniversityofNewEngland,UNE)教授,专门从事遗传评估、育种计划设计、育种目标和基因组选择方面的研究。他指导了60多名博士生。2003年至2019年,他担任绵羊CRC遗传学项目的经理,在此期间,澳大利亚绵羊产业实施了基因组选择。Julius曾是多个行业......
  • GS | Julius报告:利用基因组信息预测遗传变化
    JuliusVanderWerf是新英格兰大学(UniversityofNewEngland,UNE)教授,专门从事遗传评估、育种计划设计、育种目标和基因组选择方面的研究。他指导了60多名博士生。2003年至2019年,他担任绵羊CRC遗传学项目的经理,在此期间,澳大利亚绵羊产业实施了基因组选择。Julius曾是多个行业......
  • 易基因: WGBS+RNA-seq揭示黄瓜作物的“源-库”关系受DNA甲基化调控|项目文章
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。作物产量取决于库(sink,获得同化物)的潜力和源(source,供给同化物)的能力,“源—库”关系的优化对作物产量调控具有重要意义。黄瓜(CucumissativusL.)是世界范围内广泛种植的蔬菜,是我国具有巨大经济价值的七大蔬菜之一,叶片和......
  • 机器学习-概率图模型系列-隐含马尔科夫-观测序列的概率计算-35
    目录1.暴力求解法2.前向算法求HMM观测序列的概率3.从后往前推后向算法1.暴力求解法任意一条路径都有可能得到需要的观测结果:如果我们的隐藏状态数N非常多的那就麻烦了,此时我们预测状态有NT种组合,算法的时间复杂度是O(TNT)阶的2.前向算法求HMM观测序列的概率在前向算......