基因测序中碱基质量值的计算

时间：2024-01-30 16:12:01浏览次数：34

当使用k-means将碱基聚类后，可使用下面的方法计算碱基质量

#include <stdio.h>
#include <math.h>

int main() {

    double proba = 0.0; // 某点的概率值初始化为0.0

    double sum_distances = 0.0; // 某点到所属质心的距离除以到每个质心距离的四次方总和初始化为0.0

    int num_centers = 4; // 质心数量为4个

    double distances[4] = { 1.0, 20.0, 100.0, 100.0 }; // 某点距离四个质心的距离

    double label_distance = 1.0; // 某点距离所属质心的距离

    for (int i = 0; i < num_centers; i++) {

        sum_distances += pow(label_distance / distances[i], 4); // 某点到所属质心的距离除以到每个质心距离的四次方，并累加到总和中
    }

    proba = 1.0 / sum_distances; // 计算概率值

    double log = -10 * log10(1 - proba); // 计算对数值

    char qual = 33 + (log < 40 ? log : 40); // 根据对数值计算一个字符，即质量值

    printf("概率: %f, 对数: %f, 质量: %c\n", proba, log, qual); // 打印概率、对数和质量值

    return 0;
}

运行结果如下

质量值是Q20，则错误识别的概率是1%，即错误率1%，或者正确率是99%；
质量值是Q30，则错误识别的概率是0.1%，即错误率0.1%，或者正确率是99.9%；
质量值是Q40，则错误识别的概率是0.01%，即错误率0.01%，或者正确率是99.99%；

标签：distances,某点,测序,碱基,基因,距离,质量,double,质心
From： https://www.cnblogs.com/lizhiqiang0204/p/17997335

易基因：ChIP-seq等揭示人畜共患寄生虫弓形虫的蛋白质乳酸化和代谢调控机制｜项目文章
大家好，这里是专注表观组学十余年，领跑多组学科研服务的易基因。弓形虫（Toxoplasmagondii）是弓形虫病（toxoplasmosis）广泛传播的寄生虫病的病原体之一，但其生物学特性仍然知之甚少。乳酸（Lactate）作为葡萄糖代谢的产物，不仅在包括弓形虫在内的多种生物体中作为能量来源，还是一种参与基因激......
100个GEO基因表达芯片或转录组数据处理之GSE26899（008）
写在前边虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因......
22-有参转录组实战8-基因功能注释_GO_KEGG_swissprot_pfam_TFDB_iTAK
#进行功能注释时，我们只用到蛋白文件，就是上一期提取序列的文件“Ptri.protein.fa”。#使用命令“grep-c">"Ptri.protein.fa”统计下“>”的个数，发现有52400个。#新建文件夹“swissprot”wgethttps://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase......
21-有参转录组实战7-基因序列提取
#本教程仿自于“https://zhuanlan.zhihu.com/p/439168788”。#正则表达式教程https://www.runoob.com/regexp/regexp-tutorial.html。#1，提取转录本gffreadPtri_genome.gtf-gPtri_genome.fa-wPtri.transcripts.fa#2，CDSgffreadPtri_genome.gtf-gPtri_genome.fa-xPt......
【卡梅德生物】基因编辑技术分享
作为研究最为深入的基因编辑CRISPR/Cas技术，主要包括sgRNA（single-guideRNA）和Cas9蛋白两个作用元件，可以实现基因定点的精确编辑。sgRNA引导Cas9蛋白识别基因组特定位点，精确剪切待编辑的生物体基因组，导致双链断裂（DSB,doublestrandbreak），生物体随后利用非同源末端连接（NH......
易基因：cfDNA甲基化在器官和组织损伤检测中的强大力量
大家好，这里是专注表观组学十余年，领跑多组学科研服务的易基因。检测器官和组织损伤对于早期诊断、治疗决策和监测疾病进展至关重要。由于DNA甲基化模式可以响应组织损伤而改变，甲基化检测提供了一种有前途的方法，在早筛早诊、疾病进展监测、治疗效果和器官移植评估等可行性方面具有......
GS | Julius报告：基因组预测的准确性
JuliusVanderWerf是新英格兰大学（UniversityofNewEngland，UNE）教授，专门从事遗传评估、育种计划设计、育种目标和基因组选择方面的研究。他指导了60多名博士生。2003年至2019年，他担任绵羊CRC遗传学项目的经理，在此期间，澳大利亚绵羊产业实施了基因组选择。Julius曾是多个行业......
GS | Julius报告：利用基因组信息预测遗传变化
JuliusVanderWerf是新英格兰大学（UniversityofNewEngland，UNE）教授，专门从事遗传评估、育种计划设计、育种目标和基因组选择方面的研究。他指导了60多名博士生。2003年至2019年，他担任绵羊CRC遗传学项目的经理，在此期间，澳大利亚绵羊产业实施了基因组选择。Julius曾是多个行业......
易基因： WGBS+RNA-seq揭示黄瓜作物的“源-库”关系受DNA甲基化调控｜项目文章
大家好，这里是专注表观组学十余年，领跑多组学科研服务的易基因。作物产量取决于库（sink，获得同化物）的潜力和源（source，供给同化物）的能力，“源—库”关系的优化对作物产量调控具有重要意义。黄瓜（CucumissativusL.）是世界范围内广泛种植的蔬菜，是我国具有巨大经济价值的七大蔬菜之一，叶片和......
机器学习-概率图模型系列-隐含马尔科夫-观测序列的概率计算-35
目录1.暴力求解法2.前向算法求HMM观测序列的概率3.从后往前推后向算法1.暴力求解法任意一条路径都有可能得到需要的观测结果：如果我们的隐藏状态数N非常多的那就麻烦了，此时我们预测状态有NT种组合，算法的时间复杂度是O(TNT)阶的2.前向算法求HMM观测序列的概率在前向算......

基因测序中碱基质量值的计算

相关文章

赞助商

阅读排行