• 2024-09-24下载测序数据那些事儿(一)
    文章目录前言检索下载数据坑聊聊天前言  最近在下载(分析)公共数据,无法避免的从NCBISRA数据库下载已发表的“”优质“”数据。曾经一直以为,数据下载就是小case,直到我因为下载数据,折腾了几天……所以,聊一下目前下载拆分单细胞转录组测序数据踩过的SHIT。希望能为
  • 2024-07-16fastqc和Trimmomatic的使用
    1.FastQC分析检测报告在先前的记录中,我们已经得到了我们的QC报告,现在要针对我们的报告对原始数据进行过滤其中和都表明该数据需要去接头,并对序列进行处理2.Trimmomatic的下载首先,使用conda安装TrimmomaticcondainstallTrimmomatic就可以安装完毕了,安装完使用trimmomatic
  • 2024-04-28[TJOI2018] 碱基序列(题库给的什么鬼名字)
    题目描述小豆参加了生物实验室。在实验室里,他主要研究蛋臼质。他现在研究的蛋臼质是由k个氨基酸按一定顺序构成的。每一个氨基酸都可能有a种碱基序列si_j构成。现在小豆有一个碱基串s,小豆想知道在这个碱基上都多少中不同的组合方式可能得到这个蛋白质。即求由k段字符串有序合
  • 2024-04-24碱基序列(str)
    [TJOI2018]碱基序列题目描述小豆参加了生物实验室。在实验室里,他主要研究蛋白质。他现在研究的蛋白质是由\(k\)个氨基酸按一定顺序构成的。每一个氨基酸都可能有\(a\)种碱基序列\(s_{i,j}\)构成。现在小豆有一个碱基串\(s\),小豆想知道在这个碱基上都多少种不同的组合方
  • 2024-03-24【译】生命起源 II:先有鸡还是先有蛋?
    原作:Chaotropy引言:这篇文章是关于生命起源、无机起源、化学进化和RNA世界假说的系列文章中的第二篇。/机器翻译/现在让我们从另一个方向来看待进化:在今天的生命中,存在着一种高度保守的密码,我们人类与所有其他生物(无论是果蝇还是森林大象)都(部分地)共享这种密码。这个密码不是储
  • 2024-01-30基因测序中碱基质量值的计算
    当使用k-means将碱基聚类后,可使用下面的方法计算碱基质量#include<stdio.h>#include<math.h>intmain(){doubleproba=0.0;//某点的概率值初始化为0.0doublesum_distances=0.0;//某点到所属质心的距离除以到每个质心距离的四次方总和初始化为0.0
  • 2023-12-18碱基Y是什么
    简并碱基简并/混合碱基A+C+G→V​简并/混合碱基A+T+G→D​简并/混合碱基T+C+G→B​简并/混合碱基A+T+C→H​简并/混合碱基A+T→W​简并/混合碱基C+G→S​简并/混合碱基T+G→K​简并/混合碱基A+C→M​简并/混合碱基C+T→Y​简并/混合碱基A
  • 2023-12-12D. 相似基因 - 2023HBUCM程序设计竞赛
    题面p哥作为一名湖中医信息工程学院的同学,不仅对信息有兴趣,同时对生物也很有兴趣。相信大家从初高中生生物基本知识都知道,DNA基因可以看作一个碱基对序列。它包含了\(4\)种核苷酸,简记作\(A,C,G,T\)。现在假设想计算两个基因的相似程度,相似度的计算方法如下:对于两个已知基因,
  • 2023-11-257-Bioedit软件做测序后的序列比对和序列的反向互补与翻译
     1,我有两段序列,一段是基因组提取出来的CDS序列,一段是PCR出来的测序的序列,我们需要将它们比对,看看有没有碱基的变化。这时候就需要用到Bioedit软件了。首先,将两端待比对的序列,放到记事本中,要fasta格式,做个例子,如下: 2,选中全部,CTRL+C,先复制。再打开Bioedit软件,File>NewAlignm
  • 2023-11-17ACGTU 碱基的英文相关
    远古文。当个搬运工。最近生物课学了ACGTU一堆碱基,名字更是confusing,鸟嘌呤、胸腺嘧啶……突发奇想这些的英文是什么?腺嘌呤:adenine胞嘧啶:cytosine鸟嘌呤:guanine胸腺嘧啶:thymine尿嘧啶:uracil然后可以发现前四个的英文名称都有-ine,这个玩意有两个意思。一个是ofor
  • 2023-10-14基因分型数据与碱基序列的输入
    基因分型数据和碱基序列的输入都是对DNA信息的编码,但它们的表达方式和所提供的信息不同。为了理解它们之间的联系,让我们首先明确这两者的定义:基因分型数据:基因分型数据通常是在特定的单核苷酸位置上(即SNP位置)对个体的DNA的描述。每个SNP位置可以有三种情况:两种纯合子和一种杂合
  • 2023-10-14python实现fasta文件碱基序列每行按照指定数目输出
     001、(base)[root@pc1test1]#lsa.fatest.py(base)[root@pc1test1]#cata.fa##测试fasta>chr1tttcccggg>chr2tttgggjjjcccjjjjjj>chr3ccc>chr4aaaaatt(base)[root@pc1test1]#cattest.py##程序#!/usr/bin/envpython3#
  • 2023-09-30linux中awk命令对fastq格式的碱基质量体系进行判断
     001、[root@pc1test]#lsa.fastq[root@pc1test]#head-n4a.fastq##测试fastq格式数据@SRR12342886.11/1TCTTCAAAAATTTCTCACAGCTTGTTGTGATCCACACAGTCAAAGGCTTTAAGTGTAGTCAGTGAAGCAGAAGTGGATATTTTTCTGGAATTCCCTTGCTTTCTCTGTGATCCAAGGGATTTGATCTCTGGTTCCTCTG
  • 2023-09-29重测序数据碱基质量评估
     001、测序数据为fastq格式fastq格式数据没四行为一个单位,其中第二行是碱基,第四行为对应的碱基质量值:如下:(base)[b20223040323@admin1test01]$ls##测试fastq格式数据test.fastq(base)[b20223040323@admin1test01]$head-n4test.fastq|cat-n##第
  • 2023-09-191. illumina测序原理
    本人的生物水平只有高中且4年没碰的水平,如果涉及生物的笔记没写对请见谅.1.一个典型的生物信息分析  我们在做生物信息分析时,常常是有一个目的,比如分析为什么某朵花是红色的.假设我们在做转录组数据分析,流程一般如下图所示:  得到数据后,我们会进行标准分析,得到一些
  • 2023-07-27NGS实验室质控-DNA污染控制方法篇(引用)
    NGS实验室质控-DNA污染控制方法篇 本篇主要和大家分享有关NGS检测体细胞突变时判断DNA污染的方法。  一、FDA产品-MSK-IMPACT的DNA污染控制方法 1)判断样本交叉污染(samplemix-up) 计算参考样本和待查样本间的“不一致比例”,即在参考样本中纯合基因
  • 2023-07-12测序数据read的质量值计算
    对测序fastq数据,碱基质量值(basequality)的本质是体现测序错误率,在fastq文件中,碱基质量值以字符形式存储在fastq文件中。字符的碱基质量值体系通常是Phred33,即碱基质量值Q=字符的ASCII码–33。而Q和碱基的错误率之间又具有如下对应关系:Q:碱基质量值;P:碱基测序错误率;同理,Read
  • 2023-06-10Luogu P4591 [TJOI2018]碱基序列
    [TJOI2018]碱基序列题目描述小豆参加了生物实验室。在实验室里,他主要研究蛋白质。他现在研究的蛋白质是由\(k\)个氨基酸按一定顺序构成的。每一个氨基酸都可能有\(a\)种碱基序列\(s_{i,j}\)构成。现在小豆有一个碱基串\(s\),小豆想知道在这个碱基上都多少中不同的组合方式可能得
  • 2023-06-09【高中生物必修二】第四章 基因的表达
    第一节基因指导蛋白质的合成细胞核的DNA可以帮助合成细胞质的蛋白质,这一过程收到中间物质RNA的帮助。RNA是由核苷酸组成(脱氧核糖的2号H变为OH),碱基从T变为U。RNA一般是单链,比DNA短,因此可以通过核孔从细胞核转移到细胞质。RNA主要分为三种信使(messenger)RNA,或mRNA转运(transfer
  • 2023-06-06linux中实现提取碱基序列的互补序列
     001、[root@PC1test03]#lsa.fa[root@PC1test03]#cata.fa##测试序列ATCGATGC[root@PC1test03]#cata.fa|tr"ATCG""TAGC"##提取碱基序列的互补序列TAGCTACG 
  • 2023-05-10Phred质量分数
    Phred质量分数是DNA测序数据中,用来评估碱基质量的一种标准化表示方法。它最初是由美国华盛顿大学的高通量测序专家PhredJ.在1997年发表的论文中提出的。Phred质量分数使用logarithmicscale(即对数刻度)来表示碱基质量值。一般取值范围为0-40之间,其中0表示最差的质量,40表示
  • 2023-04-21高通量测序的数据处理与分析(二)--宏基因组2
    博客原文宏基因组数据处理方法数据下载wget下载宏基因组的数据主要分布在两个数据库:1.NCBI的SRA数据库,2.ENA。近年来也有许多研究者将数据上传到中国的数据库:NGDC你可以直接通过网页下载数据,或者是通过各个网站提供的下载工具进行批量下载。也可以到sra-exporter这个网站
  • 2023-03-27引用的: 本篇主要和大家分享有关NGS检测体细胞突变时判断DNA污染的方法。
     来自https://mp.weixin.qq.com/s?src=11&timestamp=1679887356&ver=4431&signature=FISeM4PGVyZ-AGQmG7Aib6zDiSV7B1TvaBgc41rLNE-ofmYD1pw2Nu46xLzgY5AsBI261SsCp*MlRJ
  • 2023-01-10基因突变相关知识
    单核苷酸变异(SNV)是群体基因组中一个核苷酸的变异,是一种低频突变。尽管与SNV相似,单核苷酸多态性(SNP)也是一个碱基被替换,但它仅限于生殖系DNA,必须在至少1%的群体中存在,是一种
  • 2022-10-30linux 中实现将fasta文件的碱基数目转换为指定的个数
     001、每行输出为4个碱基[root@pc1test]#lstest.fa[root@pc1test]#cattest.fa>chr1aattcctt>chr2ttggaacc>chr3TTCCGG[root@pc1test]#awk'{if($0~