GENE

2024-10-04R语言中gene symbol 转换为ENTREZID, clusterprofile富集分析
001、genes<-read.table("genes.txt")##读取基因symbolhead(genes)tail(genes)genes<-genes[genes!="NA_NA"&genes!="unknow",,drop=FALSE]##去除无效信息（可选）genes_list<-unique(ge
2024-09-19单细胞数据存储方式汇总
（单细胞下游分析——不同类型的数据读入，与部分数据类型的转化）.h5ad（anndata数据格式）10x_mtx（cellranger输出，三个文件）就是cellranger上游比对分析产生的3个文件：├──xxx_feature_bc_matrix│├──barcodes.tsv.gz：细胞标签(barcode)│├──features.tsv.gz：基因ID(
2024-08-20题解：P10279 [USACO24OPEN] The 'Winning' Gene S
思路建议升蓝。算法一考虑暴力。我们先枚举$K,L$，考虑如何求解。直接枚举每一个$K$-mer，再枚举里面的每一个长度为$L$的子串，找到最大的子串并在起始部分打一个标记。最后直接看有几个地方被打标记就行。时间复杂度：$O(n^4)$。预计能过测试点$1-4$。算法二我们
2024-06-16RIdeogram绘制基因组染色体标记图
Y叔团队参与开发的一个R包RIdeogram，可用来绘制基因组染色体的可视化图形，如基因密度、分子标记等。直接上代码。#install.packages("RIdeogram")library(RIdeogram)data(human_karyotype,package="RIdeogram")data(gene_density,package="RIdeogram")data(Random_RNAs_500,
2024-05-03Linux 中sed命令实现从gff文件中仅仅提取基因名称
001、(base)[b20223040323@admin1x_test]$ls##测试gff文件GCF_000001405.40_GRCh38.p14_genomic.fna.gzGCF_000001405.40_GRCh38.p14_genomic.gff(base)[b20223040323@admin1x_test]$grep-v"^#"GCF_000001405.40_GRC
2024-05-01[USACO24OPEN] The 'Winning' Gene S
[USACO24OPEN]The'Winning'GeneS题目背景注意：本题的内存限制为512MB，通常限制的2倍。题目描述在多年举办比赛并看着Bessie一次又一次地获得第一名后，FarmerJohn意识到这绝非偶然。他得出结论，Bessie一定将胜利写进了DNA，于是他开始寻找这种「胜利」基因。他设计了一
2024-03-25R语言中为什么后者比前者快这么多？？
前者：for(rowin1:nrow(gterms)){gene_terms<-str_split(gterms[row,"GOs"],",",simplify=FALSE)[[1]]gene_id<-gterms[row,"query"][[1]]tmp<-data_frame(gene=rep(gene_id,length(gene_terms)),term=
2024-03-01数据集格式汇总
2Luo'sdatasetLuo'sdataset数据集是在DTINet模型论文中提出并构建出来的，下载地址从公共数据集中收集了代表不同药物相关信息的四种类型的节点和六种类型的边，并用于构建DTI预测任务的异构网络。构建的异构网络中，共包括12015个节点和1895445条边。具体该数据集内文件目录如下
2024-02-18linux 中awk 根据多列读数据进行去重复
001、(base)[b20223040323@admin1test2]$lstest.txt(base)[b20223040323@admin1test2]$cattest.txt##测试数据如下；根据第一列和第三列对数据进行去重复ID=gene-RIN1rna-XM_018043206.13615ID=gene-STRIP2rna-XM_018046935.13917ID=gene-ST
2024-02-18linux 中awk命令实现根据一列数值的大小筛选指定列多个类别的最大或者最小项
001、(base)[b20223040323@admin1test2]$cat003.txt##测试数据如下，第一列有多个项，且部分项有重复，实现根据第三列筛选出最大的项ID=gene-TRNAC-GCArna-TRNAC-GCA72ID=gene-ATP5Orna-XM_005674665.3793ID=gene-ITSN1rna-XR_001917533.14
2024-01-2421-有参转录组实战7-基因序列提取
#本教程仿自于“https://zhuanlan.zhihu.com/p/439168788”。#正则表达式教程https://www.runoob.com/regexp/regexp-tutorial.html。#1，提取转录本gffreadPtri_genome.gtf-gPtri_genome.fa-wPtri.transcripts.fa#2，CDSgffreadPtri_genome.gtf-gPtri_genome.fa-xPt
2023-12-19Comparison method violates its gene
1、如果我没有写这一步，就会报这个错误了2、分析，应该是你一会进行长度排序，一会是字符串的compare分析。如果长度小于，不做判断的话。显然和compare会冲突。3、加上小于这步就可以了
2023-12-18R : 随机森林（测试版1）
#清空当前环境中的所有对象rm(list=ls())#设置工作目录setwd("C:\\Users\\Administrator\\Desktop\\随机森林4")library(randomForest)#随机森林library(tidyverse)#数据分析和可视化library(skimr)#生成数据摘要统计分析library(DataExplorer)#探索性数据分析
2023-12-08A novel essential protein identification method based on PPI networks and gene expression data
AnovelessentialproteinidentificationmethodbasedonPPInetworksandgeneexpressiondataJianchengZhong 1 2, ChaoTang 1, WeiPeng 3, MinzhuXie 1, YusuiSun 1, QiangTang 4, QiuXiao 5, JiahongYang 6Affiliations expandPMID:
2023-12-08Predicting gene expression from histone modifications with self-attention based neural networks and
Predictinggeneexpressionfromhistonemodificationswithself-attentionbasedneuralnetworksandtransferlearningYuchiChen 1, MinzhuXie 1, JieWen 1Affiliations expandPMID: 36588793 PMCID: PMC9797047 DOI: 10.3389/fgene.2022.1081
2023-11-11富集分析（转载）
转载医学和生信笔记公众号医学和生信笔记公众号主要分享4大块内容：生信数据挖掘医学统计分析机器学习临床预测模型前期主要是以医学统计和临床预测模型为主，关于生信挖掘和机器学习的内容偏少，所以后面会逐渐增加这方面的内容，除了常见的生信分析外，还会涉及一些SCI图表学
2023-11-07Gene Ontology （GO）简介
为了查找某个研究领域的相关信息，生物学家往往要花费大量的时间，更糟糕的是，不同的生物学数据库可能会使用不同的术语，好比是一些方言一样，这让信息查找更加麻烦，尤其是使得机器查找无章可循。GeneOntology就是为了解决这种问题而发起的一个项目。 GeneOntology中最基
2023-11-07启动子 Promoter
Ingenetics,apromoterisaregionofDNAthatfacilitatesthetranscriptionofaparticulargene.Promotersarelocatednearthegenestheyregulate,onthesamestrandandtypicallyupstream(towardsthe5'regionofthesensestrand).Inorderfor
2023-11-07Gene Ontology (GO) 简介
为了查找某个研究领域的相关信息，生物学家往往要花费大量的时间，更糟糕的是，不同的生物学数据库可能会使用不同的术语，好比是一些方言一样，这让信息查找更加麻烦，尤其是使得机器查找无章可循。GeneOntology就是为了解决这种问题而发起的一个项目。GeneOntology中最基本的概念是term。GO
2023-10-31单细胞测序基因调控网络 Gene regulatory networks
单细胞测序基因调控网络Generegulatorynetworks基因不是独立发挥作用的。相反，基因的表达水平是由与其他基因和小分子之间的复杂调控决定的。揭示这些调控作用是基因调控网络（GRN）推断方法的目标（SCENIC|从单细胞数据推断基因调控网络和细胞类型）。基因调控网络推断是基于对基因共
2023-09-05遗传算法
遗传算法（GeneticAlgorithm）是一种基于自然选择原理和自然遗传机制的启发式搜索算法。该算法通过模拟自然界中生物遗传进化的自然机制（选择、交叉和变异操作），将好的遗传基因（最优目标）不断遗传给子代，使得后代产生最优解的概率增加示例代码如下：#导入所需的库importrandomimportmat
2023-07-07linux 中实现将指定列中多个连续的字符压缩为一个字符
001、(base)[b20223040323@admin2test]$lsa.txt(base)[b20223040323@admin2test]$cata.txt##测试数据geneexonexonexonexon--------geneexonexon--------geneexonexonexonexon##将多个连续的exon
2023-06-30linux 中输出特定列指定字符连续重复的行号
001、[root@PC1test02]#lsa.txt[root@PC1test02]#cata.txt##测试数据333kkkgene7771333kkkexon7772333kkkexon7773333kkkgene7774333kkkexon777
2023-06-08python 中输出匹配字符串及其下一行
001、[root@PC1test05]#lsa.txttest.py[root@PC1test05]#cata.txt##测试数据3333gene9999kkkkgene77778888genegene00006666[root@PC1test05]#cattest.py##测试程序#!/usr/bin/envpython#-*-coding:utf-8-*-in_file=open("a.tx
2023-06-08linux 中sed命令输出匹配字符的下一行
001、[root@PC1test04]#lsa.txt[root@PC1test04]#cata.txt##测试数据3333gene9999kkkkgene77778888gene00006666[root@PC1test04]#sed-n'/gene/{n;p}'a.txt##输出匹配字符的下一行999977770000[root@PC1test04]#sed-n�