首页 > 其他分享 >将vcf文件转成孟德尔随机化分析格式

将vcf文件转成孟德尔随机化分析格式

时间:2023-09-19 09:26:56浏览次数:47  
标签:gt seq vcf mydata 孟德尔 随机化 pval GT data

https://gwas.mrcieu.ac.uk/datasets/ukb-b-7330/为例:
原始文件形如:

转换代码

library(vcfR)
getwd()
a_data = read.vcfR('../ukb-b-7330.vcf.gz')
str(a_data)
head(a_data$meta,12)

head(a_data@fix)
head(a_data@gt)

fix = as.data.frame(a_data@fix[,(1:5)])
gt = as.data.frame(a_data@gt[,2])

colnames(gt)= 'GT'

beta = as.numeric(unlist(strsplit(as.character(gt$GT),split = ":"))[seq(1,dim(gt)[1]*5,5)])
se = as.numeric(unlist(strsplit(as.character(gt$GT),split = ":"))[seq(2,dim(gt)[1]*5,5)])
eaf = as.numeric(unlist(strsplit(as.character(gt$GT),split = ":"))[seq(4,dim(gt)[1]*5,5)])
pval = as.numeric(unlist(strsplit(as.character(gt$GT),split = ":"))[seq(3,dim(gt)[1]*5,5)])
mydata = data.frame(beta=beta,se=se,pval=pval,maf=eaf)
mydata = cbind(fix,mydata)
mydata$pval = 10^(-mydata$pval) #还原p值
mydata$N=40899

write.csv(mydata,'vcf2.csv')

输出结果:

标签:gt,seq,vcf,mydata,孟德尔,随机化,pval,GT,data
From: https://www.cnblogs.com/missed-forest/p/17713718.html

相关文章

  • vcf手机通讯录中文转换工具
    手机联系人通讯录可以导出为vcf通讯录文件,也可以把联系人分享到微信。这种vcf文件的内容全是英文字母和数字。能看见手机号,但是不知道姓名是谁,中文名字全被UTF8加密了。一部分内容如下:BEGIN:VCARDVERSION:2.1N;CHARSET=UTF-8;ENCODING=QUOTED-PRINTABLE:;=E6=9C=AC=E6=9C=BA;;;F......
  • 下载微生物数据(孟德尔随机化)
    登录https://mibiogen.gcc.rug.nl/menu/main/home选择TopHits暴露因素选择条件0到1e-5或者5e-8作为结局数据选择条件5e-5到1根据菌群纲目ID进行分类,可以选择MendelR包里面的函数进行切割并自动化SNP模版split_mibiogen_file('刚才下载的文件.csv')libraray(Men......
  • 基于随机化三期临床试验数据和多模态深度学习的前列腺癌治疗方案个性化
    回复我们公众号“1号程序员”的“E005”可以获取原文下载地址。[关注并回复:【E005】] 摘要前列腺癌是男性最常见的癌症,也是导致癌症死亡的主要原因。确定患者最佳治疗方案是一项挑战,肿瘤学家必须选择最有可能成功且最不可能出现毒性的治疗方案。国际预后标准依赖于非特异性和半......
  • 如何快速简化vcf信息?
    目录需求描述可能存在错误的做法更靠谱的做法需求描述vcf是标准的基因型格式文件,其中包含的信息可多可少。主要在于INFO可无限扩展特征,以及每个样本的FORMAT信息,会大大增加vcf文件的大小。一般来说,GATK等软件得到的基因型都会有这些信息,初始变异我们最好保留它们,因为这是过滤位......
  • 随机化 base64 加密
    随机化base64加密项目原址:Jeefy/jtim-enc·GitLab技术采用双重随机化技术。第一重随机化是利用固定的随机种子改变base64解码的映射数组。第二重随机化利用单位掩码改变改变固定的随即种子。好像也就没有了……......
  • 如何实现redis 缓存数据的过期时间设置随机化的具体操作步骤
    Redis缓存数据的过期时间设置随机化在大型应用程序中,缓存是提高性能和减少数据库负载的重要技术。Redis是一种流行的内存缓存数据库,能够快速地存储和检索数据。在使用Redis缓存数据时,设置缓存数据的过期时间是很常见的需求。为什么要设置缓存数据的过期时间缓存数据的过期时......
  • VCF(Variant Call Format)文件简介
    VCF(VariantCallFormat)文件是一种常用的存储基因组变异信息的文件格式。它是基于文本的格式,用于描述个体或种群的基因组中的单核苷酸变异(SNV)、插入/缺失(Indel)等变异类型。以下是VCF文件的一般结构和主要字段:1.文件元数据(Metadata):以`##`开头的行,用于描述VCF文件的元数据信息,如......
  • 强化学习中的随机化处理
    目录1.引言2.技术原理及概念3.实现步骤与流程4.应用示例与代码实现讲解4.1应用场景介绍4.2应用实例分析强化学习是人工智能领域的一个热门话题,它通过让机器代理通过与环境的互动来学习最优策略,以实现自主决策。在强化学习中,随机化处理是一个非常重要的概念,它可以帮助代理在......
  • 强化学习中的随机化处理与模拟实验
    目录1.引言2.技术原理及概念3.实现步骤与流程4.应用示例与代码实现讲解5.优化与改进强化学习是人工智能领域中的一个重要分支,它通过试错的方式训练模型,使其在不确定的环境下做出最优的决策。在强化学习中,随机化处理与模拟实验是非常重要的步骤,因为不确定的环境可能导致错误......
  • 随机化问题
    Destiny多随几次就好了,然而\(O(\logn)\)的复杂度不能保证正确性,所以用莫队,对于每一次随机\(O(1)\)求答案。Ghd因为有至少一半的数符合条件,所以随机选一个数分解因数,求出是和\(a_i\)的\(\gcd\)是\(x\)的数有多少个,然后分解质因数,从高到低转移,因为每次转移的质因数不......