首页 > 其他分享 >vcf2gwas:简化全基因组关联分析

vcf2gwas:简化全基因组关联分析

时间:2024-07-28 17:32:50浏览次数:15  
标签:log vcf2gwas GEMMA 基因组 简化 file txt top

vcf2gwas 是一个 Python 构建的 API,用于 GEMMA、PLINK 和 bcftools,直接从 VCF 文件执行 GWAS 以及多个分析后操作。

图片

如何使用?

vcf2gwas的使用非常简单。用户只需提供变异调用格式(VCF)文件和表型数据文件,即可通过一条命令行启动GWAS分析。例如:

# 安装
$ conda install vcf2gwas -c conda-forge -c bioconda -c fvogt257 
# 测试demo
$ vcf2gwas -v test

# 运行
$ vcf2gwas -v <input:vcf> -pf <inputpheno:csv> -p1 lmm

该命令使用GEMMA的线性混合模型(lmm)分析单个表型。

特点

  • 易安装:作为conda包或docker拉取,易于在兼容机器上复现GWAS。

  • 自动化:从软件安装到结果处理,全流程自动化。

  • 并行处理:支持多表型或不同个体集的高效分析。

  • 结果可视化:自动生成曼哈顿图和QQ图,适合发表。

附加功能

  • 执行PCA或UMAP以降低数据维度。

  • 将相关SNP与感兴趣基因/区域进行比较。

  • 提供额外的命令行选项以执行特定后分析操作。

结果
vcf2gwas使得GWAS分析对各种二倍体模型和非模型生物都易于访问,特别适合分析大量表型或不同个体集。

图片

对单个表型运行线性混合模型分析后输出文件夹的示例目录和文件结构如下所示:

output/
└── 'model'
    ├── 'phenotype'
    │   ├── QQ
    │   │   └── QQ plot figure (.png)
    │   ├── summary file (.txt)
    │   ├── GEMMA output file (.txt)
    │   ├── GEMMA log file (.txt)
    │   ├── best_p-values
    │   │   ├── top 1% variants (.csv)
    │   │   ├── top 0.1% variants (.csv)
    │   │   └── top 0.01 variants (.csv)
    │   ├── manhattan
    │   │   └── manhattan plot figure (.png)
    │   └── significant SNP summary file (.csv)
    ├── files
    │   └── files_'file'
    │       ├── PLINK BED files (.bed, .bim, .fam, .nosex)
    │       ├── PLINK log file (.log)
    │       ├── GEMMA relatedness matrix (.txt)
    │       └── GEMMA log file (.log.txt)
    ├── logs
    │   └── analysis log file (.txt)
    ├── QC
    │   ├── phenotype QC plot (.png)
    │   └── genotype QC plots (.png)
    ├── summary
    │   ├── summarized top SNPs (.csv)
    │   └── top_SNPs
    │       └── phenotype top SNPs (.csv)
    └── vcf2gwas log file (.txt)

获取更多信息
访问vcf2gwas GitHub页面:https://github.com/frankvogt/vcf2gwas 获取安装指南和教程。

图片

标签:log,vcf2gwas,GEMMA,基因组,简化,file,txt,top
From: https://www.cnblogs.com/miyuanbiotech/p/18328502

相关文章

  • 严建兵 | 玉米基因组育种的理论与实践
    来源:第一届全国作物杂种优势与生物育种学术大会,严建兵老师报告《玉米基因组育种的理论与实践》。声明:本文仅用于学习交流,不用于任何商业用途。文中所有转载的图片、音频、视频文件等知识归该权利人所有。如不慎侵犯权益,请后台联络,我们将第一时间删除。......
  • 我的 vimrc (简化版)
    先安装vim-plug|cnblogs"时间:2024年7月26日"vim的配置,用标记折叠的方式组织起来,感觉很好"--------------------------------------------------------------------------------"#1.Plug{{{"##1.1plug-vim{{{"-------------------------------------......
  • 向 ZATCA 提交简化发票时出现“生产 CSID 不涵盖简化文档”错误
    我正在尝试使用zatcasdk使用我们的公司信息以及有效的增值税号和Fatoora“123345”提供的默认OTP来生成CSR,然后我可以生成CSID和PCSID,我还使用CSID证书签署发票并生成它的哈希值和二维码,我提交给合规性并通过了,但是当尝试使用PCSID进行身份验证和CSID或PCSID进行签名将其......
  • 【lamda表达式】在多线程开发中的lamda表达书简化参数
    创建线程后传Runnable参数并实现run方法,可以采用下面两种方式,效果是一样的Threadt1=newThread(newRunnable(){@Overridepublicvoidrun(){//这里是线程应该执行的代码System.out.println("Hello,World!");......
  • 简化数据流:Apache SeaTunnel实现多表同步的高效指南
    ApacheSeaTunnel除了单表之间的数据同步之外,也支持单表同步到多表,多表同步到单表,以及多表同步到多表,下面简单举例说明如何实现这些功能。单表to单表一个source,一个sink。从mysql同步到mysql,中间不做区分env{#Youcansetflinkconfigurationhereexecution.parall......
  • 一种倾斜摄影网格简化方式:指定LOD层级裁剪输出为FBX/OBJ/OSGB/3DTiles
    工具OSGB源数据灵易智模·倾斜摄影编辑平台(下称OPEditor)引言指定LOD层级与网格简化的关系倾斜摄影模型本身就是通过逐级简化点云得到的分页金字塔数据,因此它每一级都是下一级的网格简化结果,且算法成熟、结果可控;通过在导出即输出数据时,设置源数据的最大参考层级来直接......
  • 使用简化VGGnet对MNIST数据集进行训练
     目录1.VGGNet特点2.注意点3.导入数据集4.定义简化版的VGG网络结构5.定义训练和验证函数6.调用函数7.多批次训练8.结果 VGGNet是由牛津大学的视觉几何组(VisualGeometryGroup)在2014年提出的一个深度卷积神经网络。它在ImageNet竞赛中取得了很好的成绩。VG......
  • sympy 的简化是否可用于未知函数?
    以下代码意外地将f(1)=xf(0)简化为f(1)=0。是因为没有进一步假设就不能使用未定义的函数吗?运行此命令不应更改表达式,但它会给出Eq(f(1),0)fromsympyimport*x,y=symbols("xy")f=Function("f")print(Eq(f(1),x*f(0)).simplify(rational=True,doi......
  • 想让字典操作更优雅?自定义Python字典类型,简化你的代码库!
    目录1、继承dict类......
  • 使用Java和Google Guava简化开发
    使用Java和GoogleGuava简化开发大家好,我是微赚淘客系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿!GoogleGuava是Google开发的一个Java开源库,它提供了许多工具和库来简化Java开发。Guava提供了从集合类到缓存、字符串处理、并发工具等多种功能。本篇文章将介绍如......