vcf2gwas 是一个 Python 构建的 API,用于 GEMMA、PLINK 和 bcftools,直接从 VCF 文件执行 GWAS 以及多个分析后操作。
如何使用?
vcf2gwas的使用非常简单。用户只需提供变异调用格式(VCF)文件和表型数据文件,即可通过一条命令行启动GWAS分析。例如:
# 安装
$ conda install vcf2gwas -c conda-forge -c bioconda -c fvogt257
# 测试demo
$ vcf2gwas -v test
# 运行
$ vcf2gwas -v <input:vcf> -pf <inputpheno:csv> -p1 lmm
该命令使用GEMMA的线性混合模型(lmm)分析单个表型。
特点
-
易安装:作为conda包或docker拉取,易于在兼容机器上复现GWAS。
-
自动化:从软件安装到结果处理,全流程自动化。
-
并行处理:支持多表型或不同个体集的高效分析。
-
结果可视化:自动生成曼哈顿图和QQ图,适合发表。
附加功能
-
执行PCA或UMAP以降低数据维度。
-
将相关SNP与感兴趣基因/区域进行比较。
-
提供额外的命令行选项以执行特定后分析操作。
结果
vcf2gwas使得GWAS分析对各种二倍体模型和非模型生物都易于访问,特别适合分析大量表型或不同个体集。
对单个表型运行线性混合模型分析后输出文件夹的示例目录和文件结构如下所示:
output/
└── 'model'
├── 'phenotype'
│ ├── QQ
│ │ └── QQ plot figure (.png)
│ ├── summary file (.txt)
│ ├── GEMMA output file (.txt)
│ ├── GEMMA log file (.txt)
│ ├── best_p-values
│ │ ├── top 1% variants (.csv)
│ │ ├── top 0.1% variants (.csv)
│ │ └── top 0.01 variants (.csv)
│ ├── manhattan
│ │ └── manhattan plot figure (.png)
│ └── significant SNP summary file (.csv)
├── files
│ └── files_'file'
│ ├── PLINK BED files (.bed, .bim, .fam, .nosex)
│ ├── PLINK log file (.log)
│ ├── GEMMA relatedness matrix (.txt)
│ └── GEMMA log file (.log.txt)
├── logs
│ └── analysis log file (.txt)
├── QC
│ ├── phenotype QC plot (.png)
│ └── genotype QC plots (.png)
├── summary
│ ├── summarized top SNPs (.csv)
│ └── top_SNPs
│ └── phenotype top SNPs (.csv)
└── vcf2gwas log file (.txt)
获取更多信息
访问vcf2gwas GitHub页面:https://github.com/frankvogt/vcf2gwas 获取安装指南和教程。