首页 > 其他分享 >基因组大数据计算: CPU和GPU加速方案深度评测

基因组大数据计算: CPU和GPU加速方案深度评测

时间:2023-08-23 17:05:48浏览次数:43  
标签:Intel 性能 基因组 Xeon Parabricks GPU Sentieon CPU

随着NGS测序通量的大幅提高,搭配高效NGS二级分析技术的精准解决方案快速融进基因组学的各个应用领域:遗传进化、临床诊断、分子育种、医药开发等。以下我们通过对基于CPU和GPU不同硬件平台的NGS二级分析方案进行详细评测,以期为基因组学研究领域的用户提供参考。

基因组大数据计算: CPU和GPU加速方案深度评测_4th

Sentieon软件是面向CPU平台开发的,在不需要专用的编程语言,不依赖任何专用硬件的情况下进行快速基因变异检测分析,大幅降低了软件的配置、部署和维护成本。同时,Sentieon针对第三代和第四代Intel Xeon Scalable处理器(以前代号为Sapphire Rapids)进行了改进及优化,更适用于在多核系统上扩展,可以在Xeon平台上实现更快速地处理急诊科及ICU的紧急样本,也可在实验室环境下以更高的通量处理大量样本。

基因组大数据计算: CPU和GPU加速方案深度评测_二级_02

本次评测将比较面向CPU平台的Sentieon软件及面向GPU平台的NVIDIA Clara Parabricks的运算性能和分析准确性,以评估两者在基因组二级分析中的性价比及成本效益。

为什么没选择GATK

GATK是变异检测流程的行业金标准,但它是用Java写的,所以不是性能的金标准。伊利诺伊大学和梅奥诊所发表的文章已经证实,Sentieon 的运算性能明显优于 GATK,而且没有损失精度(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6710408)。

基因组大数据计算: CPU和GPU加速方案深度评测_基因数据分析_03

同时基于最新来自AWS的官方评测,NVIDIA Clara Parabricks相对GATK也有明显的性能优势(https://aws.amazon.com/cn/blogs/hpc/benchmarking-the-nvidia-clara-parabricks-germline-pipeline-on-aws/)

基因组大数据计算: CPU和GPU加速方案深度评测_4th_04

综上原因,我们没有将GATK纳入评测范围。我们的目标是比较Sentieon软件(用C++编写,并针对CPU优化)与 Parabricks(用CUDA编写并针对 NVIDIA GPU 优化)。

测试项目

为了尽可能精确地比较Sentieon与Parabricks流程每个计算阶段的运行性能,我们按照两个流程中匹配的计算步骤(如下表),将Parabricks中haplotypecaller、预处理和fq2bam各个阶段对应Sentieon流程的步骤标记出来,并统计两个流程对应计算阶段的运算时间。测试数据为30X HG001 WGS标准数据集。

基因组大数据计算: CPU和GPU加速方案深度评测_4th_05

性能评测

以下我们将展示Sentieon和Parabricks在不同硬件配置环境下的性能表现。其中Intel Xeon 可扩展处理器提供了具有竞争力的性能,第四代 Intel Xeon 可扩展处理器(以前的代号为 Sapphire Rapids)提供最佳的整体性能。除了最重要的性能评测,我们详细对比了每个基因组的计算成本和功耗表现。

基因组大数据计算: CPU和GPU加速方案深度评测_4th_06

  • 3rd Gen硬件环境为2* Intel 2.4GHz  Intel Xeon Platinum 8368 CPU(152核心, 超线程开启),256GB DDR4-3200 内存,1TB Intel 660p 和 2TB DC P4510 SSD。
  • 4th Gen硬件环境为2* 4th Gen Intel Xeon Scalable CPU(原代号为 Sapphire Rapids,>40 核,超线程开启),Intel Pre-production BIOS,256GB DDR内存(16(1DPC)/16 GB/4800 MT/s),1TB Intel D3-S4610 SSD。
  • 3rd Gen和4th Gen的操作系统均为. Ubuntu Linux* 20.04。

通过下表中各计算实例上Sentieon vs. Parabricks的性能对比,可以看出,3rd Intel Xeon平台可在40分钟左右完成30x WGS的数据分析,与GPU平台速度相当。而4th Intel Xeon平台则跑出了26.8分钟的最佳成绩

基因组大数据计算: CPU和GPU加速方案深度评测_基因数据分析_07

其中NVIDIA Clara Parabricks评测数据来源于AWS官方博客:https://aws.amazon.com/cn/blogs/hpc/benchmarking-the-nvidia-clara-parabricks-germline-pipeline-on-aws/

根据不同配置的硬件定价统计表可以发现,与 NVIDIA A100 Tensor Core 处理器(4.59 美元)相比,Intel Xeon Scalable CPU(1.54 美元)的每个基因组分析所需成本要低得多。如果第4代英特尔至强可扩展处理器具有类似的AWS EC2定价,则每个基因组的计算成本将降至不到 1 美元(2.1635 美元/小时 * 26.8 分钟 = 0.97 美元)。在此补充一下,这次基准测试中使用的4th Gen Xeon Scalable CPU是预发布硬件,因此最终产品的性能可能会有所提高。

基因组大数据计算: CPU和GPU加速方案深度评测_可扩展_08

在功耗方面,c6i.metal 实例中的两颗Intel Xeon Platinum 8352M 处理器的功率是370W,而 p4d.24xlarge 实例中的八个 NVIDIA A100 Tensor Core 的功率则高达3,200W。Parabricks 要达到最佳性能,相较于Intel纯CPU硬件环境需要8.6倍的功率和 3.0 倍的成本,但分析效率相较于Intel 3rd Gen Xeon Platinum 8352M CPU来说,仅有1.5 倍的性能提升。

精度评测

在分析精度方面,Parabricks官方博客此前报道了其变异检测结果的准确性与GATK相当(F1 scores)。而Sentieon不但提供与GATK一致结果(一致性达99%以上),更是PrecisionFDA Truth Challenge的连续冠军。在第二届PrecisionFDA Truth Challenge比赛中更是赢得了4个分项赛冠军。

基因组大数据计算: CPU和GPU加速方案深度评测_可扩展_09

关于对Sentieon软件的运行效率和准确度的行业认可,其遍布全球的用户和快速增长的数据处理量提供了广泛的例证。

基因组大数据计算: CPU和GPU加速方案深度评测_可扩展_10

结论

Sentieon软件是通过改进算法模型实现性能加速(纯CPU环境,支持X86/ARM),不依赖于昂贵高功耗的专用硬件配置(GPU/FPGA),不依赖专有编程语言;同时Sentieon软件针对几乎所有的短读长和长读测序平台进行了优化,是FDA多次公开挑战赛的连续赢家。本次评测展现了Sentieon软件在Intel Xeon平台上的卓越性能,是基因组二级分析的最佳解决方案

 

软件试用:Sentieon基因数据分析加速软件 -官方试用下载 (insvast.com)

标签:Intel,性能,基因组,Xeon,Parabricks,GPU,Sentieon,CPU
From: https://blog.51cto.com/u_16178248/7204695

相关文章

  • 宏基因组共现网络分析
     引言 宏基因组学是研究环境中各种微生物群体(包括细菌、真菌等)的所有基因的集合,它已成为植物学领域中的重要工具。宏基因组数据的分析对于理解微生物的功能和相互作用至关重要。Co-occurrenceNetwork是一种用于组织和分析孤立数据的方法。它可以将多个基因或序列组织成一个网......
  • linux脚本手动占用cpu核数
    希望启动一个脚本,能够指定占用的cpu核数#!/bin/bash#filenamekillcpu.shendless_loop(){echo-ne"i=0;whiletruedoi=i+100;i=100done"|/bin/bash&}if[$#!=1];thenecho"USAGE:$0<CPUs>"exit1;fiforiin`seq$1`doendless......
  • OS(十):CPU调度
    多道程序环境中,作业被提交后必须经过处理机调度才能执行。在多道程序系统中,根据一定的算法(公平、高效)将处理机重新分配给就绪队列中的进程去执行,以实现进程并发执行的过程;调度的前提是,进程的数量往往远大于处理机个数,造成进程争用处理机的现象,所以需要将处理机资源......
  • paddleocr在华为升腾920上编译C++ cpu版的推理
    最好用这个提供的docker环境华为昇腾NPU-PaddlePaddle深度学习平台编译推理库飞腾/鲲鹏下从源码编译—Paddle-Inferencedocumentation(paddlepaddle.org.cn)编译成功后还需要报错 Noruletomaketarget'/root/workspace/Paddle/build/paddle_inference_install_dir......
  • 查看cpu或内存占用最多的进程
    通过ps命令查找,并对指定参数进行排序,然后取前10命令如下:ps-aux|sort-k3nr|head-10或者ps-aux|sort-k4nr|head-10ps命令用于报告当前系统的进程状态。可以搭配kill指令随时中断、删除不必要的程序。ps命令是最基本同时也是非常强大的进程查看命令,使用该命令可......
  • 「30 天沉淀 90 mins」Day 1 CPU缓存一致性相关问题——MESI协议
    参考资料小林Coding,也是这里没想到居然讲了这个;先简单复习一下冯诺依曼模型——运算器、控制器、存储器、输入设备、输出设备,以及他们如何交互寄存器分类:通用寄存器,用来存放需要进行运算的数据,比如需要进行加和运算的两个数据。程序计数器,用来存储CPU要执行下一......
  • GPU与CUDA C编程基本知识
    一、CPU与GPU的异同CPU:延迟导向内核,所谓延迟,指指令发出到得到结果中间经历的时间。GPU:吞吐导向内核,所谓吞吐量指单位时间内处理的指令数量。其适合于计算密集或者数据并行的场合。二、CUDA2.1简介CUDA(ComputeUnifiedDeviceArchitecture)是由英伟达公司2007年开始推出,初衷......
  • Q:查看服务器内存和cpu占用排名
    pid表示进程ID,cmd表示进程命令行,%mem表示进程占用内存百分比,%cpu表示进程占用CPU百分比,--sort=-%mem表示按照内存占用率从高到低排序。1、内存占比排序ps-eopid,cmd,%mem,%cpu--sort=-%mem2、cpu占比排序ps-eopid,cmd,%mem,%cpu--sort=-%cpu如果展示......
  • 使用 UCS(On-Premises) 管理您的GPU资源池,释放AI大模型算力潜能
    本文分享自华为云社区《使用UCS(On-Premises)管理您的GPU资源池,释放AI大模型算力潜能》,作者:云容器大未来。AI技术现状及发展趋势过去十余年,依托全球数据、算法、算力持续突破,人工智能全面走向应用,已成为社会生产生活的支柱性技术。2020年后,当自动驾驶、人脸识别等热门应用发......
  • 寄存器与内存在CPU计算中的作用
    cpu的计算是在内存上做的吗?计算过程中的数据存储在内存中,但CPU执行计算的过程是在寄存器中进行的,而不是直接在内存上进行。当需要使用内存中的数据时,CPU会将数据加载到寄存器中进行操作,并将结果存回内存。这样可以加快计算的速度,因为寄存器是位于CPU内部,速度比内存更快。然而,寄存......