首页 > 其他分享 >生成式 AI 的新引擎:探索 Amazon EC2 P5 实例与 NVIDIA H100 GPU 的结合

生成式 AI 的新引擎:探索 Amazon EC2 P5 实例与 NVIDIA H100 GPU 的结合

时间:2024-07-11 22:28:30浏览次数:23  
标签:P5 AI 生成式 Amazon 实例 EC2 NVIDIA GPU

欢迎来到雲闪世界。人工智能(AI)和机器学习(ML)正以前所未有的速度改变我们的世界。为   欢迎来到雲闪世界。了支持这些技术的进步,计算能力的需求也在不断增加。2023年3月,AWS和NVIDIA宣布了一项深度合作,重点是构建最具可扩展性的按需AI基础设施,专为训练日益复杂的大型语言模型(LLM)和开发生成式AI应用程序进行了优化。这篇文章将深入探讨这次合作的细节以及其带来的创新性产品 — — Amazon EC2 P5实例

Amazon EC2 P5实例
Amazon EC2 P5实例

         AWSNVIDIA的合作已有十多年历史,期间他们推出了一系列革命性产品,包括Cluster GPU(cg1)实例、G2P2P3、G3、P3dnG4P4、G5和P4de实例。这些实例在视觉计算、AI和高性能计算(HPC)领域均有显著影响。然而,随着机器学习模型规模达到数万亿个参数,客户训练模型的时间也大大增加,这为计算能力提出了更高的要求。

EC2 P5实例介绍

性能和规格

    Amazon EC2 P5实例是最新一代GPU实例,旨在满足客户在AI/ML和HPC工作负载中对高性能和可扩展性的需求。P5实例由NVIDIA最新的H100 Tensor Core GPU提供支持,其主要规格包括:

  • 8个NVIDIA H100 Tensor Core GPU
  • 640GB高带宽GPU内存
  • 第三代AMD EPYC处理器
  • 2TB系统内存
  • 30TB本地NVMe存储空间
  • 3200Gbps聚合网络带宽,支持GPUDirect RDMA

性能提升

与上一代基于GPU的实例相比,P5实例的训练时间最多可缩短6倍(从几天缩短到几小时),这意味着客户的训练成本可降低多达40%。这种性能提升对于需要处理大量数据和进行复杂计算的客户来说尤为重要。

应用实例

在实际应用中,EC2 P5实例的高性能和高可扩展性使其非常适合以下领域:

  • 大型语言模型(LLM)训练:例如,GPT-3和其他类似模型的训练。
  • 高性能计算(HPC):例如,天气预报、基因组学研究和金融建模。
  • 生成式AI应用:如图像生成、语音合成和自然语言处理。

通过AWS和NVIDIA的合作,我们看到了计算技术在AI和HPC领域的巨大进步。Amazon EC2 P5实例的推出,不仅大幅提升了计算性能,还为未来的技术发展提供了强大支持。无论是在AI模型训练、HPC计算,还是生成式AI应用中,EC2 P5实例都展示了其卓越的性能和高效的可扩展性。展望未来,这种合作模式将继续推动科技创新,为各行业带来解决方案的方法。

P5 实例提供 8 个 NVIDIA H100 Tensor Core GPU、640GB 的高带宽 GPU 内存、第三代 AMD EPYC 处理器、2TB 的系统内存以及 30TB 的本地 NVMe 存储空间。P5 实例还提供 3200Gbps 的聚合网络带宽(支持 GPUDirect RDMA),同时通过绕过 CPU 进行节点间通信实现更低的延迟和高效的横向扩展性能。

以下是这些实例的规格:

  • GPU:8 个 NVIDIA H100 Tensor Core GPU
  • GPU 内存:640GB 高带宽 GPU 内存
  • 处理器:第三代 AMD EPYC 处理器
  • 系统内存:2TB
  • 存储空间:30TB 本地 NVMe 存储
  • 网络带宽:3200Gbps 聚合网络带宽(支持 GPUDirect RDMA)

这些先进的规格使得 P5 实例在处理高性能计算和复杂的 AI/ML 任务时具有卓越的性能和可扩展性。

P5 实例和 NVIDIA H100 Tensor Core GPU 与P4D实例和处理器的比较

P5 实例非常适合训练和运行推理,适用于要求最严苛、计算密集型的生成式人工智能应用程序(包括问题解答、代码生成、视频和图像生成、语音识别等)背后日益复杂的 LLM 和计算机视觉模型。在这些应用程序中,与上一代基于 GPU 的实例相比,P5 提供最多可缩短 6 倍的训练时间。如果客户可以在工作负载中使用精度较低的 FP8 数据类型(使用转换器模型主干的许多语言模型中常见的类型),则通过支持 NVIDIA 转换器引擎,性能将进一步提升高达 6 倍。

使用 P5 实例的 HPC 客户可以在药物发现、地震分析、天气预报和财务建模等领域更大规模地部署要求严苛的应用程序。在基因组测序或加速数据分析等应用程序中使用动态编程(DP)算法的客户还将通过支持新的 DPX 指令集从 P5 中受益。

这可让客户探索以前看似无法触及的问题空间,更快地迭代其解决方案,以及更快地推向市场。

您可以在下面查看实例规格的详细信息以及 p4d.24xlarge 和全新 p5.48xlarge 之间实例类型的比较:

第二代 Amazon EC2 UltraClusters 和 Elastic Fabric Adaptor (EFA) P5 实例,为多节点分布式训练和紧密耦合的高性能计算 (HPC) 工作负载提供了无与伦比的扩展能力。它们利用第二代 EFA 技术,实现高达 3,200Gbps 的网络速度,相较于 P4d 实例,性能提升了 8 倍。

为了更好地满足客户对大规模和低延迟的需求,P5 实例现在部署在第二代 EC2 UltraClusters 中,可在多达 20,000 个 NVIDIA H100 Tensor Core GPU 上提供极低的延迟。EC2 UltraClusters 中的 P5 实例,提供了云端最大规模的机器学习基础设施,带来了高达 20 exaflops 的聚合计算能力,为客户带来前所未有的性能体验。

EC2 UltraClusters 采用 Amazon FSx for Lustre,这是一种基于最受欢迎的高性能并行文件系统构建的完全托管共享存储解决方案。通过 FSx for Lustre,您可以按需大规模快速处理海量数据集,并实现亚毫秒级的延迟。FSx for Lustre 的低延迟和高吞吐量特性专为 EC2 UltraClusters 上的深度学习、生成式人工智能和高性能计算 (HPC) 工作负载进行了优化。

FSx for Lustre 持续为 EC2 UltraClusters 中的 GPU 和机器学习加速器提供数据,从而加速处理最严苛的工作负载。这些工作负载包括大型语言模型 (LLM) 训练、生成式人工智能推理以及 HPC 工作负载,如基因组学研究和金融风险建模。

EC2 P5 实例现已推出,您可以在美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)区域使用 P5 实例,立即体验其强大性能。

启动 P5 实例时,您可以选择 AWS Deep Learning AMI(DLAMI)来支持 P5 实例。DLAMI 为机器学习从业者和研究人员提供了强大的基础设施和工具,使他们能够在预配置的环境中快速构建可扩展、安全的分布式机器学习应用程序。

您可以使用 Amazon Elastic Container Service(Amazon ECS)P4的库,在配备 AWS 深度学习容器的 P5 实例上运行容器化应用程序。为了获得更加高效的管理体验,您还可以通过 Amazon SageMaker 使用 P5 实例。SageMaker 帮助开发人员和数据科学家轻松扩展至数十、数百甚至数千个 GPU,从而快速训练模型,而无需担心集群和数据管道的设置。HPC 客户则可以利用带有 P5 实例的 AWS Batch 和 ParallelCluster,帮助高效地编排作业和集群。

现有的 P4 客户需要更新其 AMI 才能使用 P5 实例。具体而言,需要更新 AMI 以包含支持 NVIDIA H100 Tensor Core GPU 的最新 NVIDIA 驱动程序,并安装最新的 CUDA 版本(CUDA 12)、CuDNN 版本、框架版本(例如 PyTorch、Tensorflow)以及带有更新拓扑文件的 EFA 驱动程序。为方便您完成此过程,我们提供了新的 DLAMI 和深度学习容器,这些容器预先打包了使用 P5 实例所需的所有软件和框架,立即可用。

现已推出 Amazon EC2 P5 实例现已在美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)区域推出。有关更多信息,请参阅 Amazon EC2 定价页面。要了解更多信息,请访问我们的 P5 实例页面,浏览 AWS re:Post for EC2,或通过您平时的 AWS Support 联系方式进行探索。

此外,您还可以选择内置生成式人工智能的广泛 AWS 服务,这些服务均运行在适用于生成式人工智能的最具成本效益的云基础设施上。要了解更多信息,请访问 AWS 上的生成式人工智能页面,以更快地进行创新并重塑您的应用程序。

感谢关注雲闪世界(亚马逊云AWS、谷歌GCP云服务协助解决相关技术问题)

标签:P5,AI,生成式,Amazon,实例,EC2,NVIDIA,GPU
From: https://blog.csdn.net/2401_85233349/article/details/140350602

相关文章

  • AI: 了解语言模型和变换器模型
    引言在现代自然语言处理(NLP)领域,语言模型和变换器模型占据了重要位置。这些模型使得计算机能够理解和生成人类语言。我们将探讨它们的工作原理、应用场景以及主要区别。语言模型语言模型是一种统计模型,旨在通过预测文本中下一个词或句子来理解和生成语言。传统的语言模型......
  • AI: 了解字节跳动的开源的奇迹 AnimateDiff-Lightning 文生视频大模型
    在不断发展的人工智能领域,开源贡献在推动技术进步和使前沿工具更广泛地可用方面起着至关重要的作用。字节跳动,这个科技界的知名企业,最近通过他们在HuggingFace上发布的模型AnimateDiff-Lightning,做出了重大贡献。本文将深入探讨AnimateDiff-Lightning的功能和优势,强调它为......
  • AI革新来袭:GitHub上的3大爆款项目,让你的创意与效率翻倍
    AI革新来袭:揭秘GitHub上的3大爆款项目,让你的创意与效率翻倍!2024年,AI技术在各行各业中掀起了一场革命,而GitHub作为开发者的乐园,孕育出了许多令人瞩目的AI开源项目。今天,就让我们一探究竟,看看这些项目如何让我们的生活和工作变得更加高效和有趣。  1.AI主播助你成为销售......
  • AWS JDBC Driver连接中国区的Aurora需要配置参数 enableClusterAwareFailover=false
    AWSJDBCDriver中国区和Global区域的区别是,由于中国区AuroraEndpoint与Global的后缀不同,中国区的AWSJDBCDriver其实无法识别中国区endpoint,因为中国区的资源endpoint是以".cn"结尾,这个endpoint不被认为是aurora的endpoint,会被认为是customdomain.因此应用程序在使用AW......
  • 【ZhangQian AI模型部署】目标检测、SAM、3D目标检测、旋转目标检测、人脸检测、检测
    目标检测【yolov10部署rknn、地平线、tensorRT、C++】【yoloworld部署rknn、地平线、tensorRT、C++】【yolov9部署rknn、地平线、tensorRT、C++】【yolov8部署rknn、地平线、tensorRT、C++】【yolov7部署rknn、地平线、tensorRT】【yolov6部署rknn、地平......
  • 阿里达摩院——寻光:用AI,实现视频创作一条龙!
    7月6日,在2024世界人工智能大会(WAIC2024)上,阿里达摩院推出了一站式AI视频创作平台—— 寻光,今天带大家提前来了解一下这款工具~1、关于“寻光”寻光是一个拥有辅助用户创作剧本、分镜图等,支持对生成及上传素材进行丰富的AI编辑,包括人物控制、场景控制、运镜控制、目标......
  • AI推介-大语言模型LLMs之RAG(检索增强生成)论文速览(arXiv方向):2024.06.20-2024.07.01
    文章目录~1.AStudyonEffectofReferenceKnowledgeChoiceinGeneratingTechnicalContentRelevanttoSAPPhIREModelUsingLargeLanguageModel2.FromRAGtoRICHES:RetrievalInterlacedwithSequenceGeneration3.SK-VQA:SyntheticKnowledgeGeneration......
  • 【大模型应用开发 动手做AI Agent】什么是Function Calling
    【大模型应用开发动手做AIAgent】什么是FunctionCalling1.背景介绍1.1问题的由来在人工智能和机器学习领域,函数调用(FunctionCalling)是一个基础且核心的概念。它指的是程序中一个函数被另一个函数、程序或库调用的过程。函数调用允许我们组织代码结构,复用代码片段,以......
  • PlugLink 与 AI 大模型:深入 COZE API 链接实践(附源码)
    在这个技术日新月异的时代,AI不再是遥不可及的概念,而是逐渐成为我们日常生活与工作中不可或缺的一部分。作为技术领域的探路者,我深感荣幸地向大家介绍PlugLink——一个旨在简化AI应用集成并促进跨领域协作的开源平台,以及它如何与AI大模型及COZEAPI完美握手,共同编......
  • 「AI绘画Stable Diffusion 零基础入门 」AI 绘画原理与工具介绍,万字解析AI绘画的使用
    大家好,我是程序员晓晓AI绘画原理想要入门AI绘画,首先需要了解它的原理是什么样的。其实很早就已经有人基于深度学习模型展开了对图像生成的研究了,但在那时,生成的图像分辨率和内容都非常抽象。直到近两年,AI产出的图像内容的质量变高、而且有一定的艺术价值,这时它才算......