了解 NVIDIA 的数据中心 GPU 系列

时间：2024-03-05 16:12:23浏览次数：27

长话短说

NVIDIA 拥有数十个 GPU，可以为不同大小的 ML 模型提供服务。但了解这些不同卡的性能和成本（更不用说保持名称正确）是一个挑战。每个 GPU 的名称是一个字母数字标识符，传达有关其架构和规格的信息。本指南可帮助您浏览 NVIDIA 数据中心 GPU 系列并将其映射到您的模型服务需求。

每个人都希望拥有强大、经济高效的硬件来运行生成式 AI 工作负载和 ML 模型推理。但选择数据中心 GPU 并不像走进 Apple 商店挑选一台新笔记本电脑那么简单，那里只有几个选项和明确的升级路径。这更像是购买汽车，您的预算和用例会指导您在具有不同功能、价格和可用性的一系列车型和车型年份中做出决定。

本文首先将指导您解读 NVIDIA 数据中心 GPU 的命名方案，以识别卡的架构和层级。然后，它提供了清晰、直接比较不同 GPU 的方法，以及模型训练、微调和服务中常用的几种卡的关键规格表。

分解 GPU 名称

数据中心 GPU 的名称可能相当晦涩难懂：K80、T4、A100、L40。但这些不仅仅是字母和数字的随机集合。它们对有关 GPU 规格和性能的重要信息进行编码。

Understanding NVIDIA’s Datacenter GPU line

信件：卡片架构

GPU 名称中的字母指的是该 GPU 的架构。每隔几年，NVIDIA 都会针对消费类和数据中心产品的 GPU 发布新的微架构。新的微架构通过更新的指令集提高了性能和功效，并且通常利用更小的工艺节点将更多的晶体管封装到每个芯片上。每个新的微架构都意味着更快、更优化的 GPU。

在 GPU 的名称中，该字母是架构名称的第一个字母。例如，A 代表安培，L 代表洛夫莱斯。NVIDIA GPU 架构以著名科学家的名字命名。

GPU 架构的时间表

数量：卡层

对于每种架构，NVIDIA 都会生产多种具有不同价格、性能和功耗目标的 GPU。数字越大，GPU 的功能就越强大，价格也就越昂贵。

不同级别的 GPU 针对不同的计算工作负载进行了优化。最近几代的等级包括：

4：一代中最小的 GPU，4 层卡能耗低，最适合经济高效地调用中等大小的模型。
10：针对 AI 推理进行优化的中端 GPU。
40：最适合虚拟工作站、图形和渲染的高端 GPU。
100：一代中最大、最昂贵、最强大的 GPU。它具有最高的核心数量和最多的 VRAM，专为大型模型的推理以及训练和微调新模型而设计。

比较示例

有了这两个因素，我们就可以使用 GPU 名称中的字母和数字组合来推断有关该卡的一些事实。

示例：T4 和 L4 有什么区别？

L4 是 T4 的下一代替代品。L4 使用 Lovelace 架构并于 2023 年发布，而 T4 使用 Turing 架构并于 2018 年发布。这些卡属于同一级别 - 它们使用相似的功率并且设计用于相似的用例 - 但更新的卡L4 拥有越来越强大的核心和 24 GB 的 VRAM，而 T4 则为 16 GB。

示例：A10 和 A100 有什么区别

A100 是 A10 的更大、更强大、更昂贵的版本。两种卡具有相同的架构，但 A100 具有更多的内核和 VRAM，并且消耗更多的电量，因此它可以运行更大的模型并运行得更快。

示例：如何比较 K80 和 T4？

不同架构和不同层的任意两张卡之间的比较是复杂的。K80 使用已有十年历史的开普勒架构，而 T4 采用更现代的图灵架构。因此，对于许多机器学习任务来说，T4 每分钟的运行成本更低（由于其功耗较低），同时由于其更强大的内核，其速度也比 K80 快得多。

示例：T4 和 A10 可以提供哪些型号的服务？

有关详细分类，请查看此比较文章。

refer : https://www.baseten.co/blog/understanding-nvidias-datacenter-gpu-line/

标签：数据中心,架构,示例,T4,NVIDIA,GPU
From： https://www.cnblogs.com/tongai/p/18054276

中国联通全球托管运维服务：助力企业无忧应对数据中心运维挑战
在全球化背景下，企业的信息化进程不断加快，数据中心作为支撑关键业务的核心基础设施，在全球范围内的布局与运维变得愈发重要。然而，企业在设立异地或海外数据中心时，常常面临资源有限、人力短缺等问题，特别是在目标地缺乏专业的IT工程师团队时，如何确保数据中心的稳定运行与高效管理成为......
远程GPU服务器环境配置
miniconda环境在Linux系统中安装Miniconda通常涉及以下几个步骤：步骤1：下载Miniconda安装脚本可以从官方或者镜像站点下载Miniconda的Linux版本。这里提供一个通用的镜像站点下载命令，可以根据实际情况选择适合自己的Miniconda版本和架构：wgethttps://mirrors.tuna.tsinghua.edu......
英伟达gpu查看显存剩余
我使用tmux常常将一块屏幕的四分之一用于观察gpu利用率和显存剩余，但是如果我使用nvidia-smi就会显示不全，因为我有10块gpu。我想了想，直接使用nvidia-smi显示的信息很多是我不需要的，我只需要gpu-id号，显存剩余，显存总量，gpu利用率就这些，那么我们可以设置只显示这些：nvidia-smi--query......
GPU算力共享
工作原理通过扩展的方式管理GPU资源Kubernetes本身是通过插件扩展的机制来管理GPU资源的，具体来说这里有两个独立的内部机制。第一个是ExtendResources，允许用户自定义资源名称。而该资源的度量是整数级别，这样做的目的在于通过一个通用的模式支持不同的异构设备，包括......
解决nvidia-smi报错：NVIDIA-SMI has failed because it couldn‘t communicate with th
昨天一切正常，今天ubuntu启动突然卡住了，一直停在黑屏光标界面。在网上看到原因可能和nvidia驱动有关。输入nvidia-smi报出题目中的错误。一般这种错误都是在刚安装nvidia驱动后第一次启动可能出现，见我这篇文章。不过这次是突然出现的，不是安装驱动后出现的，所以不是安装nvidia驱......
[转帖]IB和RoCE，谁更适合AI数据中心网络?
https://zhuanlan.zhihu.com/p/668576216 超高带宽、超低延迟、超高可靠，这是大模型训练对于网络的要求。多年来，TCP/IP协议一直是互联网通信的支柱，但对于AI网络来说，TCP/IP在某些方面存在着致命的缺点。TCP/IP协议的时延较高，通常在数十微秒左右，同时还会对CPU造成严重的负......
Use Wayland with proprietary NVIDIA drivers
Waylanddoesnotplaywellwithproprietarydrivers.CurrentlythebiggestissueisthatNVIDIAdoescurrentlynotsupportXwaylandproperly,soappsthatrequireitgetsoftwarerendering.Thisincludesmostgames,whicharethemostcommonusecasefor......
conda安装gpu版本pytorch与gpu版本tensorflow
创建环境进入环境nvidia-smi查看cuda版本，根据cuda版本安装对应版本的pytorch，在pytorch官网可以查看，版本不合适可以使用较低版本cuda的torch，使用官网提供的命令行安装即可，importtorch``print(torch.cuda.is_available())验证安装结果。tensorflow的安装要在环境中安装cudatoolki......
LLM研究之-NVIDIA的CUDA
一、什么是NVIDIA的CUDACUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA公司开发的一个并行计算平台和应用程序编程接口（API），它允许软件开发者和软件工程师使用NVIDIA的图形处理单元（GPU）来进行通用计算。简而言之，CUDA让开发者能够利用NVIDIA的GPU进行高效能的计算工作，这通常被称......
Tacotron2(NVIDIA版)训练笔记
https://blog.csdn.net/qq_44951010/article/details/124828260 Tacotron2项目地址：https://github.com/NVIDIA/tacotron2Tacotron2中文训练笔记：https://blog.csdn.net/qq_44951010/article/details/124830538从科大讯飞爬取音频数据：https://blog.csdn.net/qq_44951010/article/......