1 背景

随着Nvidia GPU在渲染、编解码和计算领域发挥着越来越重要的作用，各大软件厂商对于Nvidia GPU的研究也越来越深入，尽管Nvidia倾向于生态闭源，但受制于极大的硬件成本压力，提升GPU利用率、压榨GPU性能逐渐成为基础设施领域关注的焦点。自然地，为了追求GPU上显存资源和算力资源的时分复用和空分复用，大家都开始考虑软件定义GPU，GPU虚拟化应运而生。

2 GPU虚拟化

在深度学习领域，Nvidia GPU的软件调用栈大致如下图所示，从上至下分别为： User APP：业务层，如训练或推理任务等 Framework：框架层，如tensorflow、pytorch、paddle、megengine等 CUDA Runtime：CUDA Runtime及周边生态库，如cudart、cublas、cudnn、cufft、cusparse等 CUDA User Driver：用户态CUDA Driver，如cuda、nvml等 CUDA Kernel Driver：内核态CUDA Driver，参考官方开源代码，如nvidia.ko等 Nvidia GPU HW：GPU硬件

理论上，上述每一层都可以做GPU虚拟化，但从工程化的角度来看，考虑可行性、可维护性、overhead和部署方面，在CUDA Driver或硬件层实现更合适。

2.1 用户态虚拟化

目前比较常用的方法是在用户态CUDA Driver的动态库做劫持，参考cuda hook开源代码。通过拦截CUDA Driver API的调用，实现显存资源和算力资源的隔离。不仅对用户代码零侵入，而且灵活性较高，无论是部署在Bare Metal，还是结合容器化进行部署，都比较方便。

2.2 内核态虚拟化

通过劫持CUDA Driver动态库部署，可能会存在用户篡改的风险，在公有云上一般不能容忍。而内核态的优势在于可以一定程度上防止用户篡改，但由于Nvidia的闭源性，在内核态做显存资源和算力资源的隔离，技术难度较高。目前阿里云、腾讯云和百度云已经实现部署。

2.3 硬件虚拟化

Nvidia官方硬件虚拟化方案MIG（Multi-Instance GPU），从Ampere架构开始支持硬件层面的隔离，隔离程度更彻底，但最多只支持7个GPU实例的虚拟化环境。

3 其他

3.1 vGPU

Nvidia官方虚拟GPU解决方案，主要用于支持交付图形丰富的虚拟桌面和工作站，可以将GPU资源重新划分，以保证GPU资源可以在多个虚拟机之间共享，或者可以将多个GPU分配给一个虚拟机，可提升任意工作负载的性能。

3.2 MPS（Multi-Process Service）

Nvidia官方多进程context融合方案，支持将多个进程上的kernel发送到MPS server或者直接发送到GPU上计算，避免了多进程在GPU上context的频繁切换。缺点是故障率较高，特别是故障在进程间扩散一般是不能容忍的。

3.3 远程GPU

将GPU Server拉远，实现GPU池化，突破CPU与GPU的配比极限，拓展GPU虚拟化，可以最大限度地利用集群内的GPU碎片，提升GPU的利用率。趋动科技的OrionX方案，目前处于领先地位。

标签：虚拟化,Driver,CUDA,Nvidia,GPU,资源
From： https://www.cnblogs.com/bruceleely/p/17277240.html

虚拟化云计算-numa与pci查看
最近在部署服务器上的云应用的时候，需要查看numas上cpu核心与pci网卡插槽的对应关系，总结了一些numa和pci的知识，希望可以帮助到其他人numa概念Non-UniformMemoryAccess,非统一内存访问（NUMA）,一种用于多处理器的电脑内存体设计，内存访问时间取决于处理器的内存位置。在NUMA下，处......
YRCloudFile V6.10.0 功能新增对 NVIDIA GPUDirect 与回收站的支持
近日，焱融科技发布分布式文件存储产品YRCloudFile V6.10.0版本。在该版本中，YRCloudFile首次支持了NVIDIAGPUDirectStorage（GDS）、新增回收站、数据加载热层清理等产品......
ubuntu22.04下安装nvidia-docker
首先需要保证dockerengine已经安装成功，具体见：https://www.cnblogs.com/devilmaycry812839668/p/17269122.html ====================================== nvi......
CNStack 虚拟化服务：实现虚拟机和容器资源的共池管理
作者：林苍背景容器无疑已经成为新的云计算基础设施，企业私有云平台的建设重心，正在从虚拟化的计算、存储、网络的建设，转向构建以容器、微服务等为核心的云原生平台。不过......
pytorch cuda gpu版本与detectron2、jupyter notebook安装
任意版本的pytorch、cuda的gpu版本与detectron2、jupyternotebook安装1.简介本文主要介绍pytorchcudagpu版本与detectron2、jupyternotebook安装,主要是基于docker......
问题：tensorflow指定了gpu运行，依旧使用cpu
1、首先检查当前环境的cpu,gpu设备信息fromtensorflow.python.clientimportdevice_libas_device_liblocal_device_protos=_device_lib.list_local_devices()devi......
exsi虚拟化一站式
#情境最近，想要入一台实体机服务器，之前公司有一台柜式服务器，是怎么装的呢？他是先装了一个windows，然后在window上面安装了vmware，之后再进行虚拟化如果创建一台新的虚拟机，要么......
《操作系统导论》读书笔记1——CPU虚拟化，进程
系列文章目录和关于我一丶CPU的虚拟化一个桃子，我们称之为物理（physical）桃子。但有很多想吃这个桃子的人，我们希望向每个想吃的人提供一个属于他的桃子，这样才能皆大欢喜。......
Zabbix监控VMware虚拟化指南
第1章、方案设计1.1、简介自Zabbix2.2.0版本开始支持VMwarevCenter或vSphere版本最低为4.1。Zabbix可以使用低级别自动发现VMware宿主机和虚拟机，并根据事先定义的......
KVM虚拟化
210303124王佳琳2023.2.16云计算与虚拟化技术第⼀章：云计算相关概念1.云计算介绍云计算是⼀种按量付费的资源出租模式！云计算的底层是通过虚拟化技术来实现的！2.云计算的......

Nvidia GPU虚拟化