首页 > 其他分享 >GPU A10 driver, CUDA 安装

GPU A10 driver, CUDA 安装

时间:2024-11-19 19:18:33浏览次数:1  
标签:A10 11.4 driver cuda nvidia GPU 安装

GPU A10 driver, CUDA 安装

环境

HOST: ubuntu804LTS
GUST: 通过PCIE 透卡, KVM 虚拟机: ubuntu1804LTS

在gust 里面安装GPU driver

driver 安装 步骤

NVIDIA Telsa GPU 的 Linux 驱动在安装过程中需要编译 kernel module,系统需提前安装 gcc 和编译 Linux Kernel Module 所依赖的包,例如 kernel-devel-$(uname -r) 等。

  1. 执行以下命令,并输入 root 用户密码,切换至 root 用户
  su
  1. 执行以下命令,查看当前系统中是否已安装 dkms。
  dpkg -l | grep -i dkms

若有返回结果,则表明安装成功。若返回结果为空,则表明未安装 dkms,执行以下命令进行安装。
执行下面命令安装

  apt-get install dkms
  1. 前往 Official Drivers 页面,按需选择 GRID 驱动类型。
    image

如有填写个人信息的页面可选择直接跳过,当出现以下页面时,右键单击 AGREE&DOWNLOAD 并选择菜单中的复制链接地址。如下图所示:
image

  1. ssh 登录 GPU gust 机器, 使用 wget 命令,粘贴 步骤5 中复制的链接地址,下载安装包。
  wget driver_url
  1. 执行以下命令,修改安装包权限。请将命令中的 xxx 替换为您实际的驱动版本号。
  chmod +x NVIDIA-Linux-x86_64-xxxx.run
  1. 由于 NVIDIA 动的安装需要依赖 gcc 和 linux-kernel-headers,请依次执行以下命令,检查当前系统中是否已安装 gcc 和 kernel-devel 包。
  dpkg -l | grep -i gcc
  dpkg -l | grep -i linux-headers

如返回不为空, 表明已经安装成功过; 若返回结果为空,则表明未安装,执行以下命令进行安装。

  sudo apt-get install gcc linux-kernel-headers
  1. 执行命令安装驱动程序,根据提示进行后续操作。请将命令中的 xxx 替换为您实际的驱动版本号。
  sudo sh NVIDIA-Linux-x86_64-xxxx.run --ui=none --disable-nouveau --no-install-libglvnd --dkms -s
  1. 安装完成后,执行以下命令进行验证。
  nvidia-smi

如返回信息类似下图中的 GPU 信息,则说明驱动安装成功。

安装最后出现 nvidia-drm 模块问题

  Unable to load the “nvidia-drm” kernel module
  ERROR: Installation has failed. Please see the file '/var/log/nvidia-installer.log' for details. You may find suggestions on fixing installation problems in the README available on the Linux driver download page at www.nvidia.com.

解决办法:

  1. 重新装
  2. https://onlycaptain.github.io/2018/08/18/Ubuntu下Nvidia驱动安装/
  3. https://www.machunjie.com/trouble/code_error/789.html

CUDA 安装

nvidia-smi 查看 driver 对应 cuda 版本

  root@123:~# nvidia-smi
  Fri Sep 16 16:27:55 2020
  +-----------------------------------------------------------------------------+
  | NVIDIA-SMI 470.141.03 Driver Version: 470.141.03 CUDA Version: 11.4 |
  |-------------------------------+----------------------+----------------------+
  | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
  | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
  | | | MIG M. |
  |===============================+======================+======================|
  | 0 NVIDIA A10 Off | 00000000:98:00.0 Off | 0 |
  | 0% 29C P8 19W / 150W | 4MiB / 22731MiB | 0% Default |
  | | | N/A |
  +-------------------------------+----------------------+----------------------+
   
  +-----------------------------------------------------------------------------+
  | Processes: |
  | GPU GI CI PID Type Process name GPU Memory |
  | ID ID Usage |
  |=============================================================================|
  | |
  +-----------------------------------------------------------------------------+
   

查看driver 对应的cuda 版本
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
https://developer.nvidia.com/cuda-toolkit-archive
https://developer.nvidia.com/cuda-11-4-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=18.04&target_type=runfile_local

下载cuda-toolkit

  wget https://developer.download.nvidia.com/compute/cuda/11.4.0/local_installers/cuda_11.4.0_470.42.01_linux.run
  sudo chmod +x cuda_11.4.0_470.42.01_linux.run
   
  ./cuda_11.4.0_470.42.01_linux.run

安装选项,因为已经提前安装了显卡驱动,所以把显卡驱动的安装选项取消掉:
image

选择Install回车,出现如下界面,表示安装完成(不必担心警告,那是因为我们没有选择安装显卡驱动而出现的,忽略即可):
image

测试一下:

  root@123:~# nvcc --version
  nvcc: NVIDIA (R) Cuda compiler driver
  Copyright (c) 2005-2021 NVIDIA Corporation
  Built on Wed_Jun__2_19:15:15_PDT_2021
  Cuda compilation tools, release 11.4, V11.4.48
  Build cuda_11.4.r11.4/compiler.30033411_0

配置CUDA环境

  打开用户配置文件:
  sudo vim ~/.bashrc
  在文件中添加如下语句:
   
  export PATH="/usr/local/cuda-11.4/bin:$PATH"
  export LD_LIBRARY_PATH="/usr/lcoal/cuda-11.4/lib64:$LD_LIBRARY_PATH"
   
  保存关闭后source文件使配置生效:
  source ~/.bashrc

https://zhuanlan.zhihu.com/p/112138261
https://blog.csdn.net/weixin_38369492/article/details/107957296

  标签: GPU

标签:A10,11.4,driver,cuda,nvidia,GPU,安装
From: https://www.cnblogs.com/sexintercourse/p/18555452

相关文章

  • NVIDIA(Hopper)H100 Tensor Core GPU 架构
    NVIDIA(Hopper)H100TensorCoreGPU架构AI赋能个体创业致力于降低直播成本服务于商家和个人​关注他  NVIDIAH100TensorCoreGPU是NVIDIA最新的(2022年发布)通用可编程流式GPU,适用于HPC、AI、科学模拟和数据分析。H100GPU主要用于执行A......
  • 配置NVIDIA Container Runtime和容器运行GPUStack教程
    GPUStack是一个设计用于运行大模型的开源GPU集群管理器,提供私有部署的大模型服务,支持大语言模型、Embedding文本嵌入模型、Reranker重排序模型、Vision多模态模型等各种模型。它可以聚合不同平台(如AppleMacbook、WindowsPC和Linux服务器)的GPU,构建一个统一的异构GPU......
  • 配置NVIDIA Container Runtime和容器运行GPUStack教程
    GPUStack是一个设计用于运行大模型的开源GPU集群管理器,提供私有部署的大模型服务,支持大语言模型、Embedding文本嵌入模型、Reranker重排序模型、Vision多模态模型等各种模型。它可以聚合不同平台(如AppleMacbook、WindowsPC和Linux服务器)的GPU,构建一个统一的异构GPU......
  • 在Unity实现《Farcry5》 GPU地形
    【USparkle专栏】如果你深怀绝技,爱“搞点研究”,乐于分享也博采众长,我们期待你的加入,让智慧的火花碰撞交织,让知识的传递生生不息!一、需求背景开放大世界渲染中,地形的渲染占比较重,包括开发投入、表现效果及性能开销等。而地形Shader部分的性能优化已经做过多版了,但Mesh的部分还......
  • GPU渲染一文详解,设置、优势和技巧
    在3D渲染领域,速度和效率至关重要,而GPU渲染已成为游戏规则的改变者,这是不争的事实。本文将介绍有关GPU渲染的所有信息,从设置硬件到探索其优势,以及优化工作流程的一些有用技巧。我们希望本指南能帮助您更好地了解GPU为您提供了哪些功能,以实现更快、更高效的渲染。什么是GPU渲染?......
  • 分享一个可以白嫖GPU算力的平台,需要的快到碗里来!
    想做深度学习训练,在哪做呢?有两个选择,本地or上云!本地部署做产品,成本比较高,但是自由度更高,毕竟是自己的设备,想怎么造都行,但如果本地没有什么算力资源的,那只能上云来跑了!今天我们挑一个可以白嫖的方案,大家跟着操作。首先我们进入骋风算力平台,注册个人账号,该平台目前正在做启......
  • 解决MindSpore-2.4-GPU版本的安装问题
    问题背景虽说在MindSpore-2.3之后的版本中不在正式的发行版中支持GPU硬件后端,但其实在开发分支版本中对GPU后端是有支持的:但是在安装的过程中可能会遇到一些问题或者报错,这里复现一下我的Ubuntu-20.04环境下的安装过程。Pip安装基本的安装流程是这样的,首先使用anaconda创建......
  • Wgpu图文详解(03)缓冲区Buffer
    在上一篇文章中,我们介绍了Wgpu中的渲染管线与着色器的概念以及基本用法。相信读者还记得,我们在渲染一个三角形的时候,使用了三角形的三个顶点的索引作为了顶点着色器的输入,并根据索引值计算了三个几何顶点在视口中的位置,并通过片元着色器的代码逻辑,控制了每一个像素都用红色色值,最......
  • 手把手教你学pcie(14.6)--多GPU系统场景实例:基于PCIe的多GPU高性能深度学习模型训练系统
    目录项目实例:基于PCIe的多GPU高性能深度学习模型训练系统项目背景项目目标技术选型项目实施步骤1.系统建模2.数据预处理3.模型设计4.分布式训练5.性能评估项目总结基于PCIe的多GPU系统项目开发实例,我们将重点放在一个高性能深度学习模型训练系统的设计和实......
  • 为什么GPU算力平台性价比更高
    在高性能计算(HPC)和人工智能(AI)技术迅猛发展的当下,GPU算力平台扮演着关键角色,它们为这些前沿技术提供了坚实的基础,并正在成为推动各行业数字化转型的主要力量。骋风算力将引导您深入探索GPU算力平台,包括它的基础概念、操作机制、显著优势以及在多个行业中的应用实例。一、什么......