首页 > 其他分享 >ROCm与torch、tensorflow、fairseq的安装

ROCm与torch、tensorflow、fairseq的安装

时间:2023-02-04 15:13:12浏览次数:64  
标签:rocm -- torch ROCr ROCm install fairseq runtime

环境

LINUX_DISTRO openSUSE Tumbleweed x86_64
LINUX_KERNEL 6.1.8-1-default
LAPTOP_INFO 82UG Legion R9000X ARHA7
GPU AMD ATI Radeon RX 6650 XT (RX 6800S)

ROCm

Repo

MAIN_REPO: https://repo.radeon.com/rocm/zyp/
ROOT_REPO: https://repo.radeon.com/
上面的链接是ROCm仓库,虽然官网上没有给出最新版的配置命令,而最新版没有任何坏处,所以默认安装latest仓库里的,虽然并不一定是真正意义的最新。

amdgpu-install & rocm repo

sudo zypper --no-gpg-checks install https://repo.radeon.com/amdgpu-install/22.20.5/sle/15.4/amdgpu-install-22.20.50205-1.noarch.rpm

这条命令会安装amdgpu-install 22.20.5,事实上也不是最新的,这一块的命名有一个改动,按照需要去选择。

此外这条命令可能会自动添加另一个ROCm仓库,如果需要修改,注意ROCm version>=5.1的仓库中包含两个文件夹mainproprietary,将少数程序移出目录。使用过程如果缺少了包可以再添加否则使用main应该是足够的。

如果执行sudo zypper ref出现了上述的仓库无法刷新Repository 'AMDGPU 5.4 repository' is invalid.,很可能因为一个变量amdgpudistro无法获取到正确的值。这个变量目前只出现在repo链接中,而且有两个选值:15.415.3,如果使用leap可能不会出现错误。

所以最好是自己修改链接为正确的固定链接。

install usecase

sudo amdgpu-install --usecase=rocm,hip --rocmrelease=5.4.2

上述命令中的rocmrelease选项为指定多版本中的某一个版本,比较容易知晓正确的版本号。这是截至目前最新的版本,应该与仓库的版本一致。
usecase 官网中有详细的说明,为了节省时间搬运至此。

# To display a list of available use cases. Note, the list in this section represents only a sample of available use cases for ROCm.
$ sudo amdgpu-install --list-usecase
If --usecase option is not present, the default selection is "graphics,opencl,hip"

Available use cases:
rocm(for users and developers requiring full ROCm stack)
- OpenCL (ROCr/KFD based) runtime
- HIP runtimes
- ROCm Compiler and device libraries
- ROCr runtime and thunk

lrt(for users of applications requiring ROCm runtime)
- ROCm Compiler and device libraries
- ROCr runtime and thunk

opencl(for users of applications requiring OpenCL on Vega or
later products)
- ROCr based OpenCL
- ROCm Language runtime

openclsdk (for application developers requiring ROCr based OpenCL)
- ROCr based OpenCL
- ROCm Language runtime
- development and SDK files for ROCr based OpenCL

hip(for users of HIP runtime on AMD products)
- HIP runtimes
- hiplibsdk (for application developers requiring HIP on AMD products)
- HIP runtimes
- ROCm math libraries
- HIP development libraries

默认安装即可。其余的软件包可以在后续需要再添加,尤其是编译时需要加入devel包。

环境变量

export HSA_OVERRIDE_GFX_VERSION=10.3.0
由于RX 6800SGFX_VERSION是不受支持的,目前最高的gfx1030

torch

pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/rocm5.2

注意pip3命令,也可能是pip

tensorflow

pip3 install tensorflow tensorflow-rocm`

fairseq

pip3 install fairseq`

问题

  1. 注意执行的python往往是/bin/python这会出现缺失本地用户环境变量的问题。临时使用需要更改命令为HSA_OVERRIDE_GFX_VERSION=10.3.0 command
  2. python环境可指定显示给内部的gpu序列。CUDA_VISIBLE_DEVICES=0 command,可以指定运行的gpu。
  3. apex使用,该torch扩展可以编译给rocm用。可能需要修改目前仓库的代码。

标签:rocm,--,torch,ROCr,ROCm,install,fairseq,runtime
From: https://www.cnblogs.com/notonlion-graden/p/17091516.html

相关文章

  • Pytorch_YOLO-v8-推理
    推理代码###pred_scrapt.pyfromultralyticsimportYOLOfromPILimportImageimportcv2model=YOLO("model.pt")im2=cv2.imread("bus.jpg")results=model......
  • PyTorch | 生物医学 | Deep learning
     以前一直没有条件,曾一度想自己买个显卡搞DL,但没有时间,也没有支持,最后就不了了之了。无论是NGS的genetics,还是NGS的single-cell,DL都是大有可为的,最近出现的chatgpt更是......
  • pytorch net.state_dict问题
    pytorch使用中发现net.state_dict只保存所有module层的偏置与权重值,不保存零散变量值。验证代码#encoding:utf-8importtorchimporttorch.nnasnnimporttorch.op......
  • 【Pytorch】PyTorch机器学习步骤
    PyTorch机器学习步骤机器学习步骤准备数据选择模型用于前向训练的模型用于计算损失的损失函数用于更新参数的优化器训练循环计算前馈结果计算损失求梯度更......
  • 【Pytorch】PyTorch环境配置
    PyTorch环境配置实验环境操作系统:Windows11实验步骤下载安装Anaconda使用推荐选项安装,否则可能出现权限问题在PyTorch官网获取安装命令,在Anaconda打开命令行......
  • Pytorch_YOLO-v8-模型训练
    datasetYOLO会自动将…/datasets/dataset_new/images/train/1.jpg中的/images/替换成/labels/以寻找它的标签,如…/datasets/dataset_new/labels/train/1.txt0:perso......
  • 在 PyTorch 中使用梯度检查点在GPU 上训练更大的模型
    作为机器学习从业者,我们经常会遇到这样的情况,想要训练一个比较大的模型,而GPU却因为内存不足而无法训练它。当我们在出于安全原因不允许在云计算的环境中工作时,这个问题经......
  • 小土堆pytorch笔记
    I验证网络结构是否有误初始化一个符合网络的输入数据input=torch.ones((64,3,32,32))将输入数据传进网络,看是否报错print(network(input).shape)II修......
  • Pytorch_YOLO
    历史版本2016年,JosephRedmon提出了他至今以来最有名的个人项目:JosephRedmon《YouOnlyLookOnce:Unified,Real-TimeObjectDetection》 https://pjreddie.co......
  • PyTorch图像分类全流程实战--模型部署07
    教程同济子豪兄https://space.bilibili.com/1900783代码运行云GPU平台:https://featurize.cn/?s=d7ce99f842414bfcaea5662a97581bd1模型部署入门教程(一):模型部署简介htt......