1、查看cuda版本
which cuda
1
2、在确定cuda版本之后,注册并登录英伟达官网,查找指定cuda版本的NCCL软件;
管网链接:https://developer.nvidia.com/nccl/nccl-legacy-downloads
指定版本为:不确定系统,本地安装
3、下载到本地之后,压缩包文件名为:nccl_2.6.4-1+cuda10.0_ppc64le.txz
解压缩相关命令为:
cd /usr/local
tar -xvf nccl_2.6.4-1+cuda10.0_ppc64le.txz
1
2
相关文件在GPU-3上已完成解压,可直接cp复制即可;
GPU-3文件路径:/home/op/bai**/bak/NCCL/nccl_2.6.4-1+cuda10.0_ppc64le
4、解压缩之后,文件夹包含:
cd nccl_2.6.4-1+cuda10.0_ppc64le
ls
1
2
文件夹内容如下:
5、确定cuda路径,为下一步相关操作做准备(无需参照操作,个人确认cuda版本)
6、将include文件夹下的文件都复制到cuda文件夹下对应的inlcude中去;同理将lib文件夹下所有文件都复制到cuda文件夹下对应的lib64中去;
相关命令:
sudo cp include/* /usr/local/cuda-10.0/include
sudo cp lib/* /usr/local/cuda-10.0/lib64
1
2
7、经过确认,我们安装的是cuda-10.0, 然后进入/usr/local/cuda-10.0/lib64
cd /usr/local/cuda-10.0/lib64
ls
1
2
8、需要删除原有文件,然后重新生成libnccl.so 和 libnccl.so.2这两个文件.
# cd /usr/local/cuda-10.0/lib64
# 删除原有文件
sudo rm libnccl.so libnccl.so.2
# 创建软连接
sudo ln -s libnccl.so.2.6.4 libnccl.so.2
sudo ln -s libnccl.so.2 libnccl.so
# 查看软链接是否创建成功
ls
1
2
3
4
5
6
7
8
9、将库路径添加到LD_LIBRARY_PATH 环境变量或将其注册到`/etc/ld.so.conf
$ export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/nccl_2.6.4-1+cuda10.0_ppc64le/lib
1
10、确认是否成功需要再次实验测试。
————————————————
版权声明:本文为CSDN博主「福将~白鹿」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_41475067/article/details/123086190