目录
我在配置DDBM(https://github.com/alexzhou907/DDBM/tree/main)环境时遇到的问题:
1、flash-att安装失败
2、openmpi和mpi4py安装失败
以下是基于我的情况的解决办法
安装flash-att
flash-att(1)对CUDA版本有要求(2)pytorch版本需与flash-att版本有一致性(3)需先安装ninja,否则编译很慢(当然安装了还是很慢)
1、首先通过nvcc -V
查看环境是否含有cuda以及版本是否在11.6及以上。如果不是,则去官网(https://developer.nvidia.com/cuda-toolkit-archive)下载
*还要注意,nvidia driver和CUDA版本的兼容性,可参考https://blog.i-net.pub/archives/nvidia-driver-ban-ben-he-cuda-ban-ben-jian-rong-xing
安装CUDA完成后,需添加环境变量,然后再检查nvcc -V
的CUDA版本是否已经改变
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
2、关于torch版本和flash-att版本的一致性,推荐DDBM中使用的版本
pip install torch==2.1.0+cu121 torchvision==0.16.0+cu121 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu121
pip install ninja
pip install flash-attn==2.0.4
*还要注意,torch和cuda版本的兼容性
3、按照以上流程,flash-att的安装还是很慢(数小时),我是晚上走之前放着安装,第二天早上就好了。急的可以参考从源码直接编译(https://zhuanlan.zhihu.com/p/655077866)
安装openmpi和mpi4py
我自己曾经遵从DDBM中的conda install -c conda-forge mpi4py openmpi
安装成功过1次,但是后来再装总失败
我觉得可以参考这篇教程:https://blog.csdn.net/monster7777777/article/details/124001248