完整代码:https://github.com/chenyinlin1/deepspeed_practice_example
官方文档:https://www.deepspeed.ai/getting-started/
Deepspeed安装:
1、创建虚拟环境deepspeed:conda create -n deepspeed python=3.8
2、cd /public/software/apps/DeepLearning/whl
安装对应版本的torch,torchvision,torchaudio,deepspeed(直接使用pip install + 文件名即可)
3、将数据集下载的位置更改到本地文件夹上(方便下载)
4、将github上的deepspeed实例上传到文件夹,并在登录节点上运行:python practice.py(目的是为了下载数据集,若不行则在https://www.cs.toronto.edu/~kriz/cifar.html自行下载python版本的)
5、创建param.sh脚本
6、提交任务:sbatch -p normal param.sh
其中使用zero offload训练未成功,因为没有找到合适的json文件(存档)
7、双卡训练效果:
单卡训练效果: