一、创建用户
用户管理-创建用户:
1. 在ai-station的web页面上登录管理员的账号:admin,密码:123456Aaa?
2. 点击系统管理 -> 用户管理 ->创建 -> 再次输入密码:123456Aaa?
3. 创建普通用户:账户和姓名必须一致(自定义设置)->选取iei 用户组 -> 点击确定
4. 设置配额:为了后续长久使用方便,都选取无限制
5. 再次进入ai-station的web页面上登录自己设置的账号,首次登录密码默认:123456a?,登录后自己可以修改密码
二、文件管理:
文件管理 第一次创建文件时,建议从自己所用的服务器中拷贝到集群管理节点的服务器以下是步骤(案例):
1. 登录集群服务器
从ssh中连接:ip地址:172.16.80.11,端口:22,账号:root 密码:Ais123456#123
绝对路径进入自己的家目录下:cd /mnt/inaisfs/user-fs,mkdir创建自己的目录
2. 传输数据(进入自己的用的服务器,将代码,模型,日志,数据等等都放到一个文件夹下)
命令scp -r tf_kir_subtyping_prediction [email protected]1:/mnt/inaisfs/user-fs/aaa/
密码:Ais123456#123
3. 登录web页面的ai-station,地址:https://172.16.80.11:3206
选取文件管理->用户目录,可以看到自己拷贝的文件夹
后续如果修改代码,可以直接在ai-station的web页面下打开自己的py文件,修改完保存就行
三、业务管理->开发环境
业务管理时,创建开发环境:
1.不选外部镜像
2.选pytorch,镜像是pytorch_new:v1.2
3.资源组:kir_pretrain
4.网络类型:ib
5.加速卡系列:GPU
6.加速卡类型L40S
7.CPU/加速卡:选取自定义: CPU:随意设置,最大192,加速卡:随意设置,最大8卡
8.点击确定。等待加载好镜像后,进入镜像点击shell页面,就可以开始测试了
四、业务管理->任务管理
任务管理-创建任务:
1.不选外部镜像
2.选pytorch,镜像是pytorch_new:v1.2
3.部署类型是:MPI,worker是8,不选弹性任务
4.训练任务的命令行:cd /zzj/deepspeed-test && bash -x start_deep.sh
5.资源组:kir_pretrain
6.网络类型:ib
7.加速卡系列:GPU
8.加速卡类型L40S
9.CPU/加速卡:选取自定义: CPU:128核,加速卡:8
10.点击确定
for i in `seq 1 8`;do ssh l40s$i nvidia-smi;done 查看集群显卡的nvidia-smi
注意重点是设置start_deep.sh 和 deepseed_env,下面的bash脚本内是有对应的start_deepspeed和deepspeed_env
start_deepspeed.sh
脚本内设置的多机多卡deepspeed的参数实例:kir_ai_station.py
配置文件:
kir_ds_config.json
五、镜像管理
镜像管理-创建镜像:
1. 在web页面中登录自己的账号密码,点击镜像管理,导出该镜像172.16.80.1:5000/other/basic
2. 点击业务管理->开发环境->创建环境 (和前面创建环境一样的操作,只是将pytorch_zzj_new-zzj:v1.2换成172.16.80.1:5000/other/basic)
3. 然后就是创建conda环境,安装各种包,安装完成后,点击右上角保存镜像(设置镜像名称)
4. 然后点击镜像管理,导出刚刚保存的镜像,就可以正常使用了