1、拉取该镜像
sudo docker pull ml-harbor.ops.qianxin-inc.cn/qaxgpt/transformers-pytorch-deepspeed-latest-gpu-ww-fa:latest
2、创建容器,运行该镜像
sudo docker run -t -i ml-harbor.ops.qianxin-inc.cn/qaxgpt/transformers-pytorch-deepspeed-latest-gpu-ww-fa:latest /bin/bash
3、更新该镜像
pip install tensorboardX
4、退出该容器
exit
5、查看该容器的ID,最左侧一列为ID,这里选取的ID一定要看最近的那个
sudo docker ps -a
6、更新对应ID
sudo docker commit -m="update dependent packages" -a="xxx" 00b920352113 ml-harbor.ops.qianxin-inc.cn/qaxgpt/transformers-pytorch-deepspeed-latest-gpu-ww:latest
7、push到harbor仓库
sudo docker login ml-harbor.ops.qianxin-inc.cn
sudo docker push ml-harbor.ops.qianxin-inc.cn/qaxgpt/transformers-pytorch-deepspeed-latest-gpu-ww-fa:latest
sudo docker run -it -d --cap-add=IPC_LOCK --device=/dev/infiniband --privileged --shm-size=800g --ulimit memlock=-1 --ulimit stack=67108864 --network host -v /data2/wangwei22/llm_cephfs/wangwei22:/tf --gpus all --name ww_h100_test ml-harbor.ops.qianxin-inc.cn/qaxsecurity/secllm:v3 /bin/bash
8、查看容器
sudo docker ps -a
sudo docker exec -it id前四位 /bin/bash
sudo docker exec -it 2461 /bin/bash
sudo docker exec -it 7655 /bin/bash
cd /tf
sudo docker stop
sudo docker rm
sudo docker start