首页 > 其他分享 >从 0 到 1 制作自定义镜像并用于训练(MPI+CPU/GPU)

从 0 到 1 制作自定义镜像并用于训练(MPI+CPU/GPU)

时间:2024-12-01 09:04:54浏览次数:7  
标签:HOME 自定义 mpi && 镜像 GPU MPI MY

本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是MPI,训练使用的资源是CPU或GPU。

说明:

本实践教程仅适用于新版训练作业。

场景描述

本示例使用Linux x86_64架构的主机,操作系统ubuntu-18.04,通过编写Dockerfile文件制作自定义镜像。

目标:构建安装如下软件的容器镜像,并在ModelArts平台上使用CPU/GPU规格资源运行训练任务。

  • ubuntu-18.04
  • cuda-11.1
  • python-3.7.13
  • openmpi-3.0.0
操作流程

使用自定义镜像创建训练作业时,需要您熟悉docker软件的使用,并具备一定的开发经验。详细步骤如下所示:

  1. 前提条件
  2. Step1 创建OBS桶和文件夹
  3. Step2 准备脚本文件并上传至OBS中
  4. Step3 准备镜像主机
  5. Step4 制作自定义镜像
  6. Step5 上传镜像至SWR服务
  7. Step6 在ModelArts上创建训练作业

前提条件

已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。

Step1 创建OBS桶和文件夹

在OBS服务中创建桶和文件夹,用于存放样例数据集以及训练代码。需要创建的文件夹列表如表1所示,示例中的桶名称“test-modelarts” 和文件夹名称均为举例,请替换为用户自定义的名称。

创建OBS桶和文件夹的操作指导请参见创建桶新建文件夹

请确保您使用的OBS与ModelArts在同一区域。

表1 OBS桶文件夹列表

文件夹名称

用途

“obs://test-modelarts/mpi/demo-code/”

用于存储MPI启动脚本与训练脚本文件。

“obs://test-modelarts/mpi/log/”

用于存储训练日志文件。

Step2 准备脚本文件并上传至OBS中

准备本案例所需的MPI启动脚本run_mpi.sh文件和训练脚本mpi-verification.py文件,并上传至OBS桶的“obs://test-modelarts/mpi/demo-code/”文件夹下。

  • MPI启动脚本run_mpi.sh文件内容如下:
    #!/bin/bash
    MY_HOME=/home/ma-user
    
    MY_SSHD_PORT=${MY_SSHD_PORT:-"38888"}
    
    MY_TASK_INDEX=${MA_TASK_INDEX:-${VC_TASK_INDEX:-${VK_TASK_INDEX}}}
    
    MY_MPI_SLOTS=${MY_MPI_SLOTS:-"${MA_NUM_GPUS}"}
    
    MY_MPI_TUNE_FILE="${MY_HOME}/env_for_user_process"
    
    if [ -z ${MY_MPI_SLOTS} ]; then
        echo "[run_mpi] MY_MPI_SLOTS is empty, set it be 1"
        MY_MPI_SLOTS="1"
    fi
    
    printf "MY_HOME: ${MY_HOME}\nMY_SSHD_PORT: ${MY_SSHD_PORT}\nMY_MPI_BTL_TCP_IF: ${MY_MPI_BTL_TCP_IF}\nMY_TASK_INDEX: ${MY_TASK_INDEX}\nMY_MPI_SLOTS: ${MY_MPI_SLOTS}\n"
    
    env | grep -E '^MA_|^SHARED_|^S3_|^PATH|^VC_WORKER_|^SCC|^CRED' | grep -v '=$' > ${MY_MPI_TUNE_FILE}
    # add -x to each line
    sed -i 's/^/-x /' ${MY_MPI_TUNE_FILE}
    
    sed -i "s|{{MY_SSHD_PORT}}|${MY_SSHD_PORT}|g" ${MY_HOME}/etc/ssh/sshd_config
    
    # start sshd service
    bash -c "$(which sshd) -f ${MY_HOME}/etc/ssh/sshd_config"
    
    # confirm the sshd is up
    netstat -anp | grep LIS | grep ${MY_SSHD_PORT}
    
    if [ $MY_TASK_INDEX -eq 0 ]; then
        # generate the hostfile of mpi
        for ((i=0; i<$MA_NUM_HOSTS; i++))
        do
            eval hostname=${MA_VJ_NAME}-${MA_TASK_NAME}-${i}.${MA_VJ_NAME}
            echo "[run_mpi] hostname: ${hostname}"
    
            ip=""
            while [ -z "$ip" ]; do
                ip=$(ping -c 1 ${hostname} | grep "PING" | sed -E 's/PING .* .([0-9.]+). .*/\1/g')
                sleep 1
            done
            echo "[run_mpi] resolved ip: ${ip}"
    
            # test the sshd is up
            while :
            do
                if [ cat < /dev/null >/dev/tcp/${ip}/${MY_SSHD_PORT} ]; then
                    break
                fi
                sleep 1
            done
    
            echo "[run_mpi] the sshd of ip ${ip} is up"
    
            echo "${ip} slots=$MY_MPI_SLOTS" >> ${MY_HOME}/hostfile
        done
    
        printf "[run_mpi] hostfile:\n`cat ${MY_HOME}/hostfile`\n"
    fi
    
    RET_CODE=0
    
    if [ $MY_TASK_INDEX -eq 0 ]; then
    
        echo "[run_mpi] start exec command time: "$(date +"%Y-%m-%d-%H:%M:%S")
    
        np=$(( ${MA_NUM_HOSTS} * ${MY_MPI_SLOTS} ))
    
        echo "[run_mpi] command: mpirun -np ${np} -hostfile ${MY_HOME}/hostfile -mca plm_rsh_args \"-p ${MY_SSHD_PORT}\" -tune ${MY_MPI_TUNE_FILE} ... $@"
    
        # execute mpirun at worker-0
        # mpirun
        mpirun \
            -np ${np} \
            -hostfile ${MY_HOME}/hostfile \
            -mca plm_rsh_args "-p ${MY_SSHD_PORT}" \
            -tune ${MY_MPI_TUNE_FILE} \
            -bind-to none -map-by slot \
            -x NCCL_DEBUG -x NCCL_SOCKET_IFNAME -x NCCL_IB_HCA -x NCCL_IB_TIMEOUT -x NCCL_IB_GID_INDEX -x NCCL_IB_TC \
            -x HOROVOD_MPI_THREADS_DISABLE=1 \
            -x PATH -x LD_LIBRARY_PATH \
            -mca pml ob1 -mca btl ^openib -mca plm_rsh_no_tree_spawn true \
            "$@"
    
        RET_CODE=$?
    
        if [ $RET_CODE -ne 0 ]; then
            echo "[run_mpi] exec command failed, exited with $RET_CODE"
        else
            echo "[run_mpi] exec command successfully, exited with $RET_CODE"
        fi
    
        # stop 1...N worker by killing the sleep proc
        sed -i '1d' ${MY_HOME}/hostfile
        if [ `cat ${MY_HOME}/hostfile | wc -l` -ne 0 ]; then
            echo "[run_mpi] stop 1 to (N - 1) worker by killing the sleep proc"
    
            sed -i 's/${MY_MPI_SLOTS}/1/g' ${MY_HOME}/hostfile
            printf "[run_mpi] hostfile:\n`cat ${MY_HOME}/hostfile`\n"
    
            mpirun \
            --hostfile ${MY_HOME}/hostfile \
            --mca plm_rsh_args "-p ${MY_SSHD_PORT}" \
            -x PATH -x LD_LIBRARY_PATH \
            pkill sleep \
            > /dev/null 2>&1
        fi
    
        echo "[run_mpi] exit time: "$(date +"%Y-%m-%d-%H:%M:%S")
    else
        echo "[run_mpi] the training log is in worker-0"
        sleep 365d
        echo "[run_mpi] exit time: "$(date +"%Y-%m-%d-%H:%M:%S")
    fi
    
    exit $RET_CODE
  • 说明:

    “run_mpi.sh”脚本需要以LF作为换行符。使用CRLF作为换行符会导致训练作业运行失败,日志中会打印“$'\r': command not found”的错误信息。

  • 训练脚本mpi-verification.py文件内容如下:
    import os
    import socket
    
    if __name__ == '__main__':
        print(socket.gethostname())
    
        # https://www.open-mpi.org/faq/?category=running#mpi-environmental-variables
        print('OMPI_COMM_WORLD_SIZE: ' + os.environ['OMPI_COMM_WORLD_SIZE'])
        print('OMPI_COMM_WORLD_RANK: ' + os.environ['OMPI_COMM_WORLD_RANK'])
        print('OMPI_COMM_WORLD_LOCAL_RANK: ' + os.environ['OMPI_COMM_WORLD_LOCAL_RANK'])

Step3 准备镜像主机

准备一台Linux x86_64架构的主机,操作系统使用ubuntu-18.04。您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。

购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”,“镜像”选择“公共镜像”,推荐使用Ubuntu18.04的镜像。

Step4 制作自定义镜像

目标:构建安装好如下软件的容器镜像,并使用ModelArts训练服务运行。

  • ubuntu-18.04
  • cuda-11.1
  • python-3.7.13
  • openmpi-3.0.0

此处介绍如何通过编写Dockerfile文件制作自定义镜像的操作步骤。

  1. 安装Docker。

    以Linux x86_64架构的操作系统为例,获取Docker安装包。您可以使用以下指令安装Docker。关于安装Docker的更多指导内容参见Docker官方文档

    curl -fsSL get.docker.com -o get-docker.sh
    sh get-docker.sh
  • 如果docker images命令可以执行成功,表示Docker已安装,此步骤可跳过。

  • 确认Docker Engine版本。执行如下命令。
    docker version | grep -A 1 Engine

命令回显如下。

 Engine:
  Version:          18.09.0
  • 说明:

    推荐使用大于等于该版本的Docker Engine来制作自定义镜像。

  • 准备名为context的文件夹。
    mkdir -p context
  • 下载Miniconda3安装文件。

    使用地址 https://repo.anaconda.com/miniconda/Miniconda3-py37_4.12.0-Linux-x86_64.sh,下载Miniconda3 py37 4.12.0安装文件(对应 python 3.7.13)。

  • 下载openmpi 3.0.0安装文件。

    使用地址https://github.com/horovod/horovod/files/1596799/openmpi-3.0.0-bin.tar.gz,下载 horovod v0.22.1已经编译好的openmpi 3.0.0文件。

  • 将上述Miniconda3安装文件、openmpi 3.0.0文件放置在context文件夹内,context文件夹内容如下。
    context
    ├── Miniconda3-py37_4.12.0-Linux-x86_64.sh
    └── openmpi-3.0.0-bin.tar.gz
  • 编写容器镜像Dockerfile文件。在context文件夹内新建名为Dockerfile的空文件,并将下述内容写入其中。
    # 容器镜像构建主机需要连通公网
    
    # 基础容器镜像, https://github.com/NVIDIA/nvidia-docker/wiki/CUDA
    #
    # https://docs.docker.com/develop/develop-images/multistage-build/#use-multi-stage-builds
    # require Docker Engine >= 17.05
    #
    # builder stage
    FROM nvidia/cuda:11.1.1-runtime-ubuntu18.04 AS builder
    
    # 基础容器镜像的默认用户已经是 root
    # USER root
    
    # 复制 Miniconda3 (python 3.7.13) 安装文件到基础容器镜像中的 /tmp 目录
    COPY Miniconda3-py37_4.12.0-Linux-x86_64.sh /tmp
    
    # 安装 Miniconda3 到基础容器镜像的 /home/ma-user/miniconda3 目录中
    # https://conda.io/projects/conda/en/latest/user-guide/install/linux.html#installing-on-linux
    RUN bash /tmp/Miniconda3-py37_4.12.0-Linux-x86_64.sh -b -p /home/ma-user/miniconda3
    
    # 构建最终容器镜像
    FROM nvidia/cuda:11.1.1-runtime-ubuntu18.04
    
    # 安装 vim / curl / net-tools / ssh 工具(依然使用华为开源镜像站)
    RUN cp -a /etc/apt/sources.list /etc/apt/sources.list.bak && \
        sed -i "s@http://.*archive.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list && \
        sed -i "s@http://.*security.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list && \
        echo > /etc/apt/apt.conf.d/00skip-verify-peer.conf "Acquire { https::Verify-Peer false }" && \
        apt-get update && \
        apt-get install -y vim curl net-tools iputils-ping \
        openssh-client openssh-server && \
        ssh -V && \
        mkdir -p /run/sshd && \
        apt-get clean && \
        mv /etc/apt/sources.list.bak /etc/apt/sources.list && \
        rm /etc/apt/apt.conf.d/00skip-verify-peer.conf
    
    # 安装 horovod v0.22.1 已经编译好的 openmpi 3.0.0 文件
    # https://github.com/horovod/horovod/blob/v0.22.1/docker/horovod/Dockerfile
    # https://github.com/horovod/horovod/files/1596799/openmpi-3.0.0-bin.tar.gz
    COPY openmpi-3.0.0-bin.tar.gz /tmp
    RUN cd /usr/local && \
        tar -zxf /tmp/openmpi-3.0.0-bin.tar.gz && \
        ldconfig && \
        mpirun --version
    
    # 增加 ma-user 用户 (uid = 1000, gid = 100)
    # 注意到基础容器镜像已存在 gid = 100 的组,因此 ma-user 用户可直接使用
    RUN useradd -m -d /home/ma-user -s /bin/bash -g 100 -u 1000 ma-user
    
    # 从上述 builder stage 中复制 /home/ma-user/miniconda3 目录到当前容器镜像的同名目录
    COPY --chown=ma-user:100 --from=builder /home/ma-user/miniconda3 /home/ma-user/miniconda3
    
    # 设置容器镜像预置环境变量
    # 请务必设置 PYTHONUNBUFFERED=1, 以免日志丢失
    ENV PATH=$PATH:/home/ma-user/miniconda3/bin \
        PYTHONUNBUFFERED=1
    
    # 设置容器镜像默认用户与工作目录
    USER ma-user
    WORKDIR /home/ma-user
    
    # 配置 sshd,使得 ssh 可以免密登录
    RUN MA_HOME=/home/ma-user && \
        # setup sshd dir
        mkdir -p ${MA_HOME}/etc && \
        ssh-keygen -f ${MA_HOME}/etc/ssh_host_rsa_key -N '' -t rsa  && \
        mkdir -p ${MA_HOME}/etc/ssh ${MA_HOME}/var/run  && \
        # setup sshd config (listen at {{MY_SSHD_PORT}} port)
        echo "Port {{MY_SSHD_PORT}}\n\
    HostKey ${MA_HOME}/etc/ssh_host_rsa_key\n\
    AuthorizedKeysFile ${MA_HOME}/.ssh/authorized_keys\n\
    PidFile ${MA_HOME}/var/run/sshd.pid\n\
    StrictModes no\n\
    UsePAM no" > ${MA_HOME}/etc/ssh/sshd_config && \
        # generate ssh key
        ssh-keygen -t rsa -f ${MA_HOME}/.ssh/id_rsa -P '' && \
        cat ${MA_HOME}/.ssh/id_rsa.pub >> ${MA_HOME}/.ssh/authorized_keys && \
        # disable ssh host key checking for all hosts
        echo "Host *\n\
      StrictHostKeyChecking no" > ${MA_HOME}/.ssh/config
  • 关于Dockerfile文件编写的更多指导内容参见 Docker 官方文档

  • 确认已创建完成Dockerfile 文件。此时context文件夹内容如下。
    context
    ├── Dockerfile
    ├── Miniconda3-py37_4.12.0-Linux-x86_64.sh
    └── openmpi-3.0.0-bin.tar.gz
  • 构建容器镜像。在Dockerfile文件所在的目录执行如下命令构建容器镜像mpi:3.0.0-cuda11.1。
    docker build . -t mpi:3.0.0-cuda11.1
    

构建过程结束时出现如下构建日志说明镜像构建成功。

naming to docker.io/library/mpi:3.0.0-cuda11.1

Step5 上传镜像至SWR服务
  1. 登录容器镜像服务控制台,选择区域,要和ModelArts区域保持一致,否则无法选择到镜像。
  2. 单击右上角“创建组织”,输入组织名称完成组织创建。请自定义组织名称,本示例使用“deep-learning”,下面的命令中涉及到组织名称“deep-learning”也请替换为自定义的值。
  3. 单击右上角“登录指令”,获取登录访问指令,本文选择复制临时登录指令。
  4. 以root用户登录本地环境,输入复制的SWR临时登录指令。
  5. 上传镜像至容器镜像服务镜像仓库。
    1. 使用docker tag命令给上传镜像打标签。
      #region和domain信息请替换为实际值,组织名称deep-learning也请替换为自定义的值。
      sudo docker tag mpi:3.0.0-cuda11.1 swr.cn-north-4.myhuaweicloud.com/deep-learning/mpi:3.0.0-cuda11.1
  • 使用docker push命令上传镜像。
    #region和domain信息请替换为实际值,组织名称deep-learning也请替换为自定义的值。
    sudo docker push swr.cn-north-4.myhuaweicloud.com/deep-learning/mpi:3.0.0-cuda11.1
  1. 完成镜像上传后,在“容器镜像服务控制台>我的镜像”页面可查看已上传的自定义镜像。

    “swr.cn-north-4.myhuaweicloud.com/deep-learning/mpi:3.0.0-cuda11.1”即为此自定义镜像的“SWR_URL”。

Step6 在ModelArts上创建训练作业
  1. 登录ModelArts管理控制台,检查当前账号是否已完成访问授权的配置。如未完成,请参考使用委托授权针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。
  2. 在ModelArts管理控制台,左侧导航栏中选择“训练管理 > 训练作业”,默认进入“训练作业”列表。
  3. 在“创建训练作业”页面,填写相关参数信息,然后单击“提交”。
    • 创建方式:选择“自定义算法”
    • 启动方式:选择“自定义”
    • 镜像地址:“swr.cn-north-4.myhuaweicloud.com/deep-learning/mpi:3.0.0-cuda11.1”
    • 代码目录:设置为OBS中存放启动脚本文件的目录,例如:“obs://test-modelarts/mpi/demo-code/”
    • 启动命令:bash ${MA_JOB_DIR}/demo-code/run_mpi.sh python ${MA_JOB_DIR}/demo-code/mpi-verification.py
    • 环境变量:添加“MY_SSHD_PORT = 38888”
    • 资源池:选择公共资源池
    • 类型:选择GPU规格
    • 计算节点个数:选择“1”或“2”
    • 永久保存日志:打开
    • 作业日志路径:设置为OBS中存放训练日志的路径。例如:“obs://test-modelarts/mpi/log/”
  4. 在“规格确认”页面,确认训练作业的参数信息,确认无误后单击“提交”。
  5. 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。

    训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时不等。

    计算节点个数选择为2,训练作业也可以运行。

标签:HOME,自定义,mpi,&&,镜像,GPU,MPI,MY
From: https://blog.csdn.net/2404_89384544/article/details/144159004

相关文章

  • 从 0 到 1 制作自定义镜像并用于训练(Pytorch+CPU/GPU)
    本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch,训练使用的资源是CPU或GPU。说明:本实践教程仅适用于新版训练作业。场景描述本示例使用Linuxx86_64架构的主机,操作系统ubuntu-18.04,通过编写Dockerfile文件制作自定义镜像......
  • 通过代码实现log4net自定义配置
    大家在使用log4net的时候,常规的用法都是在配置文件里面进行设置。但是配置文件里面的配置项非常多,不利于记忆,所以说我们希望他能直接在代码中设置。于是,我写了个自定义日志配置的方法,核心的配置对象为RollingFileAppender,只需要对他进行设置就可以了。下面给大家展示下,基于......
  • .NET 项目自定义 MSBuild Task
    ......
  • vue3实现自定义导航菜单
    一、创建项目    1.打开HBuilderX图1    2.新建一个空项目        文件->新建->项目->uni-app        填写项目名称:vue3demo        选择项目存放目录:D:/HBuilderProjects        一定要注意vue的版本,当前选择的版......
  • easyexcel导出头部样式设置,多个tab导出,头部自定义RGB颜色
    alibabaeasyexcel版本3.0.5,poi版本4.1.2,导出头部样式设置,多个tab导出,头部自定义RGB颜色 效果,头部三行,三个tab  下面贴出代码:packagecom.alpha.erp.dto.accounts;importcom.alibaba.excel.metadata.Head;importcom.alibaba.excel.metadata.data.WriteCellDa......
  • Unity Mask原理及自定义遮罩
    主要内容StencilBuffer是什么?自定义Shader来实现遮罩UnityMask的原理1.什么是StencilBufferGPU在渲染前会为每个像素点分配一个1字节(8位)大小的内存区域,即StencilBuffer。在决定是否要渲染某个像素点之前,会将它当前的StencilBuffer的值与某个参考值(stencilID)进行指定......
  • gofiber: 用go-playground/validator校验参数,自定义错误信息
    一,go-playground/validator官方代码地址https://github.com/go-playground/validator二,安装$goget-ugithub.com/go-playground/validator/v10go:downloadinggithub.com/go-playground/validator/v10v10.23.0go:downloadinggithub.com/gabriel-vasile/mimetypev1.4.......
  • ios短视频开发,自定义缓存策略的实现
    ios短视频开发,自定义缓存策略的实现缓存所占用的空间往往会成为迫使用户卸载应用的最后一根稻草。开发者不能无上限对音视频资源进行缓存,通常的维护手法是通过限制空间大小,比如,用户通常可以接受视频类应用有1G左右的缓存空间,即时通信类应用也许会更大些。因此在ios短视频开发......
  • uni-app vue3 获取 package.json 自定义环境变量
    一、初始化项目 二、添加 package.json 文件(必须)注意:文件里面不要写备注{ "uni-app":{ "scripts":{ "dev":{ "title":"开发版", "env":{ "ENV_TYPE":"dev", "UNI_PLATFORM&q......
  • vue3自定义指令实现截图
    依赖:•使用html2canvas(需要先安装:npminstallhtml2canvas)。绑定事件:•在目标DOM上绑定click事件。截图逻辑:•点击后调用html2canvas截取目标元素的截图。•使用Canvas的toDataURL()方法生成Base64图片。保存文件:•创建一个a标签,通过downloa......