首页 > 其他分享 >成都超算使用记录

成都超算使用记录

时间:2024-10-21 14:34:54浏览次数:6  
标签:SBATCH 记录 module 成都 rocm sh smi 超算 节点

调试流程

注:这里的工作流程用于测试环境、练习使用;

准备工作

环境准备

  1. 给conda换源:

Reference: 修改默认Anaconda镜像源

vim ~/.condarc

# 插入以下内容
channels:
	- https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
	- defaults
  1. 加载模块
module unload compiler/rocm/2.9
module load compiler/rocm/dtk-22.10

module load apps/anaconda3/5.2.0
  1. 创建环境
conda create -n dtk2210 python=3.9
  1. 安装本地PyTorch框架
source activate dtk2210
pip install /public/public_share/apps/dl_whl_dtk2210/torch-1.10.0a0+git2040069.dtk2210-cp39-cp39-manylinux2014_x86_64.whl

开始训练

  1. 申请节点:
salloc -n 32 -N 1 -p normal -t 0 --gres=dcu:4

## 选项说明
-n # cpu核数
-N # 节点数
-p # 分区队列
-t # 时间,0 即无限
--gres # GPU
## 成都超算使用的
# CPU是 Hygon C86 7185 32-core Processor
# GPU是 海光 DCU (Deep Computing Unit) 16GB * 4
image-20240909112615048
  1. 查看节点信息:
squeue

image-20240909112710649

  1. SSH到计算节点:
ssh a16r1n04
# 如果有多个节点,例如四个节点 c10r4n[00-01],ssh到每个节点时都要后缀其编号,ssh c10r4n00
  1. 加载模块,激活环境
module unload compiler/rocm/2.9
module load compiler/rocm/dtk-22.10
module load apps/anaconda3/5.2.0
source activate dtk2210
  1. 验证DCU可用否
python

import torch
torch.cuda.is_available()
torch.__version__
torch.cuda.device_count()
  1. 愉快享用免费算力8️⃣

其他常用的操作

资源查看

lscpu # cpu 信息
rocm-smi # DCU 状态
hy-smi # DCU 状态 conda下可用 和上面的命令差不都

image-20240909135750288

另一个DCU状态查看工具:dcustat

pip install dcustat
dcustat
dcustat --watch # 动态刷新
image-20240909135829127

conda相关

conda list # 查看装了哪些框架哪些包
conda env list # 查看 conda 环境
conda activate env_name
conda deavtive

常规使用流程

环境准备

~/pre目录下(我自定义的),

vim env.sh, 编辑环境配置脚本

#!/bin/bash
module unload compiler/rocm/2.9
module load compiler/rocm/dtk-22.10
module load apps/anaconda3/5.2.0
source activate dtk2210

运行脚本 source env.sh

vim rocm-smi.sh, 计算节点DCU状态重定向脚本

#!/bin/bash

# 无限循环
while true; do
    # 执行 rocm-smi 命令并将标准输出重定向到 rocm-smi.out 文件
    rocm-smi > ~/pre/rocm-smi.out
    # 等待一秒
    sleep 1
done

开始训练

使用salloc申请并 ssh 到的节点,需要shell保持活跃,否则可能被中断。所以salloc申请节点适用于测试,一般使用sbatch来跑任务。

  1. 写sbatch作业脚本 vim task.sh
#!/bin/bash
#SBATCH -p normal
#SBATCH -n 32
#SBATCH -N 1
#SBATCH --gres=dcu:4
#SBATCH -J test
#SBATCH -o ./log/%j.out
#SBATCH -e ./log/%j.err
 
# 配置环境 或 直接运行上面

标签:SBATCH,记录,module,成都,rocm,sh,smi,超算,节点
From: https://www.cnblogs.com/zhihh/p/18489338/Chengdu_HPC_Usage_Record

相关文章

  • 摧毁 做题记录
    因为边权为\(1\),所以两条路最多只有一条交集。因为\(n\le3000\),所以我们跑出全源最短路,枚举交集的端点,然后计算即可。时间复杂度\(O(n(n+m))\)。点击查看代码intn,m;intl1,s1,t1,l2,s2,t2;vector<int>G[maxn];intdis[maxn][maxn];boolvis[maxn];voidbfs(intst)......
  • electron学习记录-学了忘,忘了学,学了还得忘~
    1、序言:光快速入门就搞了快一下午,先是遇到npm证书过期,然后npmconfigsetstrict-sslfalse后,又报各种错,总之重装npm(不是重装node是npminstall-gnpm)+淘宝镜像+ssl:false解决了electron的node_moudles,我一直安装不上,现在都是;最终还是我从其他项目中copy了出来;除node_modul......
  • 序列 做题记录
    当\(k=0\)时,所有的数奇偶性都一样,所以答案为\(n!\)。否则有\(\lceil\frac{n}{2}\rceil\)个数是一个奇偶性的,另外\(\lfloor\frac{n}{2}\rfloor\)个数是另一个奇偶性的。如果\(\lceil\frac{n}{2}\rceil=\lfloor\frac{n}{2}\rfloor\),那么两种数可以交换,答案为\(2x!......
  • 2024 Noip 做题记录(五)
    \(\text{ByDaiRuiChen007}\)Round#17-2024.10.8A.[ARC135D]SquareProblemLink题目大意给定\(n\timesm\)矩阵,每次操作可以把\(2\times2\)子矩形中的每个元素\(\pm1\),若干次操作后最小化所有元素的绝对值和,给出构造。数据范围:\(n,m\le500\)。思路分析......
  • 苍穹外卖--开发记录day06
    文章苍穹外卖day06一:店铺营业状态设置二:httpclient三:微信小程序开发1:介绍2:准备工作3:入门案例四:微信登录功能总结苍穹外卖day06一:店铺营业状态设置外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传因为我们店铺的营业状态就两个值,一个是1一个......
  • 记录项目中遇见的几个常见异常
    org.springframework.beans.factory.BeanCreationException&&java.lang.IllegalStateExceptionCausedby:org.springframework.beans.factory.BeanCreationException:Errorcreatingbeanwithname'requestMappingHandlerAdapter'definedinclass......
  • openwifi编译步骤记录
    这边还是简单记一下步骤1、首先是下载openwifi-hwgitclone--recursivehttps://github.com/open-sdr/openwifi-hw2、配置vivado环境变量source/tools/Xilinx/Vivado/2021.1/settings64.sh3、在.bashrc里面配置加一些变量exportXILINX_DIR=/tools/XilinxexportBOARD_NA......
  • openwifi学习-日程记录(全)
    网址:https://github.com/open-sdr/openwifiOpenwifi:openwifi与linux的驱动部分源码和linux系统。Openwifi-hw:openwifi的FPGA部分源码,是硬件部分,也是lowmac部分。Openofdm:openwifi的基带部分源码,也是运行在FPGA中,最终集成到openwif-hw项目中,也算是openwif-hw的一部分(ip),在这里单......
  • 2024 ICPC Asia Taiwan Online Programming Contest题解记录
    比赛链接:https://codeforces.com/gym/105383/problemA.AnimalFarm找个最大pig,然后所有比他小的其他种类生物一直加就好了#include<bits/stdc++.h>usingnamespacestd;typedeflonglongll;constllmod=1e9+7;llksm(llx,lly){ llans=1; while(y) { if(y&1)......
  • 微信小程序毕业设计-基于springboot+协同过滤推荐算法的成都美食分享系统设计和实现,基
    博主介绍:✌️码农一枚,专注于大学生项目实战开发、讲解和毕业......