首页 > 其他分享 >NSCC集群使用笔记

NSCC集群使用笔记

时间:2024-06-09 21:21:57浏览次数:26  
标签:username pbs PBS asp2a 笔记 pytorch 集群 singularity NSCC

1. 账号申请

如果是 NUS,NTU 或者 ASTAR 的学生,可以直接用自己的学校 ID 登录。登录不上的话可以发邮件联系 nscc 工作人员即可,基本上第二天就会回复解决。

2. VSCode 连接

账号申请下来后进官网设置你的 ssh key 之类的东西就可以登录了。第一次登录成功后,可以参考这篇文章设置ssh免密登录:https://www.cnblogs.com/marsggbo/p/14882421.html

Host NSCC
    HostName aspire2a.nus.edu.sg
    User username

3. 使用

  1. 创建一个后缀为pbs的任务文件 task.pbs
#l/bin/bash
#PBS -q normal
#PBS -l select=1:ngpus=4
#PBS -P personal-username
#PBS -l walltime=24:00:00

# Sieep command to hold the node
# The numbor of seconds is 24 hours + 60 minutes + 60 seconds = 86400
nvidia-smi

# sleep with python!
module load python/3.10.9
python -c "import time; time.sleep(86400)"
  1. 运行任务
qsub ./task.pbs

完了后会返回 jobid,假设是 123456.pbs101

  1. 查看任务的申请情况
qstat -f 123456.pbs101

申请成功的话会输出一堆信息,重要的如下:

        PBS_O_SHELL=/bin/bash,
        PBS_O_HOST=asp2a-login-nus01.head.cm.asp2a.nscc.sg,
        PBS_O_WORKDIR=/home/users/nus/username/code,
        PBS_O_SYSTEM=Linux,PBS_O_QUEUE=normal,nvidia_group_id=31
    comment = Job run at Sun Jun 09 at 20:32 on (x1022c1s3b31:ngpus=4:ncpus=64
        :mem=461373440kb)
    etime = Sun Jun  9 20:32:06 2024
    run_count = 1
    Submit_arguments = /home/users/nus/usernmae/task.pbs
    project = personal-username
    Submit_Host = asp2a-login-nus01.head.cm.asp2a.nscc.sg

上面输出的 x1022c1s3b31就是节点地址,在连接节点之前设置一下 PBS_JOBID环境变量:

export PBS_JOBID=123456.pbs101
  1. 连接到节点
ssh x1022c1s3b31
  1. 连接成功后环境安装

推荐使用 singularity,集群里有提供 pytorch 镜像,路径在/app/apps/containers/pytorch,方法如下:

module load singularity
singularity instance start --nv /app/apps/containers/pytorch/pytorch_23.05_py3.sif env_name # 创建container
singularity shell --nv instance://env_name # 以交互式方式进入 container

至此,你就可以开始用 pytorch 和 GPU 了

微信公众号:AutoML机器学习
MARSGGBO♥原创
如有意合作或学术讨论欢迎私戳联系~
邮箱:[email protected]

标签:username,pbs,PBS,asp2a,笔记,pytorch,集群,singularity,NSCC
From: https://www.cnblogs.com/marsggbo/p/18240032

相关文章

  • Xinhui学习NLP的笔记本:基于MLP/CNN的姓氏分类系统
    ASurnameClassificationSystembasedonMLP基于MLP的姓氏分类系统ThisnotebookservesasmylearningjourneyintotheMultilayerPerceptron(MLP),whichisafundamentaltypeofFeedforwardNeuralNetwork.Throughoutthisarticle,Iwillbeundertakin......
  • 「笔记」模电复习 2
    信号的处理与变换频率特性放大电路中由于电抗元件等的存在,输入信号频率过低或过高时,放大倍数变小,且产生相移,即放大倍数是信号频率的函数。此函数关系称为频率响应或频率特性。高通电路。输入频率越高,输出电压越接近输入电压。\(\dotA_u=\frac{\dotU_o}{\dotU_i}=\fra......
  • 反悔贪心学习笔记
    算法:反悔贪心,顾名思义就是贪心的时候反悔。意思是:如果这一步的贪心不是全局最优解,就退回去一步,换一种贪心策略。一般分为反悔自动机和反悔堆。反悔自动机基本的思路是:每次选择直观上最接近全局最优解的贪心策略,若发现最优解不对,就想办法自动支持反悔策略。反悔堆则......
  • Java Web学习笔记29——Vue路由
    Vue路由:前端路由:点击菜单栏,地址栏会发生变化,会显示对应的组件。URL中的Hash(#号后面的部分)与组件之间的对应关系。Hash是/dept,那么就是部门管理组件;Hash是/emp,那么就是员工管理组件;VueRouter:介绍:VueRouter是Vue的官方路由;组成:1)VueRouter:路由器类,根据路由请求在路......
  • 计算机网络个人笔记
    ARP过程简易叙述想要与对端主机通信首先查看本地高速缓存表中是否有到对端主机的地址,如果本地缓存未老化或者自清除,有则直接让网关转发;没有地址则开始进行ARP广播向网关请求已知通信IP地址的Mac地址。网关收到ARP请求地址查询本地路由表为其进行下一步,如果本地路由表没有查到请......
  • RabbitMQ笔记
     端午无聊,就来学学MQ吧消息队列消息指的是两个应用之间传递的数据消息队列是在消息传递中保存消息的容器生成者:只负责发送数据消费者:只负责读取数据(数据就是消息)为什么要用消息队列解耦如果一个系统(系统a)的需求是共享自己系统的数据,而其他系统(系统BCD)是需求者。而......
  • spark-3.5.1+Hadoop 3.4.0+Hive4.0 分布式集群 安装配置
    Hadoop安装参考:Hadoop3.4.0+HBase2.5.8+ZooKeeper3.8.4+Hive4.0+Sqoop分布式高可用集群部署安装大数据系列二-CSDN博客一下载:Downloads|ApacheSpark1下载Maven–WelcometoApacheMaven# maven安装及配置教程wgethttps://dlcdn.apache.org/maven/maven-3/......
  • Objective-C 学习笔记 | 基础
    Objective-C学习笔记|基础参考书:《Objective-C编程(第2版)》第1部分入门Objective-C语言是以C语言为基础的,但增加了对面向对象编程的支持。Objective-C语言是用来开发在苹果iOS以及OSX操作系统上运行的应用的编程语言。第2部分如何编程该部分讲解了C语言编程的必......
  • CUDA编程学习笔记-02
    CUDA代码高效计算策略高效公式✒️Math代表数学计算量,Memory代表每个线程的内存......
  • FFmpeg开发笔记(二十八)Linux环境给FFmpeg集成libxvid
    ​XviD是个开源的视频编解码器,它与DivX一同被纳入MPEG-4规范第二部分的视频标准,但DivX并未开源。早期的MP4视频大多采用XviD或者DivX编码,当时的视频格式被称作MPEG-4。现在常见的H.264后来才增补到MPEG-4规范的第十部分,当然如今使用XviD压缩的视频已经不多了。在《FFmpeg开发实战......