首页 > 其他分享 >TACC 集群使用笔记

TACC 集群使用笔记

时间:2024-04-10 14:33:38浏览次数:29  
标签:作业 笔记 001 集群 设置 004 idev TACC 节点

1注册账号

先在网页上注册账号,之后需要联系导师或者管理员把你添加到对应的集群里去,例如我加入的是 Lonestar6 集群。

之后需要跟着这个教程绑定 MFA 软件(可以是 DUO 或者 1password)

MFA 绑定

之后登录账号,系统会要求先后输入你的账户密码和 MFA 的 6 位数 token

local@username$ ssh [email protected]
([email protected]) Password:
([email protected]) TACC Token Code:

login1.ls6(22)$ cd $SCRATCH/
login1.ls6(23)$

密码都正确之后你会进入到 login 节点,在这里千万不能随意执行大规模的计算任务,因为很有可能会被封号。你需要使用 compute 节点执行计算任务。

Login 和 Compute 节点

成功登入后,默认进入 login 节点下的 /home目录,一般而言我们需要进入 /scratch 目录。大多数TACC HPC资源上挂载了三个文件系统:$HOME$WORK、和$SCRATCH,以下是它们的区别、使用场景和注意事项的总结:

文件系统 区别与特点 使用场景 注意事项
$HOME | 用于用户的个人文件和设置。 | 存储cron作业、小脚本、环境设置。 | 避免在$HOME中运行作业,用于常规文件管理而不是并行作业。
$WORK 用于存储软件安装、原始数据集等。 存储软件安装、原始数据集、作业脚本和模板。 注意文件系统配额,接近配额可能导致文件系统压力。
$SCRATCH | 临时存储、I/O文件、作业文件等。 | 运行I/O密集型作业,存储临时数据集。 | 避免在$SCRATCH中存储长期数据,文件可能在十天未访问后被清理。不要在$SCRATCH运行长期作业,用于短暂的、I/O密集型的作业。

总体而言,$HOME 适用于个人文件和设置,$WORK适用于存储软件和重要数据,而$SCRATCH适用于短暂的、I/O密集型的作业。

从实操性的角度说,进入computing node 后,默认先进入的是HOME目录,在这里你可以先设置好 conda 环境。接着,假如你要运行一个 pytorch 代码,你需要cd $SCRATCH 才能使用 GPU,这个目录下运行代码保存的日志是临时的,你需要将重要文件备份到 $WORK 目录下。

2. 交互式开发环境 idev

idev 是一个用于在TACC(Texas Advanced Computing Center)集群上创建交互式计算环境的命令行工具,可以在计算节点上创建一个交互式会话,可以在其中执行串行、OpenMP并行或MPI并行的代码,就像在批处理作业中一样。。以下是关于 idev 的一些主要用法和选项的介绍:

2.1 idev 参数选项:

  • -A account_name:设置账户名称(默认为 -A use_default)。
  • -m minutes:设置计算时间(默认为 30 分钟)。
  • -n total_tasks:设置总任务数。
  • -N nodes:设置节点数量。
  • -tpn tpn:设置每节点任务数。
  • -p queue_name:设置队列名称(默认为 -p development)。
  • -R:查找用户的预约。
  • -r reservation_name:请求使用特定的预约。
  • -r none:禁用预约检查。
  • -E:在作业开始时通知。
  • -e email_address:在作业开始时通过指定的电子邮件地址通知。
  • -t hh:mm:ss:设置计算时间(默认为 30 分钟)。
  • -queues:列出系统的队列。
  • -pselect:显示可选择的 Slurm 队列。
  • -qselect:显示可选择的 Slurm 队列。
  • -- <other SLURM options>:必须在所有 idev 选项之后使用,用于指定其他 Slurm 选项。

2.2 示例

# 默认设置:1 节点,16 任务,30 分钟,使用默认账户
idev

# 显示帮助信息
idev --help

# 设置队列、时间和账户
idev -p development -m 90 -A AB-ccviss

# 设置队列、时间、账户、节点和任务数
idev -p normal -t 00:90:00 -A TG-STA123 -N 2 -n 16

# 显示可选择的 Slurm 队列
idev -pselect

# 设置交互式会话的最长时间为2小时, 1个节点,4 个任务,请求在 development 队列中执行计算任务
idev -t 02:00:00 -N 1 -n 4 -p development

上面最后一个例子使用的是名为development的节点,你也可以先使用sinfo命令查看所有节点,然后手动设置成空闲的节点,例如:

$ sinfo
gpu-a100          up   infinite      1 drain* c317-003
gpu-a100          up   infinite     67  alloc c302-[001-004],c303-[001-004],c305-[001-002,004],c306-[002-004],c308-[001-004],c309-[001-004],c310-[001-004],c315-[001,003-016],c316-[001-002,007-016],c317-[001-002,004-008,010-016]
gpu-a100          up   infinite      5   idle c304-001,c305-003,c306-001,c316-003,c317-009
gpu-a100-dev      up   infinite      2  alloc c301-[001,004]
$ idev -t 02:00:00 -N 1 -n 4 -p gpu-a100-dev

上面命令会自动申请一个空闲的gpu-a100-dev节点。

微信公众号:AutoML机器学习
MARSGGBO♥原创
如有意合作或学术讨论欢迎私戳联系~
邮箱:[email protected]

标签:作业,笔记,001,集群,设置,004,idev,TACC,节点
From: https://www.cnblogs.com/marsggbo/p/18125958

相关文章

  • 想要建立一个 Raspberry Pi 5 集群吗?
    NurgaliyevShakhizat用三台RaspberryPi5创建了一个神奇的Ceph集群。这是一个色彩缤纷的高级项目,适合技术特别精通的人,他花了大约六个小时才完成。RaspberryPi通过1Gbit交换机连接在专用网络中,由三个256GBSSD驱动器提供存储空间。Ceph是一种开源软件定义存储......
  • 原语笔记:IDDR和ODDR
    IDDR IDDR的工作模式OPPOSITE_EDGE SAME_EDGEModeSAME_EDGE_PIPELINEDMode    参考使用:generategenvari;for(i=0;i<4;i=i+1)begin:iddr_blockIDDR#(.DDR_CLK_EDGE("SAME_EDGE_PIPELINED"),//"OPP......
  • kvm笔记
    文章目录1.**KVM**1.1.**安装**1.1.1.**查看CPU是否支持KVM**1.1.2.**通过yum进行安装**1.1.3.**启动并设置开机启动**1.1.4.**创建****ISO系统镜像存放****目录**1.2.**使用虚拟机**1.2.1.**图形化界面**1.2.1.1.**virt-manager打开虚拟机管理器****(****宿主......
  • css学习笔记之展开列表图标动画
    “蓝色界面”风格的填充的星图标欢迎下载填充的星矢量图标,“蓝色界面”风格。格式有png、svg、pdf、html代码。可对填充的星图标、符号进行修改、调整大小、修改颜色。https://igoutu.cn/icon/y0OTcruih2CY/%E5%A1%AB%E5%85%85%E7%9A%84%E6%98%9F今天在这个网站看到了上面类似......
  • 【阅读笔记】RBAC(Role-Based Access Control)模型
    摘自:《凤凰架构:构建可靠的大型分布式系统》周志明著使用访问控制模型的目的所有的访问控制模型,实质上都是在解决同一个问题:“谁(User)拥有什么权限(Authority)去操作(Operation)哪些资源(Resource)。”如果某个系统涉及成百上千的资源,又有成千上万的用户,若要为每个用户访问每个资源都......
  • kubernetes部署mongodb集群原创
    Kubernetes是一个开源的容器编排和管理平台,它可以帮助开发者轻松地部署、扩展和管理分布式应用程序。在Kubernetes中,可以使用StatefulSet来部署MongoDB分片集群和副本集。本文将介绍如何使用Kubernetes部署MongoDB集群。准备工作在开始部署MongoDB集群之前,需要先准......
  • Shell - [11] 开源Apache Zookeeper集群启停脚本
     一、集群角色部署当前有Zookeeper集群如下主机名ctos79-01ctos79-02ctos79-03Zookeeper○○○ 二、脚本使用 三、脚本内容#!/bin/bash#定义ZooKeeper服务器列表SERVERS=("ctos79-01""ctos79-02""ctos79-03")#定义ZooKeeper安装路径INSTALL_......
  • 书生浦语大模型实战营第二期 第三次课笔记
    课程内容概述本节课介绍了RAG(RetrievalAugmentedGeneration)技术的基础知识。展示了如何使用茴香豆(Huixiangdou)搭建一个RAG智能助理。讲解了茴香豆的进阶用法,包括网络搜索、使用远程模型、搭建网页Demo等。1.RAG技术概述RAG技术结合了检索和生成,通过检索相关信息片段来增......
  • Markdown语法笔记
    序言下述笔记为个人结合网上的相关参考资料总结的常用标准markdown语法笔记。支持工具记事本Typora(编辑器,不具备管理功能)Obsidian(编辑+管理)BearUlysses石墨文档幕布常用语法自动生成目录[TOC]部分软件不支持,例如obsidian标题#文本关于标题......
  • 模型压缩与部署-书生浦语大模型实战营学习笔记&大语言模型7
    大语言模型-7.模型压缩与部署书生浦语大模型实战营学习笔记4-模型压缩与部署本文包括第二期实战营的第5课内容,介绍关于模型压缩的相关内容,主要包括、模型量化和模型部署的相关内容。模型部署定义:在软件工程中,部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域,模......