首页 > 其他分享 >使用 `screen` + `nohup` 实现高效日志记录和多环境任务管理

使用 `screen` + `nohup` 实现高效日志记录和多环境任务管理

时间:2024-10-29 13:46:22浏览次数:6  
标签:task screen 会话 任务 nohup 日志

使用 screen + nohup 实现高效日志记录和多环境任务管理

在深度学习模型训练中,特别是在服务器上运行长时间的任务时,有效的任务管理和日志记录至关重要。我们通常需要在后台运行多个任务,同时为每个任务配置不同的 conda 环境。通过结合使用 screennohup,我们不仅可以在后台高效运行任务,还可以集中管理日志并实现环境隔离。本指南将重点介绍如何利用 screen + nohup 实现高效的日志记录和任务隔离。

一、使用 screen 配置多个 conda 环境的独立会话

当在服务器上执行多个任务时,不同任务往往依赖不同的环境。通过 screen,我们可以为每个任务创建独立的会话,在不同的 conda 环境中运行各自的任务,避免环境冲突。

步骤

  1. 创建新的 screen 会话并命名

    screen -S task_session_name
    

    这里的 task_session_name 是会话名称,可以根据任务内容自定义。此命令将开启一个新的 screen 会话。

  2. 激活特定的 conda 环境

    在新的 screen 会话中,激活任务所需的 conda 环境。例如:

    conda activate my_env
    

    这样,task_session_name 会话将运行在 my_env 环境中,后续所有命令都会在该环境下执行,实现了任务环境的独立隔离。

二、利用 nohup 后台执行任务并管理日志

激活特定 conda 环境后,为了让任务在后台持续运行,同时将输出和错误信息记录到日志文件,可以使用 nohup

nohup python train.py > task_name.log 2>&1 &

命令详解

  • nohup:使任务在终端关闭后依然继续运行。
  • python train.py:执行训练脚本 train.py
  • >:将标准输出(stdout)重定向到日志文件。
  • task_name.log:日志文件名,用于记录标准输出和错误信息。
  • 2>&1:将标准错误输出(stderr)重定向到标准输出,方便集中记录日志。
  • &:将任务置于后台执行,释放会话供其他任务使用。

查看日志

通过 nohup,所有输出都会记录在指定的日志文件中。为实时查看日志内容,通常我们会使用 tail -f 命令:

tail -f task_name.log

该命令允许我们实时监控日志的更新,非常适合单任务的日志跟踪需求。

同时查看多个日志

在多任务的情况下,我们可能需要同时查看多个日志文件。此时可以使用 multitail,它可以在同一窗口内分屏显示多个日志文件,提供一个更直观的实时日志跟踪体验。multitail 需先安装,以下是常见的安装方法:

1. 安装 multitail

  • Debian/Ubuntu 系列

    sudo apt-get install multitail
    
  • RedHat/CentOS 系列

    sudo yum install multitail
    
  • MacOS(使用 Homebrew)

    brew install multitail
    

2. 使用 multitail 查看多个日志

安装 multitail 后,可以通过以下命令在分屏中查看多个日志:

multitail task_A.log task_B.log

此命令会在一个窗口内显示 task_A.logtask_B.log 的内容更新,适用于需要同时监控多项任务的场景,如深度学习中不同模型的训练进程、同一模型在不同超参数设置下的训练日志等。

多日志查看的替代方法:并行使用 tail -f

如果不方便安装 multitail,也可以使用 tail -f 的后台运行方式同时监控多个日志文件:

tail -f task_A.log &
tail -f task_B.log &

每个 tail -f 命令会在后台运行并独立显示日志更新。这种方法虽不具备分屏效果,但在有限环境下提供了同时查看多个日志的简单替代方案。

场景示例
  • 模型训练日志监控:在实验中,我们可能同时运行多个模型或多组超参数实验。使用 multitailtail -f 同时查看日志,可以随时观察模型的训练进度、验证准确率等输出,便于发现异常情况及时调整。
  • 批处理任务监控:在批处理系统中,多个脚本任务可能同时运行,生成不同的日志文件。通过实时查看多日志文件,可以快速识别哪个任务遇到问题并进行调试。

通过这些方式,我们可以高效地监控日志,特别是在并行任务较多的深度学习训练场景下,有助于及时掌握任务状态,优化训练管理流程。

结合 screennohup 的优势

  • 后台稳定运行:任务即使在终端关闭后仍能持续运行。
  • 集中日志管理:所有输出和错误信息集中记录在日志文件中,便于后续分析与排查。
  • 多环境隔离:每个 screen 会话对应不同的 conda 环境,防止任务间环境冲突。

三、灵活使用 screen 管理不同 Conda 环境的任务

以下是利用 screennohup 实现多任务管理的完整示例。假设我们有两个不同的训练任务,各自依赖不同的 conda 环境:

示例 1:任务 A

# 创建并进入名为 task_A 的 screen 会话
screen -S task_A

# 激活 A 任务所需的 conda 环境
conda activate env_A

# 后台运行任务并记录日志
nohup python train_A.py > task_A-参数1=xxx.log 2>&1 &
nohup python train_A.py > task_A-参数1=yyy.log 2>&1 &

示例 2:任务 B

# 创建并进入名为 task_B 的 screen 会话
screen -S task_B

# 激活 B 任务所需的 conda 环境
conda activate env_B

# 后台运行任务并记录日志
nohup python train_B.py > task_B-参数1=xxx..log 2>&1 &
nohup python train_B.py > task_B-参数2=xxx..log 2>&1 &

通过这种方法,我们可以为每个任务配置独立的 conda 环境,分别记录日志文件,避免任务冲突且便于追踪任务进度。

除了 nohup 日志记录,screen 也自带日志功能,便于获取会话的实时输出。

可以在 screen 会话中执行快捷键 Ctrl + A + H,这会将会话输出记录到 screenlog.0 文件中,适合在 无需分开记录 每个命令日志的简单场景下使用。

四、清理 screen 会话以维护系统整洁

对于习惯使用 screen 的用户,系统中可能积累了许多 Detached(挂起)状态的 screen 会话。为了系统资源的清理和便于管理,我们可以批量退出这些无用的 screen 会话。

1. 清理所有 Detached 状态的 screen 会话

使用以下命令可以批量退出所有挂起的 screen 会话:

screen -ls | grep Detached | awk '{print $1}' | xargs -I {} screen -X -S {} quit
解释
  • screen -ls:列出所有当前存在的 screen 会话。
  • grep Detached:筛选出所有处于 Detached 状态的会话(即后台挂起)。
  • awk '{print $1}':提取会话 ID。
  • xargs -I {} screen -X -S {} quit:对每个会话执行 quit 命令。

这样便能清理掉所有不再使用的 screen 会话,避免了无用会话堆积带来的管理难度。

2. 直接清理 Dead(失效)的 screen 会话

对于已经 Dead 的 screen 会话(通常是因异常退出或崩溃引起的失效会话),可以使用以下命令直接清理:

screen -wipe

该命令会自动清理标记为 Dead 的会话,保持系统整洁并减少资源占用。

五、总结

借助 nohup 和日志文件,我们可以有效地简化深度学习训练任务的管理过程,避免频繁启动 screen 会话带来的复杂性。同时,灵活结合 screen 和不同的 Conda 环境,可以让我们对多个任务及其环境配置进行更高效的管理。

  • 只需一次 Conda 环境激活,所有训练任务均可在后台高效执行。
  • 日志集中管理:通过 nohup 重定向输出,将所有信息记录到日志文件中,方便查看任务进度和排查错误。
  • 便于管理多个环境和参数配置:使用 screen 为不同任务配置独立的 Conda 环境和参数,所有日志记录清晰明了。
  • 及时清理无用的 screen 会话:确保系统整洁并减少资源浪费。

希望这篇指南能帮助大家优化训练任务管理流程,提升工作效率。

标签:task,screen,会话,任务,nohup,日志
From: https://blog.csdn.net/qq_22841387/article/details/143312614

相关文章

  • 使用nohup 输出到指定文件 后台运行
    在Linux系统中,使用nohup命令可以让程序在后台持续运行,即使终端会话关闭也不受影响。要将nohup命令的输出指定到特定文件,可以按照以下步骤进行操作:假设要运行的程序是your_program,希望将输出重定向到文件output.log。1、基本重定向方式使用nohup命令结合输出重定向操作符来......
  • 【项目实战】分布式日志搜索系统之数据同步方案(Logstash-input-jdbc、go-mysql-elast
    在构建分布式日志搜索系统时,数据同步是一个核心环节。以下是针对您提出的五种数据同步方案的详细分析:一、Logstash-input-jdbcLogstash是ElasticStack的一部分,用于从各种来源收集数据,并将其发送到Elasticsearch。Logstash-input-jdbc插件允许Logstash从关系型数据库(如My......
  • 【项目实战】分布式日志搜索系统之Elastic Stack日志抽取(filebeat、heartbeat、packet
    一、ElasticStack是什么?ElasticStack,以前称为ELKStack,是一套开源的日志分析解决方案。ElasticStack,由Elastic公司开发和维护。ElasticStack,包括了几个核心组件,这些组件协同工作以帮助用户收集、处理、存储、搜索和可视化数据。ElasticStack,因其灵活性和强大的功能......
  • 深度解读RDS for MySQL 审计日志功能和原理
    本文分享自华为云社区《【华为云MySQL技术专栏】RDSforMySQL审计日志功能介绍》,作者:GaussDB数据库。1.背景在生产环境中,当数据库出现故障或问题时,运维人员需要快速定位出异常或者高危的SQL语句。这时,审计日志能够提供详细的记录,帮助追踪每个数据库操作的执行者、执行时间以......
  • SpringBoot 日志深度解析:轻松上手,快速精通!
    前言日志,是开发中熟悉又陌生的伙伴,熟悉是因为我们经常会在各种场合打印日志,陌生是因为大部分时候我们都不太关心日志是怎么打印出来的,因为打印一条日志,在我们看来是一件太平常不过的事情了,特别是在宇宙第一框架Springboot的加持下,日志打印是怎么工作的就更没人关注了。但是了......
  • Go语言的系统监控和日志分析
    ###开头段落:在处理Go语言的系统监控和日志分析时,关键的方式包括:使用标准库log进行日志记录、采用第三方库如logrus或zap提供更高级的日志管理功能、使用pprof进行性能监控、利用expvar发布服务内部信息等。这些方式既包含了基础的日志记录,也涵盖了性能和状态监控的高级应用。......
  • java 将Log4j2 的日志内容输出到udp上
    在Maven项目中pom.xml中添加Log4j2的依赖 <dependency><groupId>org.apache.logging.log4j</groupId><artifactId>log4j-core</artifactId><version>2.14.1</version></dependency><depen......
  • 【揭秘】Logback日志如何实现请求唯一追踪ID,提升系统监控效能!
    在分布式系统中,为了方便追踪和调试问题,通常会为每个请求生成一个唯一的追踪ID(TraceID)。这个ID可以在整个请求的生命周期中传递,并在日志中记录。Logback是一个流行的Java日志框架,可以通过自定义MDC(MappedDiagnosticContext)来实现这一功能。以下是如何在Logback中添......
  • mysql的binlog日志格式及其区别
    MySQL的二进制日志(binlog)主要有三种日志格式:STATEMENT、ROW和MIXED。它们之间的主要区别在于记录的内容和适用场景。STATEMENT(语句格式):内容:记录所有更改数据的SQL语句。特点:通过重放这些语句来恢复数据。优点:日志文件小,易于理解和审计。缺点:在某些情况下(如使......
  • 【数据库】数据库管理(下)存储过程 触发器 慢查询日志 备份与恢复
    文章目录存储过程参数控制语句触发器慢日志备份&恢复备份方法恢复方法导入导出数据存储过程数据库存储过程(StoredProcedure)是一组为了完成特定功能的SQL语句集合,这些语句被预先编译并保存在数据库中。存储过程可以接受输入参数、执行复杂的业务逻辑,并返回结果......