首页 > 编程语言 >JAVA应用CPU跳点自动DUMP工具

JAVA应用CPU跳点自动DUMP工具

时间:2024-08-05 18:28:49浏览次数:11  
标签:跳点 JAVA THREAD DUMP echo 线程 使用率 CPU

image.png

背景

在做系统监控时,CPU的使用率是一个关键的指标,它反映了系统的性能稳定性以及是否存在异常情况,能帮助我们了解系统的负载情况。通过监控CPU使用率,可以判断系统是否正常运行或者是否存在性能问题。如果CPU使用率过高,可能表示系统存在资源瓶颈,需要进行优化或升级。

CPU监控的难点

现有的监控平台提供了多种方式来获取容器和JVM的CPU使用率,并能够实时发送CPU跳点的报警。然而,对于运维人员来说,这些功能远远不够,因为我们需要深入了解导致CPU高的原因。由于CPU是一个动态变化的指标,仅仅在收到报警后通过运维平台的手动操作进行排查,很难抓住事故发生的现场情况。因此,我们需要一个能够自动记录现场的工具。

自动DUMP工具

对于Linux系统,我们可以通过设置一个周期的定时任务来检测CPU使用率。如果我们发现CPU使用率高,我们可以获取CPU使用率高的线程,并进一步处理JVM线程抓包的问题。

我们可以使用top命令来获取进程的CPU使用率以及线程的CPU使用率。针对JAVA应用程序,我们可以使用Jstack来dump当前线程的堆栈信息。然后,我们可以解析这两者的输出,并通过线程号进行匹配,最终生成一个包含CPU使用率的线程堆栈清单。最后,我们可以将此清单持久化到一个文本文件中。

最终的输出文件格式如下:

当前JAVA进程ID:205
当前JAVA进程ID(205)CPU使用率:99%
Top 10 CPU占用线程信息:
=======================================================
线程TID: 1511, THREAD_NID:5e7, CPU使用率: 77.2%
"Thread-31" #415 daemon prio=5 os_prio=0 tid=0x00007f00900cc800 nid=0x5e7 runnable [0x00007f01c5839000]
java.lang.Thread.State: RUNNABLE
at 
...
...
java.lang.reflect.Executable.sharedGetParameterAnnotations(Executable.java:553)
at  java.util.concurrent.CompletableFuture$AsyncRun.run(CompletableFuture.java:1626)
at java.lang.Thread.run(Thread.java:748)
=======================================================
线程TID: 208, THREAD_NID:d0, CPU使用率: 2.0%
"Gang worker#0 (Parallel GC Threads)" os_prio=0 tid=0x00007f037c02a000 nid=0xd0 runnable
=======================================================
线程TID: 209, THREAD_NID:d1, CPU使用率: 2.0%
"Gang worker#1 (Parallel GC Threads)" os_prio=0 tid=0x00007f037c02b800 nid=0xd1 runnable
=======================================================

具体实现步骤如下:

  1. 从环境变量中读取CPU阈值和线程数阈值,脚本的两个配置项,不同分组和不同环境可以设置不同的阈值。

  2. 获取JAVA进程ID:使用pgrep命令获取当前运行中的Java进程的PID,并将其保存到变量中。

  3. 获取当前CPU使用率:使用top命令获取当前CPU使用率,主要是获取JAVA进程的CPU使用率。

  4. 检查CPU使用率是否超过阈值:与预设的CPU阈值进行比较,如果超过阈值,则执行后续操作,否则结束。

  5. 查找JAVA进程内占用CPU最高的线程:使用top命令查找占用CPU最高的前十个线程,并获取它们的相关信息。

  6. 捕捉JVM线程快照:使用jstack命令捕捉JVM线程快照,并将其保存到指定的日志文件中。

  7. 输出线程信息:解析并匹配线程栈文件,将占用CPU最高的前十个线程的信息包括线程的PID和堆栈信息合并到同一行输出。

  8. 日志记录和保存:将相关的CPU使用率及线程快照信息记录到日志文件中,方便后续分析和优化。

使用方式

在应用的启动脚本(start.sh)中添加命令,在crontab中添加一个分钟周期的定时任务

echo "* * * * * sh /export/App/bin/cpu-peak-dump.sh" | crontab -

注:如果需要更细周期粒度的监控,也可以通过while true加sleep来控制运行周期,如果使用更细粒度周期时需要注意脚本本身造成的CPU使用率。

总结

该脚本是一个用于CPU性能监控的实用工具,通过定时检测并触发线程快照的方式,方便我们快速发现CPU异常占用以及定位问题所在。通过设置合适的阈值和线程数,可以根据具体项目的需求来应用该脚本,并根据日志记录的线程信息进行问题分析和优化。

注意:在使用该脚本时,需要根据具体环境配置相关的路径和变量,并根据项目的需要进行相应的调整和优化。

希望本文对您理解和运用该脚本提供了一些帮助,如有疑问或需要进一步了解,请随时联系我。

附录

完整的脚本文件cpu-peak-dump.sh

#!/bin/bash

# 由crontab触发每分钟执行一次,判断CPU使用率大于阈值时触发dump
# 使用方式:
# 把当前文件放到项目中与start.sh相同的目录
# 修改start.sh 在脚本最后加一行,一般是这一行后边 echo "$APP_NAME is up runnig :)"
# echo "* * * * * sh /export/App/bin/cpu-peak-dump.sh" | crontab -
# 可配置项:
# 触发dump的cpu阈值。default 70
# STACK_DUMP_CPU_THRESHOLD=xxx
# 触发dump时列举的线程数(按使用率由高到低排列) default 10
# STACK_DUMP_THREAD_COUNT=xxx
# 配置方式,使用行云分组的环境变量配置即可
# stack log 存放目录 /export/Logs/
# stack log 文件名: jstack_snapshot_$(date +%Y%m%d%H%M%S).log
# 最后,记得配置相应的日志清理策略

# 设置CPU阈值,当CPU使用率达到该阈值时触发线程快照
CPU_THRESHOLD="${STACK_DUMP_CPU_THRESHOLD:-70}"
THREAD_COUNT="${STACK_DUMP_THREAD_COUNT:-10}"

echo "Current CPU_THRESHOLD is $CPU_THRESHOLD"

JAVA_PID=$(pgrep -d, -x java)
echo "Current JAVA_PID is $JAVA_PID"

# 使用top命令获取当前CPU使用率,并提取其中的CPU利用率百分比
CPU_USAGE=$(top -b -n 1 | grep -A10 "PID USER" | grep java | grep "$JAVA_PID" | awk '{print $9}' | cut -d'.' -f1)

echo "Current Java($JAVA_PID) CPU_USAGE :$CPU_USAGE"%

if [ -z "$JAVA_PID" ]; then
  echo "No Java process found."
  exit 1
fi

# 检查CPU使用率是否超过阈值
if [[ $CPU_USAGE -gt $CPU_THRESHOLD ]]; then

  # 使用top命令查找占用CPU最高的前十个线程,并获取它们的信息
  TOP_THREADS=$(top -H -b -n 1 -p "$JAVA_PID" | grep -A$THREAD_COUNT 'PID USER' | head -n $THREAD_COUNT | grep -v 'PID')

  # 使用jstack捕捉JVM线程快照
  # 请将下面的Java进程ID替换为你要监视的Java进程的实际进程ID
  JSTACK_OUTPUT=$(/export/servers/jdk1.8.0_191/bin/jstack "$JAVA_PID")

  JSTACK_OUTPUT_FILE="/export/Logs/jstack_snapshot_$(date +%Y%m%d%H%M%S).log"
  echo "当前JAVA进程ID($JAVA_PID)CPU使用率:$CPU_USAGE"% >>$JSTACK_OUTPUT_FILE

  # 获取占用CPU最高的前十个线程的信息,包括线程的PID和堆栈信息,并将它们合并到同一行输出
  echo "Top ${THREAD_COUNT} CPU占用线程信息:" >>$JSTACK_OUTPUT_FILE
  while read -r THREAD_INFO; do
    THREAD_TID=$(echo "$THREAD_INFO" | awk '{print $1}')
    THREAD_NID=$(printf "%x\n" $THREAD_TID)

    THREAD_STACK=$(echo "$JSTACK_OUTPUT" | sed -n "/nid=0x$THREAD_NID /,/^$/p")
    THREAD_CPU_USAGE=$(echo "$THREAD_INFO" | awk '{print $9}')

    echo "=======================================================" >>$JSTACK_OUTPUT_FILE
    echo "线程TID: $THREAD_TID, THREAD_NID:$THREAD_NID, CPU使用率: $THREAD_CPU_USAGE%" >>$JSTACK_OUTPUT_FILE
    echo "$THREAD_STACK" >>$JSTACK_OUTPUT_FILE
  done <<<"$TOP_THREADS"

  #  echo "====all stack as below:====" >>$JSTACK_OUTPUT_FILE
  #  echo "$JSTACK_OUTPUT" >>$JSTACK_OUTPUT_FILE
  echo "捕捉了JVM线程快照并保存到 $JSTACK_OUTPUT_FILE"
fi


标签:跳点,JAVA,THREAD,DUMP,echo,线程,使用率,CPU
From: https://www.cnblogs.com/Jcloud/p/18343815

相关文章

  • 计算机毕业设计必看必学!! 85583 springboot高校网上选课系统,原创定制程序, java、PHP
                                                  摘要本论文主要论述了如何使用JAVA语言开发一个高校网上选课系统,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,......
  • 学习笔记 韩顺平 零基础30天学会Java(2024.8.5)
    P460八大Wrapper类     黄色的父类是number,黑色的是自己独立的P461装箱和拆箱     手动装箱示例:                             intn1=100;                Intergerinterger=newInterger(n1);//......
  • JavaScript 中的闭包和事件委托
    包(Closures)闭包是JavaScript中一个非常强大的特性,它允许函数访问其外部作用域中的变量,即使在该函数被调用时,外部作用域已经执行完毕。闭包可以帮助我们实现数据的私有化、封装和模块化,使代码更简洁、易读和可维护。闭包的定义简单来说,闭包是指有权访问另一个函数作......
  • Java并发—synchronized关键字的应用
    目录1、synchronized适用场景2、synchronized的原理3、synchronized的锁升级4、synchronized的注意事项5、总结synchronized是Java中用于实现线程同步的关键字。它可以在方法级别或代码块级别使用,以确保同一时刻只有一个线程可以访问被同步的代码段。synchronized通......
  • java基础 之 重写equals时为什么要重写hashCode
    文章目录前言回答了解哈希hashCode()总结前言了解equals戳这里→java基础之equals和==的区别请记住这句话:两个对象相同,哈希码一定相同。哈希码相同,两个对象不一定相同。回答只重写equals()方法,不重写hashCode()方法:存在A.equals(B)为true,但是hashCode不......
  • Java编译和运行的命令
    在Java中,编译和运行Java程序主要使用两个命令:javac和java。这两个命令是JDK(JavaDevelopmentKit)的一部分,分别用于编译Java源代码(.java文件)和运行编译后的Java字节码(.class文件)。编译Java程序编译Java程序时,你使用javac命令。这个命令会读取你的Java源代码文件(.java文件),并编译......
  • 【Java基础知识4】反射
    一、反射机制Java反射机制是指在程序的运行过程中,对于任意一个类,都能够知道它的所有属性和方法;对于任意一个对象,都能够知道调用它的任意属性和方法,这种动态获取信息以及动态调用对象方法的功能称为JAVA语言的反射机制二、反射的核心内容反射的核心内容是JVM在运行时动态......
  • 【Java基础知识3】泛型
    一、泛型的意义泛型的本质是将类型参数化,从而达到代码复用。即:在不创建新的类型下,通过泛型指定不同类型来控制形参具体类型,简单来讲就是,当我们不知道用什么数据类型接收数据的情况下,可以使用泛型来接收。代码示例:未使用泛型情况下:privatestaticintadd(inta,intb){......
  • 【Java基础知识5】异常
    一、什么是异常?正常程序所不能处理或没有处理的不正常行为称为异常。Java异常机制可以使程序中异常处理代码和正常业务代码分离,保证程序代码更加优雅,并提高程序健壮性。二、异常的层次结构三、异常的分类1.Throwable异常体系的顶层类,其派生出两个重要的子类, Error 和......
  • java面对对象基础
    1.对象的内存布局类实例化为对象:类实例化为对象的语句一定要加括号,否则编译不通过//类名生成对象名=new类名()//类名生成对象名=new类名()ToolMytool=newTool();classTool{ publicbooleanoddOreven(intnum){ if(num%2!=0){ returntrue; }else{ retur......