首页 > 系统相关 >【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘

时间:2023-12-26 10:37:07浏览次数:48  
标签:dump 17038 调优 线程 内存 JVM CPU 溢出

前言

最近刚上线了一款社交项目,运行十多天后(运营持续每天推量),发现问题:

  • 系统OOM(资源不能被释放)导致服务器频繁且长时间FGC导致服务器CPU持续飚高
  • 日志中内存溢出:java.lang.OutOfMemoryError: Java heap space
  • 程序十分卡顿,严重影响用户使用

从以下方面,为大家分享此次问题解决流程

  • 问题出现现象
  • 临时解决方案
  • 复现问题
  • 定位问题发生原因
  • 优化代码
  • 优化后进行压测,上线
  • 复盘

学完本博文,你的收获

  • 排查内存溢出的思路
  • 排查内存溢出过程中用到的命令及工具(Linux命令,Eclipse Memory Anaylzer[MAT]
  • 定位系统内存溢出的代码,并进行优化
  • 此次内存溢出问题复盘

解决方案流程图

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_解决方案

问题&临时解决方案&定位问题&最终解决方案

  • 问题:
  • 业务反馈程序用的十分卡,同时测试自己测的也十分卡
  • 从ELK收集的请求日志发现确实存在问题,线上是两台部署:两台机器上都是,一次请求耗时由原来的几毫秒变为10几秒
  • CPU跑的过高,当时是4核,CPU持续飙到350%+;
  • 当时一台服务器CPU截图:

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_服务器_02

  • 临时解决方案
  • 当时为了减少对业务影响,直接将生产两台服务器上的项目进行重启
  • 项目启动参数中没有加内存溢出日志输出(后续博客为大家介绍JVM调优时讲解启动命令中加内存溢出日志输出),重启后出问题时项目的JVM信息丢失了
  • 复现问题方式:在开发环境对程序进行持续压测;压测相关服务器配置:
  • 服务器配置:8核,16G
  • 项目启动内存:136M
  • Jmeter持续(循环)压发消息接口10分钟
  • 定位问题
  • top命令查看最耗CPU的进程(进程:17038;CPU持续飙到595%+)
  1. # 输入top命令后键入P(大写P),进程按照CPU从高到底排序
  2. top

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_内存溢出_03

  • 查看该进程中最耗CPU的线程(发现有一些线程占用CPU较高)
  1. # 17038为进程号,键入P(大写P),该进程中的线程按照CPU从高到底排序
  2. top -Hp 17038

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_服务器_04

  • 将线程号转为16进制,同时查看这些线程当前正在干什么(在此以17045线程为例)
  1. # 将线程号转为16进制;其中17045为线程号
  2. printf '%x\n' 17045
  3. # 17038为进程号,0x4295为最耗CPU线程的十六进制
  4. jstack 17038 | grep '0x4295' -C10 --color

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_解决方案_05

  • 可以看到最耗CPU的线程都是在进行GC
  • 用Jmap命令查看当前堆的使用情况(发现老年代现在已占用99.8%+)
  1. # 其中17038为进程号
  2. jmap -heap 17038

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_解决方案_06

  • 查看gc频率的命令(其中O代表老年代占用率,FGC是FullGC次数,FGCT是fullGC时间;可以看出在频繁FullGC但是老年代有资源一直释放不掉)
  1. # 其中17038为进程号,5000是指每5秒(5000毫秒)输出一次
  2. jstat -gcutil 17038 5000

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_内存溢出_07

  • 通过分析出问题时线上日志发现内存溢出;至此定位到问题根源是内存溢出导致(有未释放资源堆积,导致老年代被占满,然后频繁的FullGC但是资源一直释放不了)

grep -m 10 'OutOfMemoryError' *.log

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_解决方案_08

  • 分析问题产生原因
  • 由于线上当时直接重启,未能保留当时的JVM内存文件;在开发环境进行循环压测,复现线上问题,然后导出dump文件进行分析找到原因
  • 生成dump文件命令
  1. # 其中fileName是导出后dump名称,pid为进程号
  2. jmap -dump:format=b,file=fileName.dump pid
  • 将dump文件导出到本地,用Eclipse Memary Analysis(MAT官网下载地址) 进行分析
  • MAT导入dump文件

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_内存溢出_09

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_服务器_10

  • 按对象排序视图进行查看(总览中看到对象总个数:14.1百万个)

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_内存溢出_11

  • 发现有两个类(ClassClassPath,ClassClassPathList)占用比较大,这两个类约占对象总数的83%(计算方式:5873361*2/14100000=83%)

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_解决方案_12

  • 分析代码
  • 去代码中全局搜这两个类,发现只有在打日志的时候用到ClassClassPath类

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_内存溢出_13

  • 分析ClassClassPath相关代码:
  • 用到ClassClassPath对象是一个静态的ClassPool;
  • 问题原因:classPath一直被静态的全局pool所持有,导致GC一直释放不掉;

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_服务器_14

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_内存溢出_15

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_解决方案_16

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_服务器_17

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_内存溢出_18

  • 当然顺着代码,顺藤摸瓜也找到了ClassPathList


  • 优化代码:每次用完ClassClassPath后将其释放
  • 每次对象使用完后从静态pool中移除
  • 注意:classPath=null这种方式是不能释放掉的

【JVM调优】内存溢出+CPU占用过高:问题排查+解决方案+复盘_内存溢出_19

  • 优化后再次进行验证
  • 开发环境循环压测,用MAT分析dump文件,发现内存中已不再堆积ClassClassPath类;优化前后接口吞吐量也提升8.2%
  • 进行线上发布,观察一周后,对内存分析发现正常
  • 复盘:
  • 项目比对:
  • 为快速开发,社交的代码从原来金融项目基础上改造而来;
  • 原来金融项目没有内存溢出,而社交项目为什么内存溢出?
  • 通过ELK统计一段时间的访问量结果:
  • 社交目前日访问后台量65w+
  • 金融项目只有4.5W+
  • 社交和金融项目业务类型不一样,所呈现出的特点也不同
  • 去生产的金融项目中dump内存文件,用MAT工具分析,发现也存在ClassClassPath类堆积释放不掉,只不过由于访问量少,堆积量未占满老年代而已;果断在金融项目迭代时将其优化;
  • 程序预警:为减少业务影响,增加接口耗时的预警(后续博文为大家共享);实现方式:

- 在每次程序处理完进行预警(比如本次请求>阈值);缺点:消耗性能影响正常业务

- 在ELK清洗时用相关插件进行预警;优点:和业务解耦,对业务无影响

  • 服务器预警:运维增加CPU内存,日志内存溢出监控

总结

  • 解决内存溢出过程总结:
  • 不同的项目导致内存溢出原因是不同的;
  • 重要的是排查思路
  • 经过不断的耐心的去观察,测试,分析才能定位到问题并最终解决问题
  • 在这次分析内存溢出过程中,我们也针对我们项目的JVM启动参数进行了调优

标签:dump,17038,调优,线程,内存,JVM,CPU,溢出
From: https://blog.51cto.com/u_14693356/8979757

相关文章

  • 在linux中查看运行指定进程资源占用(cpu+gpu)
    在运行程序时有时候会需要查看资源占用,以方便部署在其他服务器上时进行参考。以下是总结了我在linux上查找程序进程资源的两种方法(cpu和gpu都有)。CPU1.查找进程号如果进程较多,输入ps-ef|grep+指令关键词进行搜索。如果运行的是python程序,可以输入ps-ef|greppytho......
  • JavaScript读写FM1208 CPU卡源码
    本示例使用的发卡器:<!DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><htmlxmlns="http://www.w3.org/1999/xhtml"><head><metahttp-equiv=&quo......
  • • 平板电脑 CPU
    平板电脑CPU的性能无论是在工作速度、工作频率还是工作稳定性方面都不及PC机,平板电脑CPU根本无法与PC机CPU相提并论。大多数平板电脑采用ARM处理器现代计算机的基本工作原理是存储程序控制。该原理的提出者是冯·诺依曼冯∙诺依曼提出“存储程序控制”原理:程序和......
  • 大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队
    摘要:在大数据领域中,HiveSQL被广泛应用于数据仓库的数据查询和分析。然而,由于数据量庞大和复杂的查询需求,HiveSQL查询的性能往往不尽人意。本文针对HiveSQL的性能优化进行深入研究,提出了一系列可行的调优方案,并给出了相应的优化案例和优化前后的SQL代码。通过合理的优化策略和技......
  • 数仓调优实践丨SQL改写消除相关子查询
    本文分享自华为云社区《【调优实践】SQL改写消除相关子查询》,作者:门前一棵葡萄树。一、子查询GaussDB(DWS)根据子查询在SQL语句中的位置把子查询分成了子查询、子链接两种形式。子查询SubQuery:对应于查询解析树中的范围表RangeTblEntry,更通俗一些指的是出现在FROM语句后面的......
  • 大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队
    摘要:在大数据领域中,HiveSQL被广泛应用于数据仓库的数据查询和分析。然而,由于数据量庞大和复杂的查询需求,HiveSQL查询的性能往往不尽人意。本文针对HiveSQL的性能优化进行深入研究,提出了一系列可行的调优方案,并给出了相应的优化案例和优化前后的SQL代码。通过合理的优化策略和技......
  • JVM基础篇(五)-JVM结构-执行引擎
    执行引擎的概述执行引擎是Java虚拟机核心的组成部分之一,属于JVM的下层,里面包括解释器、及时编译器、垃圾回收器。“虚拟机”是一个相对于“物理机”的概念,这两种机器都有代码执行能力,其区别是物理机的执行引擎是直接建立在处理器、缓存、指令集和操作系统层面上的,而虚拟机的执行引......
  • JVM基础篇(四)-JVM结构-本地方法接口
    本地方法本地方法:NativeMethod"AnativemethodisaJavamethodwhoseimplementationisprovidedbynon-javacode."(本地方法是一个非Java的方法,它的具体实现是非Java代码的实现)一个NativeMethod是一个Java调用非Java代码的接囗。该方法的实现由非Java语言实现,这个特征并非J......
  • 智慧安防LiteCVR可视化安防平台4分屏播放显示CPU过载的原因排查
    随着科技的飞速发展,视频编码技术已经成为现代监控系统中的核心组件。它不仅提高了视频数据的传输速度和存储效率,还使得监控系统变得更加智能化、高效化。通过这种方式,视频数据可以被压缩并存储在计算机或其他设备上。这种技术不仅提高了视频数据的传输速度,还使得视频数据可以被快......
  • JVM分析+1,+=1,++的效率
    工具准备ideajclasslib插件准备src/main/java/com/xiaofengs/Main.javapublicclassMain{publicstaticvoidmain(String[]args){inti=0,j=0,k=0;i++;j=j+1;k+=1;}}接着使用javac将其编译,命令i如下javacsrc/......