首页 > 其他分享 >Tomcat 9.0.26 高并发场景下DeadLock问题排查与修复

Tomcat 9.0.26 高并发场景下DeadLock问题排查与修复

时间:2023-04-04 13:33:52浏览次数:48  
标签:26 8080 nio Tomcat 死锁 http DeadLock 9.0


vivo互联网技术 微信公众号 
作者:黄卫兵、陈锦霞

一、Tomcat容器 9.0.26 版本 Deadlock 问题

1.1 问题现象

1.1.1  发生 Deadlock 的背景

某接口/get.do压测,3分钟后,成功事务数TPS由1W骤降至0。

Tomcat 9.0.26 高并发场景下DeadLock问题排查与修复_java

1.1.2  Tomcat服务器出现大量的CLOSE_WAIT

被压测服务器,出现TCP CLOSE_WAIT状态个数在200~2W左右。

Tomcat 9.0.26 高并发场景下DeadLock问题排查与修复_java_02

1.2 初步定位:线程堆栈信息入手

通过jstack打印Tomcat堆栈信息,发现“Found 1 deadlock”


Found one Java-level deadlock:
=============================
"http-nio-8080-exec-409":
waiting to lock monitor 0x00007f064805aa78 (object 0x00000006c0ebf148, a java.util.HashSet),
which is held by "http-nio-8080-ClientPoller"
"http-nio-8080-ClientPoller":
waiting to lock monitor 0x00007f05e8061058 (object 0x00000007bfe40a70, a java.lang.Object),
which is held by "http-nio-8080-exec-205"
"http-nio-8080-exec-205":
waiting to lock monitor 0x00007f0614018448 (object 0x00000006c0e8e088, a java.util.HashSet),
which is held by "http-nio-8080-BlockPoller"
"http-nio-8080-BlockPoller":
waiting to lock monitor 0x0000000001ed06e8 (object 0x00000007bfe110f8, a java.lang.Object),
which is held by "http-nio-8080-exec-380"
"http-nio-8080-exec-380":
waiting to lock monitor 0x00007f064805aa78 (object 0x00000006c0ebf148, a java.util.HashSet),
which is held by "http-nio-8080-ClientPoller"


1.2.1  快速修复方案

内部讨论后,认为当前Tomcat版本可能有Bug。不影响项目进度,简单修改方案把SpringBoot 使用的Tomcat 9.0.26 降级到Tomcat 8。降级后再次压测,没有发现问题。基本上可以确定Tomcat 9.0.26 应该是存在 Deadlock 问题。

1.3  问题进一步跟踪

1.3.1  向Apache社区的反馈

为了确认问题,我们试着给Tomcat提交Bug反馈。

Tomcat 9.0.26 高并发场景下DeadLock问题排查与修复_死锁_03

从堆栈信息来看,是3类线程5个线程由于加锁的顺序不致,从而相互等待发生了死锁。图形化上面加锁的过程如下图。

Tomcat 9.0.26 高并发场景下DeadLock问题排查与修复_deadlock_04

1.4 问题原因分析

明确了死锁的过程,但是哪个环节出了问题呢。这就需要深入到源码层去定位问题。首先需要下载OpenJDK 源码,然后是Tomcat 9.0.26 的源码。根据堆栈信息,定位到相应的代码位置。我们理出如下图Tomcat 9.0.26死锁流程说明。

Tomcat 9.0.26 高并发场景下DeadLock问题排查与修复_deadlock_05

要比较好的理解上图,需要对于NIO有一定的了解。在Tomcat中NIO主要是理解NIO Endpoint。

Poller是对于Selector的一个封装,而线程名为exec-xx的执行线程是Channel的封装。在NIO中Channel注册到Selector然后通过SelectionKey来记录对应关系。到此,主角都上场了。

Poller的run方法作为后台线程一直在轮询(select)准备好的SelectionKey,在轮询的时候也顺便需要把cancelledKey中的SelectionKey给反注册。执行线程EXEC-XX在处理时会先判断连接的状态,比如失败、异常等情况会调用Channel的close方法去关闭连接。

而Channel的close实际只是把SelectionKey加入到cancelledKey。两者都需要先锁定,但锁定的顺序不一致,从而导致死锁。

1.4.1  与Tomcat开发者的交流

在提交Bug后,很快得到了Remy Maucherat的回复,首先他提到这个NIO内部的死锁。然后我们提到NIO内部的死锁是由于Poller.run和Poller.canceledKey在并发时导到的。

Remy Maucherat很快就进行了修复,主要是把Poller.canceledKey中close移到了finally中去执行,也就是先让Poller.run获得锁。

在得到修复后,我们使用替换后的代码进行了再次压测,死锁问题没有出现了。Remy Maucherat同时提到在最新的OpenJDK中相关问题的修复,但只会出现在jdk 11和14版本。

沟通中的详情见下图。

Tomcat 9.0.26 高并发场景下DeadLock问题排查与修复_高并发_06

1.4.2  Github上修复的验证

https://github.com/apache/tomcat/commit/9b1a8b67bffe462fc745b19e15ed59c37e2e1dcf

Tomcat 9.0.26 高并发场景下DeadLock问题排查与修复_高并发_07

1.5 结果验证

使用 https://github.com/apache/tomcat/commit/9b1a8b67bffe462fc745b19e15ed59c37e2e1dcf 提供修复后代码,重新打包tomcat-embed-core.jar 替换9.X.XX的再次压测,TPS平稳在1.5W左右。

Tomcat 9.0.26 高并发场景下DeadLock问题排查与修复_死锁_08

到此问题基本是定位清楚,并得到了修复。Remy Maucherat也回复到“The fix will be in Tomcat 9.0.31+”。

目前Tomcat 最新版本是Tomcat 9.0.30,还需要耐心等待31版本更新。建议使用Tomcat 8版本。

二、相关链接与参考

  1. OpenJdk源码下载
  2. Tomcat 源码
  3. 来自阿里云溪社区:断网故障时Mtop触发Tomcat高并发场景下的BUG排查和修复
  4. 深度解读Tomcat中的NIO模型 

 vivo 互联网技术 微信公众号

Tomcat 9.0.26 高并发场景下DeadLock问题排查与修复_死锁_09


标签:26,8080,nio,Tomcat,死锁,http,DeadLock,9.0
From: https://blog.51cto.com/u_14291117/6168608

相关文章

  • Java使用IntelliJ IDEA创建JavaWeb应用程序并配置Tomcat
    1、创建JavaWeb程序创建一个JavaEE项目,选择Web应用程序。创建好后结果如下2、添加Tomcat服务器首先在官网下载Tomcat对应的操作系统版本。https://tomcat.apache.org/右上角添加Tomcat服务器在服务器里选择本地的Tomcat地址,其他的默认。在部署里点击加号,选择Artifact工件,增加web......
  • 快慢指针-leetcode-26
    题目描述:给定一个已经排序好的数组,删除重复的元素,使每个元素只出现一次,并返回新的数组长度。不要为另一个数组分配额外的空间,必须采用O(1)额外内存复杂度的原地算法来解决这个问题。示例1:输入:nums=[1,1,2]输出:length=2,nums=[1,2]解释:函数应该返回新的长度2,......
  • 力扣26-2023.4.3
    力扣26-2023.4.3问题26.删除有序数组中的重复项方法思路:遍历数组,若后一个和前一个相同,则继续下一个;若后一个与前一个不同,则直接赋值。C++程序:#include<iostream>#include<vector>usingnamespacestd;intremoveDuplicates(vector<int>&nums){/*......
  • LIVE555再学习 -- testH264VideoStreamer 源码分析
    上一篇文章我们已经讲了一部分:testH264VideoStreamer重复从H.264基本流视频文件(名为“test.264”)中读取,并使用RTP多播进行流式传输。 该程序还具有内置的RTSP服务器。Apple的“QuickTime播放器”可用于接收和播放此音频流。要使用它,让玩家打开会话的“rtsp://”URL(程序在......
  • mp4v2再学习 -- H264视频编码成MP4文件
    一、H264视频编码成MP4文件参看:H264视频编码成MP4文件参看:mp4v2在VS2010下的编译与在项目中的使用最近做项目需要将H264文件封装为mp4文件,从网上找到了MP4V2库,下载下来后不知道从何下手,官方网站https://code.google.com/p/mp4v2/在windows下的编译过程介绍的很简短,对刚刚开始使用VS......
  • Tomcat 与 Nginx,Apache的区别
       Apache指的应该是Apache软件基金会下的一个项目——ApacheHTTPServerProject   Nginx同样也是一款开源的HTTP服务器软件(当然它也可以作为邮件代理服务器、通用的TCP代理服务器)。   Tomcat是Apache基金会下的另外一个项目,与ApacheHTTPServer相比,Tomcat能够......
  • 26-springboot-thymeleaf字符串拼接-常量-符号
    Thymeleaf字符串拼接一种是字符串拼接:<spanth:text="'当前是第'+${sex}+'页,共'+${sex}+'页'"></span>另一种更简洁的方式,使用“|”减少了字符串的拼接:<spanth:text="|当前是第${sex}页,共${sex}页|"></span>Thymeleaf可直接使用的常量和符号1、所有......
  • LiveGBS流媒体平台国标GB/T28181在国标级联上级时如果设备是H265视频编码上级只支持H2
    @目录1、什么是GB/T28181级联2、获取上级接入配置信息2.1、接入第三方国标平台2.2、接入LiveGBS示例3、配置国标级联3.1、国标级联菜单3.2、添加上级平台3.3、编辑上级平台级联3.4、共享通道给上级平台(选择通道)3.5、共享通道给上级平台(分组共享)3.6、推送通道4、强制推送H264编码5......
  • 野火书籍《STM32库开发指南》 第26章LCD代码勘误
     第26章LCD代码,P303代码写错。原来的代码写错,因为是D/CX引脚,高电平(1)意味着数据,低电平(0)意味着命令:#defineFSMC_Addr_ILI9341_CMD((uint32_t))0x60020000#defineFSMC_Addr_ILI9341_DATA((uint32_t))0x60000000因此应该将两个宏定义对换。正确的为:#defineFS......
  • 26.分割线
    一、基本参数1.定义:将实体(草图、实体、曲面、面、基准面、或曲面样条曲线)投影到表面、曲面或平面。它将所选面分割成多个单独面。可使用一个命令分割多个实体上的曲线。2.:分割类型:  1.轮廓:在一个圆柱形零件上生成一条分割线:  2.投影:将草图投影到曲面上,可形成以投......