首页 > 数据库 >故障分析 | TCP 缓存超负荷导致的 MySQL 连接中断

故障分析 | TCP 缓存超负荷导致的 MySQL 连接中断

时间:2024-05-11 09:42:07浏览次数:30  
标签:缓存 TCP timeout MySQL net 客户端

1.背景

在执行跑批任务的过程中,应用程序遇到了一个问题:部分任务的数据库连接会突然丢失,导致任务无法完成。从数据库的错误日志中,发现了 Aborted connection 的信息,这说明客户端和服务器之间的通信被异常中断了。

2.分析

为了找出问题的原因,我们首先根据经验,分析了可能导致连接被 Aborted 的几种常见情况:

  1. 客户端没有正确地关闭连接,没有调用 mysql_close() 函数。
  2. 客户端空闲时间超过了 wait_timeout 或 interactive_timeout 参数的秒数,服务器自动断开了连接。
  3. 客户端发送或接收的数据包大小超过了 max_allowed_packet 参数的值,导致连接中断。
  4. 客户端试图访问数据库,但没有权限,或者使用了错误的密码,或者连接包不包含正确的信息。

然而,经过排查,发现以上情况都不适用于当前的问题。

情况 1:因为任务在之前都是正常运行的,而且程序也没有变动,所以可以排除第一种情况。

情况 2:查看 MySQL 的超时参数 wait_timeout 和 interactive_timeout ,发现它们都是 28800(8 个小时),这远远超过了任务执行时间,所以可以排除第二种情况。

情况 3:检查客户端和服务器的 max_allowed_packet 参数,发现它们都是 64M,也不太可能超过这个限制,所以可以排除第三种情况。

情况 4:我们也确认了客户端的数据库访问权限,密码,连接包等信息,都是正确的,所以可以排除第四种情况。

到此,我们初步感觉 MySQL 层面应该没有问题,问题可能出在其他地方。

为了进一步定位问题,我们尝试了修改服务器的一些相关内核参数,如下:

net.ipv4.tcp_keepalive_intvl = 30
net.ipv4.tcp_keepalive_probes = 3
net.ipv4.tcp_keepalive_time = 120
net.core.rmem_default = 2097152
net.core.wmem_default = 2097152
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_max_syn_backlog = 16384

这些参数主要是为了优化网络连接的性能和稳定性,避免连接被意外关闭或超时。但是,修改后的结果并没有改善,连接还是会异常中断。

最后,我们尝试了进行抓包分析,通过 Wireshark 工具,我们发现了一个异常的现象:服务器会给客户端发送大量的 ACK 包。如下图所示:

 

这些 ACK 包是 TCP 协议中的确认包,表示服务器已经收到了客户端的数据包,请求客户端继续发送数据。但是,为什么服务器会发送这么多的 ACK 包呢?我们猜测可能是网络有异常,导致客户端接收不到服务器返回的 ACK 包,所以服务器会反复发送 ACK 包,直到超时或收到客户端的响应。但是,经过网络人员的排查,未发现有明显的问题。

继续分析抓包,我们又发现了另一个异常的现象:客户端会发送给服务器一些窗口警告。如下图所示:

 

这些窗口警告是 TCP 协议中的流量控制机制,表示服务器或客户端的接收窗口已经满了,不能再接收更多的数据。

[TCP Window Full] 是发送端向接收端发送的一种窗口警告,表示已经到数据接收端的极限了

[TCP ZeroWindow] 是接收端向发送端发送的一种窗口警告,告诉发送者,接收端接收窗口已满,暂时停止发送。

根据以上信息,我们推测出了问题的原因:由于 MySQL 需要发送的数据太大,客户端的 TCP 缓存已经满了,所以需要等待客户端把 TCP 缓存里面的数据消化掉,才能继续接收数据。但是,在这段时间内,MySQL 会一直向客户端请求继续发送数据,如果客户端在一定时间内(默认是 60 秒)没有响应,MySQL 就会认为发送数据超时,中断了连接。

为了验证推测,查看 MySQL 的慢日志,发现了很多 Last_errno: 1161 的记录。

这些记录表示 MySQL 在发送数据时遇到了超时错误,而且发现出现的次数和应用程序失败的任务数很接近。根据 MySQL 官网的说明,这个错误的含义是:

Error number: 1161; Symbol: ER_NET_WRITE_INTERRUPTED; SQLSTATE: 08S01

Message: Got timeout writing communication packets

可知这个表示的意思是网络写入中断,而 MySQL 层面有个参数就是控制这个的,所以尝试更改 net_write_timeout 参数为 600,跑批任务正常运行。

所以 MySQL 连接被异常中断的原因在于客户端获取的数据库太大,超过了客户端 TCP 缓存,客户端需要先处理缓存中的数据,在这段时间内,MySQL 会一直向客户端请求继续发送数据,但是客户端 60 秒内一直未能响应,导致 MySQL 发送数据超时,中断了连接。

3.结论

通过上述的分析和尝试,我们得出了以下的结论:

  • 抓包信息中,有很多 ACK 信息是因为客户端的缓存满了不能及时给服务端反馈,所以服务器会反复发送 ACK 信息,直到超过 60秒(net_write_timeout 默认值是 60),导致 MySQL 把连接中断了。
  • 慢日志中,有很多 Last_errno: 1161 的记录,是因为该 SQL 实际已经在 MySQL 中执行完毕了,但是在发送数据到客户端时,由于数据量太大超过了客户端的 TCP 缓存,然后客户端上的应用在 60 秒内未把缓存中的数据处理掉,导致 MySQL 往客户端发送数据超时。
  • MySQL 层面调整 net_write_timeout 参数只能缓解这个现象,根因在于单个 SQL 获取的数据量太大,超过了客户端的缓存大小,应用程序不能短时间内处理完缓存中的数据,进而导致后续的数据发送超时。

4.优化建议

  • 业务层面进行分批处理数据,避免单个 SQL 从服务器获取大量的数据,导致客户端的 TCP 缓存不足。
  • 提高 MySQL 中的 net_write_timeout 参数或者增加客户端的 TCP 缓存,可缓解此情况的发生,但不能彻底解决该问题,因为数据量太大仍然会影响性能和稳定性。
  • 优化 SQL 语句,减少不必要的数据返回,比如使用 LIMIT、WHERE 等条件,或者使用聚合函数,分组函数等,以减少数据量和提高查询效率。

https://mp.weixin.qq.com/s/DLvBk8KXN_xDecHURaa_WQ?from=industrynews&version=4.1.22.6014&platform=win&nwr_flag=1#wechat_redirect

标签:缓存,TCP,timeout,MySQL,net,客户端
From: https://www.cnblogs.com/VicLiu/p/18185783

相关文章

  • FastApi-tortoise-jwt-mysql
    抽了半天时间学了一下fastapi,为了方便,代码没分结构。importsysimportjwtimportuvicorn,asyncio,signal,osfromfastapiimportFastAPI,HTTPException,Dependsfromfastapi.securityimportOAuth2PasswordBearer,OAuth2PasswordRequestFormfromtortoiseimportfie......
  • mysql tda 加密表
    对TDE加密的表解密,请执行如下命令:MySQL5.6  altertable<tablename>engine=innodb,block_format=default;MySQL5.7或8.0  altertable<tablename>encryption='N';......
  • Linux Debian12 部署MySql 并建立外部连接
    一.下载MySql下载最新软件包。也可以在命令界面下使用下载最新的发行包。wgethttps://repo.mysql.com/mysql-apt-config_0.8.29-1_all.deb下载完成后,使用命令进行安装dpkg-imysql-apt-config_0.8.29-1_all.deb执行完后会跳转到安装MySql配置界面​ TAB进行保......
  • 【MySQL】求和查询,目标值int,但空数据时返回null的问题(Java)
    问题分析intselectDeviceMonthRepairCount(StringdeviceType,Stringmonth);<selectid="selectDeviceMonthRepairCount"resultType="int">SELECTSUM(repair_count)FROMwarranty_recordsWHEREdevice_type=......
  • Mysql多表连接order by优化场景
    一天,DBA突然发来一条慢SQL告警,SQL如下:SELECTs.msg,t.msg,o.msg,GROUP_CONCAT(t.tId)AStIdListFROMt_ooLEFTJOINt_ssONo.id=s.oIdLEFTJOINt_ttONt.oId=o.idWHEREo.type='B'ANDo.status='HAS_PAY'ANDt.type......
  • Mysql 查询后进行插入
    Mysql查询后进行插入,具体要求如下:1、有2张表,sys_role_user和sys_role_user_123,两张表结构相同,表字段有role_id、user_id2、role_id和user_id是唯一索引3、把sys_role_user中没有的数据从sys_role_user_123中复制到sys_role_user表中 INSERTINTOsys_role_user(role_i......
  • dokcer-compose.yml 方式运行 mysql 8.0
    先不映射指定配置目录,./conf/mysql,docker容器开起来后,复制容器内/etc/mysql到宿主机,然后添加目录映射:-"./conf/mysql:/etc/mysql",这样就可以将配置里保存在宿主机了。version:'3.0'networks:mysql_network:name:mysql_networkexternal:trueservices:......
  • php使用mysql-text字段存取json字符串
    PHP保存时过滤掉双引号&单引号&tabfunctionformartJsonString($jsonString=''){ $jsonString=str_replace("'","",$jsonString); $jsonString=str_replace('\"',"",$jsonString); $jsonString=st......
  • selenium+mysql 爬取LEI官网数据
    importtimefromseleniumimportwebdriverfromselenium.webdriver.chrome.serviceimportServicefromselenium.webdriver.common.byimportByfromselenium.webdriver.support.uiimportWebDriverWaitfromselenium.webdriver.supportimportexpected_conditions......
  • TCP长连接/HTTP长连接/HTTP长(短)轮询
     TCP长连接/HTTP长连接/HTTP长轮询TCP长连接VSHTTP长连接TCP长连接和HTTP长连接是两个相关但概念上有所区别的技术。TCP长连接TCP(TransmissionControlProtocol)是互联网传输层的一个面向连接的协议,它提供可靠的数据传输服务。在TCP连接中,长连接是指客户端和服务器建立连......