首页 > 其他分享 >日常Bug排查-连接突然全部关闭

日常Bug排查-连接突然全部关闭

时间:2024-05-13 09:09:22浏览次数:24  
标签:mem 连接 tcp TCP 排查 内存 关闭 Bug

日常Bug排查-连接突然全部关闭

前言

日常Bug排查系列都是一些简单Bug的排查。笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材。

Bug现场

最近碰到一个问题,一台机器上的连接数在达到一定连接数(大概4.5W)连接数之后会突然急速下降到几百。在应用上的表现就是大量的连接报错,系统失去响应,如下图所示:

思路

思路1: 第一步肯定是怀疑代码写错了,笔者看了下,使用的是成熟的框架,不是自己操作的连接,那么代码的问题应该较小。
思路2:那么笔者就开始怀疑是内核的限制,例如文件描述符到顶了之类,但这又有一个矛盾点。一旦是内核对连接数量限制的话,应该是连接数到达一定程度就涨不上去,而不是连接数跳水式下降。
思路2.1: 进一步,笔者就开始想,很有可能是某个间接资源的限制导致到达这个瓶颈后,所有的连接获取这个资源获取不到而导致全部报错。再结合TCP连接消耗的资源无非就是CPU/内存/带宽。

监控信息

有了上面的思路,我们就可以观察相关监控信息了。
CPU监控:CPU消耗很高达到了将近70%,但获取不到CPU一般只会导致响应变慢,和问题现象不匹配。
带宽监控:带宽利用率达到了50%,这个带宽利用率算不上高。
内存监控:确实使用了大量的内存,RSS达到了26G,但是比起128G的内存而言,这点消耗量显然不可能成为瓶颈。
好了,看了这三个数据之后,就发现系统的资源消耗还称不上达到瓶颈。但是,笔者从一开始就怀疑内存的使用可能触发了某个特殊的瓶颈。因为只有内存资源申请不到之后,TCP连接才有可能直接报错进而Drop连接。

TCP监控信息

当传统的监控已经不足以分析我们问题的时候,笔者就直接掏出针对TCP问题最有效的统计命令了,祭出法宝:

# 这条命令详细的输出了tcp连接的各种统计参数,很多问题都可以通过其输出获得线索
netstat -s 

笔者在这条命令的输出中详细的观察TCP以及TCP内存相关的输出项,定睛一看,就发现一个很不寻常的地方:

...
TcpExt:
 TCP ran low on memoery 19 times
 ......

这个输出就和笔者对于内存限制的猜想完全对应起来了。TCP内存不够了,导致读取或者写入数据的时候申请内存失败进而将TCP连接本身给Drop了。

修改内核参数

因为笔者之前详细的阅读过Linux TCP的源代码以及其所有的可调整的内核参数。所以对TCP的内存限制有映像。有了GPT之后,只需要知道一个大致的方向就好了,直接问GPT就给出了答案,就是tcp_mem这个参数。

cat /proc/sys/net/ipv4/tcp_mem
1570347 2097152 3144050

这三个值分别代表了tcp对于内存在不同阈值下的不同使用策略,单位是页,也就是4KB。具体解释可以直接去问GPT,在此就不赘述了。核心就是TCP消耗的内存总量在大于第三个值也就是3144050(12G,占128G内存的9.35%)的时候TCP就开始由于内存申请不到而Drop连接。而对应的应用由于每个请求高达好几M确实会让每个TCP连接消耗大量的内存。
在内存消耗过程中一旦超限,那么TCP连接就会被内核强制Drop,这也解释了为什么基本所有连接在很短的时间内就跳水式Drop,因为他们都在不停申请内存,而达到临界阈值后全部都报错,进而整个系统的所有连接都关闭导致系统失去响应。如下图所示:

知道是这个问题就很简单了,直接将tcp_mem调大即可:

cat /proc/sys/net/ipv4/tcp_mem
3570347 6097152 9144050

调整后系统保持稳定

在经过响应的内核调整之后,系统的连接数超过了5W之后依旧保持稳定。这时候我们观察相关的TCP消耗内存页的输出:

cat /proc/net/sockstat
TCP: inuse xxx orphan xxx tw xxx alloc xxxx mem 4322151

从这个输出我们可以看到系统平稳运行后,其常态使用的内存页数量mem为4322151已经远大于之前的3144050,这也从侧面验证了笔者的判断。

对应的内核栈

在此记录下对应的Linux内核栈

tcp_v4_do_rcv
 |->tcp_rcv_established
  |->tcp_data_queue
   |->tcp_data_queue
    |->tcp_try_rmem_schedule
     |->sk_rmem_schedule
      |->sk_rmem_schedule
       |->__sk_mem_raise_allocated
         |-> /* Over hard limit. */
          if (allocated > sk_prot_mem_limits(sk, 2))
          goto suppress_allocation;
   |->goto drop:
    tcp_drop(sk,skb)

可以看到当allocated大于相关的内存limit之后Linux Kernel会将此TCP连接直接Drop。

总结

笔者在了解清楚Bug现场之后,大概花了20分钟就定位到了是TCP内存瓶颈的问题,然后借助GPT非常快速的找到了相关解决方案。不得不说GPT能够大幅加速我们搜索的过程,笔者个人感觉可以在很大程度上替代搜索引擎。但喂给GPT的Prompt还是需要通过Bug现场以及一定的经验来构造,它代替不了你的思考,但能大幅加速信息的检索。

标签:mem,连接,tcp,TCP,排查,内存,关闭,Bug
From: https://www.cnblogs.com/alchemystar/p/18188082

相关文章

  • 抽丝剥茧:详述一次DevServer Proxy配置无效问题的细致排查过程
    事情的起因是这样的,在一个已上线的项目中,其中一个包含登录和获取菜单的接口因响应时间较长,后端让我尝试未经服务转发的另一域名下的新接口,旧接口允许跨域请求,但新接口不允许本地访问(只允许发布测试/生产的域名访问)。问题那么问题来了,本地环境该如何成功访问到新的接口并验证业务......
  • 多版本同时维护的 Bug 修复源代码保存方案
    问题描述在日常维护系统的过程中,我们经常需要修复他人提交的Bug(因为自己写的都是feature嘛)。对于单个线上版本的项目,我们可以轻松地创建一个bug修复分支,修复完成后再将其合并到主分支即可。然而,当系统同时存在多个线上版本时,比如V1.0.1、V1.0.2、V1.0.3、V1.1.0等,或者需......
  • 利用pycharm对分布式命令的设备进行debug(Vision mamba)
    背景介绍接着上次的visionmamba初步跑通,想进一步了解内部代码运行的过程,模型的工作机理,因此打算利用pycharm进行断点调试(即debug),花了半天时间终于学会了如何将控制台命令的形式传入pycharm中进行传参。在此,感谢大佬的博客,这里只是具体结合本机安装wsl2对大佬的博客进行......
  • el-cascader设置为任意一级选项,去除单选按钮以及点击关闭下拉选择
    1、标签组件:<el-cascaderref="cascaderRef1"popper-class="popper-cascader"@change="handleChangeCascader(cascaderRef1)"></el-cascader>2、给popper-cascader设置样式,在element-ui,scss里编写.popper-cascader.el-cascader-panel......
  • bug模板
    项目场景:我的本地项目运行起来了,好接下来就是把我之前写的代码粘贴到home文件中,运行一下,报了170多个错问题描述报错如下图,eslint检测出来的报错如下图,eslint检测出来的原因分析:应该关闭eslint配置就行了,找了很多解决方案:找到你的vue.config.js,然后增加一行lintOnSave......
  • 揭秘网络故障的幕后黑手:流量探针如何助您快速排查网络问题
    网络故障就像潜藏在暗处的幽灵,时不时跳出来影响我们的工作和生活。面对突如其来的网络问题,我们常常手足无措,不知从何下手进行排查。而流量探针,就像侦探手中的放大镜,可以帮助我们洞悉网络流量的真相,快速定位并解决问题。流量探针:网络故障排查的利器流量探针是一种网络流量分析工......
  • WIN10的BUG:语言栏快捷键重启丢失的问题(解决笔记)
    这个问题据说已存在多年,但一直没有解决:crtl+shift+del导致切换语言的热键丢失-MicrosoftCommunity经过下文的引导,发现真存在这个可能性,参照下文的方法解决W10修改输入法快捷键及快捷键BUG解决-知乎(zhihu.com)在我的电脑中是这样设置的:而这个“美式键盘”的快捷方式每次......
  • cinder2019#bug
    OpenStack#bug2019888处理对于2023年5月10日之后的所有OpenStack版本,需要将Nova配置为向Cinder发送服务令牌,并让Cinder接收它。这是CVE-2023-2088修复程序所要求的。有关详细信息,请参阅OSSA-2023-003。nova配置vim/etc/nova/nova.conf'''[DEFAULT]'''ser......
  • 一次glide内存泄漏排查分析
    glide是一款非常优秀的图片加载框架,目前很多项目在使用。提供了非常方法,在此,笔者就不一一列举了,可以到官网查找。目前项目在做内存排查,因为是车机项目,之前开发的时候没有注意内存方面的问题(车机项目你懂的),现在ota期间系统提出让我们优化内存,说出现过应用内存一直增加的情况。一......
  • WinBUGS对多元随机波动率模型:贝叶斯估计与模型比较
    原文链接:http://tecdat.cn/?p=5312原文出处:拓端数据部落公众号  在本文中,我们通过一个名为WinBUGS的免费贝叶斯软件,可以很容易地完成基于似然的多变量随机波动率(SV)模型的估计和比较。通过拟合每周汇率的双变量时间序列数据,多变量SV模型,包括波动率中的格兰杰因果关系,时变相关......