首页 > 其他分享 >网站频频告警故障排查实录

网站频频告警故障排查实录

时间:2023-11-27 18:32:56浏览次数:32  
标签:主站 故障 虚拟机 实录 dev 排查 集群 告警 sdb1


故障描述


位于某Proxmox VE超融合集群上的一个网站频频报警,表现的形式是一会儿服务不可用,一会儿又恢复(如下图所示),但同一集群上的其他Web站点未发现异常。

网站频频告警故障排查实录_MySQL



可能的原因


1)出口带宽占满。

2)Proxmox VE集群故障。

3)负载均衡器故障。

4)应用服务器故障。

5)数据库故障。


故障定位


1)通过查看IDC出口带宽,使用率低于50%;

2)查看负载均衡器状态,转发正常。

3)随机抽查其它域名的网站,访问正常。


以上三点排查,说明在整个集群层面不存在故障,问题应该是应用所在的虚拟机本身。由于出故障的主站,由四个虚拟机组成负载均衡集群,因此需要登录每一个虚拟机系统,进行排查和处理。


故障处理


登录到主站所在的所有虚拟机系统,查看系统日志,未发现异常,但PHP慢日志里有很多信息值得怀疑,如下图所示。

网站频频告警故障排查实录_MySQL_02



不懂开发,先将这些信息截取部分,让人转发给异地的开发人员。几天过去了,还没有动静,但报警依旧,不能听之任之,继续排查。


登录到主站所在的虚拟机,执行指令“netstat -anp| grep -v unix”查看网络状态,从屏幕输出发现大量的“TIME_WAIT”(如下图所示),记录下与之关联的IP地址及端口,通过简单统计,得知IP地址为“172.16.98.124”,端口为“3306”的系统,遗留的信息最多,由此判断,故障应该有数据库“172.16.98.124”关系密切。

网站频频告警故障排查实录_MySQL_03



根据得出的信息,登录系统“172.16.98.121”,执行命令“dmegs”,从输出可知,磁盘分区“/dev/sdb1”的文件系统有损坏(如下图所示),试着用命令“fsck -n /dev/sdb1”检查一下。

网站频频告警故障排查实录_文件系统_04



因为系统上的MySQL服务处于运行状态,分区”/dev/sdb1”处于挂接状态,因此运行命令“fsck”时必须加选项“-n”,只检查不修复,避免丢失数据的风险。

网站频频告警故障排查实录_IP_05



在有问题的系统上,关闭MySQL服务,卸载分区“/dev/sdb1”,正式执行”fsck -y /dev/sdb1”进行文件系统修复。花费一些时间后,修复完成。挂接已经被修复的分区,然后启动MySQL服务,网站服务也正常了。

标签:主站,故障,虚拟机,实录,dev,排查,集群,告警,sdb1
From: https://blog.51cto.com/sery/8587555

相关文章

  • FlashDuty Changelog 2023-10-30 | 告警路由与 Slack 应用
    FlashDuty:一站式告警响应平台,前往此地址免费体验!告警路由什么是告警路由?FlashDuty已经与Zabbix、Prometheus等监控系统实现无缝集成,通过一个简单的webhook就可以把告警系统产生的所有告警事件推送到FlashDuty来管理。每个告警事件的重要性、紧急程度和所属团队可能不同,我们期望可以......
  • MindtheGap队伍实录(till 2023Nov)
    正式比赛\(**Year2023**\)\(ICPCNanjing:steel\)\(CCPCShenzhen:bronze\)\(ICPCJinan:\)未开始\(ICPCHangzhou(*):\)未开始交题圣经"语言别交错题目别交ß错longlong有没有开空间够不够大小够不够自己的样例试过没格式'\n'有没有板子有没有写错有没有取题目要求......
  • 运维平台 WGCLOUD v3.4.9 支持配置告警恢复通知脚本
    WGCLOUD在v3.4.9版本新增一个特性就是可以配置告警恢复脚本,这样如果有恢复通知,就会通过这个脚本发送。告警通知还是通过告警脚本来发送这样可以更好的区分处理告警消息告警恢复脚本不是必须配置的,如果配置了告警恢复脚本,那么此脚本只会发送恢复通知,不会发送告警通知消息使用场景,......
  • 详解CCE服务:一站式告警配置和云原生日志视图
    本文分享自华为云社区《新一代云原生可观测平台之CCE服务日志和告警篇》,作者:云容器大未来。告警和日志是运维人员快速定位问题、恢复异常的主要手段。运维人员日常的工作模式往往是先接收告警信息,再根据告警信息初步判断异常的范围和影响,通过相关组件的日志定位出故障原因,进行系......
  • linux服务器挖矿病毒 xmrig 排查和清除
    本身因为做后端开发没事的时候希望搞点小东西,就买了一个腾讯云的服务器。昨天突然收到腾讯云发的告警信息,提示服务器被人非法登录了。这个ip我也查了下,不确定是不是固定ip。我看到这个第一时间想到的就是被人注入脚本进行挖矿了,(碰到过好多次了............
  • Cocos Creator 常见错误排查方法
    CocosCreator新手开发的时候经常会遇到一些错误不知道如何解决,今天把这些错误总结一下,下次遇到的时候,自己知道如何分析。对啦!这里有个游戏开发交流小组里面聚集了一帮热爱学习游戏的零基础小白,也有一些正在从事游戏开发的技术大佬,欢迎你来交流学习。到底谁为null或undefine我......
  • 一次Java内存占用高的排查案例,解释了我对内存问题的所有疑问
      问题现象7月25号,我们一服务的内存占用较高,约13G,容器总内存16G,占用约85%,触发了内存报警(阈值85%),而我们是按容器内存60%(9.6G)的比例配置的JVM堆内存。看了下其它服务,同样的堆内存配置,它们内存占用约70%~79%,此服务比其它服务内存占用稍大。那为什么此服务内存占用稍大呢,它......
  • 视频监控管理平台EasyCVR告警查询拖动条无法显示,该如何解决?
    视频汇聚/视频云存储/集中存储/视频监控管理平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频资源的鉴权管理、按需调阅、全网分发、云存储、智能分析等,视频智能分析平台EasyCVR融合性强、开放度高、部署轻快,在智慧工地、智慧园区、智慧......
  • MindtheGap队伍实录
    正式比赛\(**Year2023**\)\(ICPCNanjing:steel\)\(CCPCShenzhen:bronze\)\(ICPCJinan:\)未开始交题圣经"语言别交错题目别交ß错longlong有没有开空间够不够大小够不够自己的样例试过没格式'\n'有没有板子有没有写错有没有取题目要求的模数读入的变量类型与题目......
  • 【Python自动化】定时自动采集,并发送微信告警通知,全流程案例讲解!
    目录一、概要二、效果演示三、代码讲解3.1爬虫采集行政处罚数据3.2存MySQL数据库3.3发送告警邮件&微信通知3.4定时机制四、总结一、概要您好!我是@马哥python说,一名10年程序猿。我原创开发了一套定时自动化爬取方案,完整开发流程如下:采集数据->筛选数据->存MySQL数据库......