首页 > 其他分享 >金融行业现场故障处理实录

金融行业现场故障处理实录

时间:2024-01-26 12:08:15浏览次数:29  
标签:文件 查看 etc 现场 重启 系统 实录 故障 kdump

  • KL银行现场服务记录HA故障
    服务时间
    2019年9月10日星期二14:40 到2019年9月11日星期三0:30

    服务内容
  • 排查redhat RHEL 6.4 一个节点cman启动故障。(1)、查看系统日志;
    (2)、查看ha日志,/etc/cluster下各日志文件;
    (3)、clustat查看集群状态,提示cman未运行;
    (4)、查看集群配置文件/etc/cluster.conf;
    (5)、对比另一个正常运行节点的状态及日志输出;
    (6)、运行指令 strace –f –o /tmp/cman.log /etc/init.d/cman status ,生成跟踪文件;
    由于当前不能执行cman启动操作,故障暂时不能排除。
  • 新的华为服务器,由于使用了UEFI代替老旧的bios进行引导管理,客户在安装redhat RHEL6.4时进行不下去,顺便协助他正确完成安装。
  • Ha挂接的共享盘报“no clean”,预判文件系统存在问题,准备服务停止后,卸载挂接,然后修复(fsck)。
  • MS银行(顺义)现场服务记录--
    问题描述

    某RedhatRHEL 6.X系统部署应用以后,运行一段时间,可能会出现系统挂起现象,挂起时间不确定。相关人员怀疑是应用所引起的,为了弄清事实真相,需要在系统挂起前导出core文件。

    系统已经配置好kdump,但在启动kdump服务时,无法成功。因此现场服务的主要任务时排查kdump启动故障。

    排查过程
  • 检查相关的软件包是否正确安装:rpm-qa|grep kexec-tool ,已经被正确的安装。
  • 检查kdump.conf配置文件,为发现异常;
  • 检查系统日志/var/log/messages,未发现有价值信息;
  • 试着启动服务service kdump start ,输出提示”找不到内核文件kernel-15…”。初步判断问题出现在这里。这个数字15是哪里来的呢?
  • 打开文件/etc/sysconfig/kdump,发现其有效行的第一行有异常

金融行业现场故障处理实录_系统日志


通过对比其他正常系统的配置,其值默认为空,不为“15”。在征得同意以后,对其修改,并启动kdump服务。

处理结果

故障排除,完成服务。

  • TK保险服务器重启排查记录
    主要现象

    近期以来,每隔2天左右会自动重启,并且重启时间不固定。

主要信息收集

  • 硬件信息:4颗物理cpu,总核数96,总线程数192;内存1T;磁盘多路径连接,划分多个逻辑卷。
  • 操作系统为redhat RHEL 7.4,内核版本3.10.0-693.未进行过版本更新。
  • 应用为db2数据库。

排查过程

  • 查看系统日志,dmesg及打开文件/var/log/messages,并用关键字error、fatal、warning等进行过滤。

egrep –i “error|fatal|warning” /var/log/messages

未发现有价值信息。

  • 查看系统用户,存在多个普通用户,并拥有shell(bash)。
  • 查看用户授权,主要是/etc/suders,使用的命令visudo 。虽然授权指令较多,但未发现有reboot指令的权限授予。
  • 排查用户的计划任务,因为用户较多,使用如下脚本进行查找。

for u in `cat /etc/passwd | cut -d":" -f1`;do sudo crontab -l -u $u;done

金融行业现场故障处理实录_配置文件_02


发现db2数据库启动账号有个重启脚本,设定的时间是每天早上8点。搜索此脚本及所在路径,不存在,建议注释掉此条。

  • 用户反馈,说二线技术支持曾经远程配置了kdump,模拟系统崩溃能生成vmcore文件,但昨天早上(6:00多钟)系统崩溃发生重启,却没有生成转储文件。查看文件/etc/default/grub及/boot/grub2/grub.cfg,其中kernel=786M@0M。鉴于此,把crashkernel的值改成786M,去掉了后边的偏移量。再修改文件/etc/kdump.conf,启用压缩功能。

core_collector makedumpfile -c --message-level 1-d 31

增加一选项“-c”,表示启用压缩。

grub2-mkconfig -o /boot/grub2/grub.cfg

重新生成grub配置,需要重启才能生效。

  • 查看系统参数kernel.sysrq,其值为16,手动方式修改文件/etc/sysctl.conf,显示指定

Kernel.sysrq=1

修改完执行sysctl –p 使其生效。

  • 执行下列指令,模拟故障发生。

echo c > /proc/sysrq-trigger

重启完成后,在目录/var/crash确实生成了大文件,大小为4G。

服务建议

等下一次重启,如果生成了vmcore文件,把此文件传到case附件里边,有后台技术对其进行分析。

  • TK人寿系统修复操作记录


问题及成因


一虚拟机系统,不能正常引导,但还能进入单用户模式。此虚拟机没有对镜像进行备份,因此无法还原。系统中有用户的数据,因此不能通过重新安装系统来进行有效恢复。


通过沟通,了解到是用户自己在远程执行一ssh脚本,此脚本有一行”chmod –R 777”的指令,本意是共享一nfs服务目录,但因为为对目录是否存在进行判断,因此一执行完脚本,所有的目录文件的权限都变成777了。


处理过程


找一台运行正常的,版本一致的系统,对比/etc目录里各种权限与验证有关的目录和权限,如asswd、shadow、ssh等。用chmod指令逐一进行修改,修改一些权限以后,重启系统,直到能正常运行,并且能用ssh远程登录。



处理结果及建议


交付给用户,然后建议重装系统。但用户自己认为没啥问题,以后再说。


标签:文件,查看,etc,现场,重启,系统,实录,故障,kdump
From: https://blog.51cto.com/sery/9426954

相关文章

  • openGauss学习笔记-207 openGauss 数据库运维-常见故障定位案例-btree 索引故障情况下
    openGauss学习笔记-207openGauss数据库运维-常见故障定位案例-btree索引故障情况下应对策略207.1btree索引故障情况下应对策略207.1.1问题现象偶发索引丢失错误,报错如下。ERROR:index'xxxx_index'containsunexpectedzeropage或ERROR:index'pg_xxxx_index'cont......
  • 转载:Linux 问题故障定位的技巧大全
    转载:https://mp.weixin.qq.com/s/vzG9y7Uh1xGstGbopGBvjw 1、背景有时候会遇到一些疑难杂症,并且监控插件并不能一眼立马发现问题的根源。这时候就需要登录服务器进一步深入分析问题的根源。那么分析问题需要有一定的技术经验积累,并且有些问题涉及到的领域非常广,才能定位到问......
  • 如何降低微服务复杂度丨云栖大会微服务主题分享实录
    作者:谢吉宝本文整理自阿里云资深技术专家、中间件负责人谢吉宝在2023云栖大会《极简微服务模式,降低微服务复杂度的最佳实践》的分享2023云栖大会现场当面临复杂的挑战时,"分而治之"的方法往往能取得显著的效果。微服务架构在这方面的贡献尤为突出,它不仅为"分"与"治"这两个环节提供......
  • openGauss学习笔记-206 openGauss 数据库运维-常见故障定位案例-too many clients alr
    openGauss学习笔记-206openGauss数据库运维-常见故障定位案例-toomanyclientsalready206.1高并发报错“toomanyclientsalready”或无法创建线程206.1.1问题现象高并发执行SQL,报错“sorry,toomanyclientsalready”;或报无法创建线程、无法fork进程等错误。206.1.2......
  • 构建端到端可观测全景丨云栖大会可观测分享实录
    作者:周洋技术不断演进,端到端可观测需求愈发强烈随着Kubernetes、Serverless等云原生技术引领研发、运维模式变革。应用架构从单体架构逐步演进为分布式、微服务化应用。生产关系不断变化,DevOps/ 运维自动化、业务中台化让可观测不止于大促保障与日常轮值。同时,Prometheus、Gra......
  • 构建端到端可观测全景丨云栖大会可观测分享实录
    作者:周洋技术不断演进,端到端可观测需求愈发强烈随着Kubernetes、Serverless等云原生技术引领研发、运维模式变革。应用架构从单体架构逐步演进为分布式、微服务化应用。生产关系不断变化,DevOps/ 运维自动化、业务中台化让可观测不止于大促保障与日常轮值。同时,Prometheus、......
  • 灭火图 - 故障发现和定位的入口
    通过深入分析和解决企业在可观测性和稳定性保障方面的挑战,Flashcat提出了“灭火图”这一关键概念。灭火图以服务/模块/基础组件/基础设施等为维度,以聚合的视角实时度量某个特定维度的可用性(典型指标包括时延、流量、错误、饱和度),并为该可用性指标自动设定合理的阈值,可以回溯历......
  • 问题:为了防止系统故障造成文件系统被破坏,通常采用(__)方法来保护文件。
    问题:为了防止系统故障造成文件系统被破坏,通常采用(__)方法来保护文件。A、二次转储B、随机转储C、定时转储D、虚拟转储参考答案如图所示......
  • openGauss学习笔记-204 openGauss 数据库运维-常见故障定位案例-重建索引失败
    openGauss学习笔记-204openGauss数据库运维-常见故障定位案例-重建索引失败204.1重建索引失败204.1.1问题现象当Desc表的索引出现损坏时,无法进行一系列操作,可能的报错信息如下。index\"%s\"containscorruptedpageatblock%u",RelationGetRelationName(rel),BufferG......
  • 关于spring.redis.cluster集群部分Master节点故障后 交易中断60秒解决方案
     背景  第一种方案:公司项目做性能测试,redis集群选用cluster集群模式,开始选用3主3从,共3台服务器,每个服务器一主一从。    服务器A  redis8001 8002    服务器B  redis8003 8004     服务器C  redis8005 8006    8001主    ......