首页 > 其他分享 >服务案例|故障频发的一周,运维居然睡得更香!​

服务案例|故障频发的一周,运维居然睡得更香!​

时间:2023-11-22 15:32:30浏览次数:28  
标签:频发 运维 工程师 故障 睡得 告警 使用率 日志

      医院运维,听起来平平无奇毫不惊艳,但其中的含金量,可不是“维持系统正常运行”就能总结的。毕竟医院对业务连续性的超高要求,让运维面对的问题都是暂时的,下一秒可能就有新问题需要发现解决。

服务案例|故障频发的一周,运维居然睡得更香!​_数据库


医疗信息化不断提高,各类设备、终端数量呈爆发式增长。IT运行环境日趋复杂,系统间关联逐渐加深,机房管理、系统监控...运维工作加量不加价。在保障信息系统高可用,稳定与安全之间,信息部门选择所有。

服务案例|故障频发的一周,运维居然睡得更香!​_日志文件_02


当我们试图解决医院棘手的运维问题,就要去做系统性建设。安徽某三甲医院携手LinkSLA智能运维平台,已经走过四个年头,早早完成从传统运维到智能运维的升级,不仅改善对业务系统的支撑,同时帮助运维工作提质增效。

医院运维能力提升主要集中在三个方面:

1、全栈资源统一监控

涵盖多类型、品牌监测,支撑大规模复杂数据的关联分析,一个界面了解医院所有IT资源运行状态。

2、IT资源可视化呈现和分析能力

数据呈现更灵活,将网络拓扑、关键性能指标、系统健康状态和警报信息等可视化呈现,提供数据的图形展示,运维人员可快速掌握和分析信息。

3、故障的快速定位与恢复,保障业务连续性。

实时自动巡检,准确定位故障节点,将故障处理时效从小时级降至分钟级。自动识别并分析业务及关联资源的常见故障,变被动响应为主动预防,有效降低故障发生率。

服务案例|故障频发的一周,运维居然睡得更香!​_运维_03

该用户上周罕见的频发告警故障,平台通过及时的告警和服务响应,帮助用户快速解决故障保障业务系统的稳定健康。客户表示虽然告警变多了,但是平台比他更主动,出手更快。很享受这种可控、可靠的服务。


案例一、解决nutanix节点内存使用率高问题

宿主机的内存使用率看似微不足道,实际检查起来费时费力,很多用户会过滤掉,不愿为这种小事每天做例行检查。但是小问题也会引发大事件,严重可导致非计划停机,大面积的业务中断。

上周一16:55分,平台收到该客户Nutanix-Hypervisor内存使用率超出阈值告警。

服务案例|故障频发的一周,运维居然睡得更香!​_日志文件_04


  MOC工程师通知现场工程师处理,提醒内存使用过高,建议将部分虚拟机迁移,从02节点迁移至01节点。

服务案例|故障频发的一周,运维居然睡得更香!​_数据库_05


虚拟机迁移后,告警问题得以解除。平台通过moc7*24在线值守,帮助客户更轻松高效运维,提前告知客户,做好空间规划与清理,有效避免小事情造成大麻烦。

案例二、解决HIS数据库日志空间满问题

周二14:22,平台收到HIS数据库日志文件空间使用率过高告警,THIS4的日志文件增高,接近100。

服务案例|故障频发的一周,运维居然睡得更香!​_数据库_06


 日志文件使用率阈值设为80%,过去一段时间使用率在10%左右平稳运行,根据当天时序图显示,从14:20开始,短短5分钟THIS实例的日志文件就从2.74G火速上升到28.86G,日志文件异常暴增,背后到底发生啥?让moc带我们走进现场。

服务案例|故障频发的一周,运维居然睡得更香!​_日志文件_07


  MOC工程师第一时间沟通现场工程师,检查故障确定因数据库差异化备份导致,数据库: COMMON、HRP_HB、MZHSZ、 NIS_MOBILE、THIS4备份完成后,磁盘空间使用率恢复正常, 告警得以解除。

  分钟级的告警响应,源自于平台对每个业务组件的指标、日志进行实时监控检测,一旦触发告警moc工程师会第一时间响应,通知现场工程师直到问题解决。将隐患扼杀在萌芽状态,大大降低系统宕机风险。


案例三、解决C盘IO繁忙率高问题

  周三7:18,【OC】磁盘繁忙率超过阈值,C盘读写请求服务占所用时间百分比"Percent_Disk_Time"大于90%,逼近100%。

服务案例|故障频发的一周,运维居然睡得更香!​_运维_08


       moc工程师初步判断两种可能。其一,C盘负载过重,导致磁盘无法及时处理所有的读写请求,其二,磁盘驱动器出现了故障或其他问题。

服务案例|故障频发的一周,运维居然睡得更香!​_数据库_09


 MOC工程师与现场工程师沟通,建议进行系统性能分析和磁盘故障排除,检查系统中的磁盘活动情况,查看进程或应用程序是否过多占用磁盘资源,尝试清理磁盘碎片,释放磁盘空间。进行扫描,确保系统没有受到恶意软件的影响。如果是硬件故障,可能需要更换磁盘或进行维修。

通过现场工程师排查,最终得出由于部署服务反复停止和重启导致C占用率过高导致,重启服务器后恢复正常

服务案例|故障频发的一周,运维居然睡得更香!​_运维_10


LinkSLA改变传统人工排查故障的方式,通过实时自动巡检,一站式的数据管理分析,快速定位响应告警,效率大幅提升。传统需要供应商多次沟通才能完成故障定位修复,甚至耗时1个月以上时间,基于平台的监控数据以及专家支持,故障发现定位恢复时间缩短至小时级。

       此外,通过MOC工程师,客户可以轻松使用平台,无需时刻紧盯监控,也能掌握平台运行状态,遇到突发问题,moc会第一时间通知,协助故障定位和提供解决方案,真正做到事前有御防,事中有保障,事后有总结。

       LinkSLA智能运维改善信息部门对业务系统的支撑能力,同时大幅降低运维人员的工作强度,使其将更多精力用于运维管理,未来医院发力智慧医疗,也将受益智能运维的高效工作,收获长期价值。


标签:频发,运维,工程师,故障,睡得,告警,使用率,日志
From: https://blog.51cto.com/u_15576159/8517559

相关文章

  • Jtti:常用的运维监控工具有哪些
    运维监控工具用于监视和管理计算机系统、网络和应用程序的性能、可用性和安全性。以下是一些常用的运维监控工具:Nagios:Nagios是一款开源的监控系统,可用于监测主机、服务和网络设备。它支持插件式架构,可以通过插件扩展功能。Zabbix:Zabbix是一款开源的网络监控和管理系统,具有实时监......
  • IT运维软件:政务数字化领域不可忽视的一股支撑力量
    一、引言随着信息技术的快速发展,政务信息化已成为推进国家治理体系和治理能力现代化的重要手段。监控易运维管理软件凭借其卓越的性能、稳定性、可扩容性和可集成性,为政务信息化领域提供了全面、高效的运维解决方案。本文将结合监控易的功能和特性,阐述针对政务信息化领域的运维解决......
  • IT系统运维管理升级:谈一体化运维的优势
     随着企业对于IT系统的依赖越来越严重,随之而来的是对于IT系统运维管理的不断升级。传统的IT运维管理方式已经无法满足现代企业的需求,因此,一款全面、高效的IT运维管理平台势在必行。  监控易运维管理软件基于全面的监控,获取基础数据性能,对IT资源及机房动环等进行一体化运维。......
  • 解锁数据库运维秘籍:掌握AntDB-T动态共享内存,提升进程间通信效率
    动态共享内存是AntDB数据库通信的重要手段,本文主要阐述AntDB-T数据库动态共享内存的实现原理、实现方式与使用方法。AntDB-T数据库是一款企业级通用分布式关系型数据库,其数据库内核是基于进程模型实现的,因此进程间通信(IPC)是实现分布式架构间进行任务协作和数据共享的关键。实现进......
  • 自助终端联网监控高效运维解决方案
    随着科学技术的发展与生活水平的不断提高,各行各业都在积极探索如何利用智能化技术提升工作效率。自助终端作为现代生活随处可见的智能设备,可以为用户提供各种轻松便捷的自助式操作体验,能够有效帮助服务商减轻运营成本,提高工作效率等,在医院、银行、地铁等场景应用广泛。 由于厂家销......
  • 【开源】基于Vue.js的天然气工程运维系统的设计和实现
    一、摘要1.1项目介绍基于Vue+SpringBoot+MySQL的天然气工程运维系统,包含工程项目模块、材料档案模块、材料领用单模块,还包含系统自带的用户管理、部门管理、角色管理、菜单管理、日志管理、数据字典管理、文件管理、图表展示等基础模块,天然气工程运维系统基于角色的访问控制,给工程......
  • shell运维脚本优化
    我们在平常工作中,你是否感觉shell脚本只是命令的堆砌;很多时候只是为了实现功能而没有好的组织结构;自己的脚本都不想再看一遍;此让你的shell脚本有python一样的美感并且极易维护,真的是shell脚本写到停不下来。现以k8s发版脚本为例,看一下脚本的优化过程:#!/bin/bashset-euns=$......
  • 混合云运维解决方案,支持公有云、私有云、信创云等环境
        数字时代,政企业务上云已成为大势所趋。虽然上云可为政企用户带来业务应用部署调度更加灵活、资源利用率更高的优点,但因云平台建设处于不同的阶段,且运转过程中包含大量的、不同类型的业务系统和应用场景,在整体云平台的建设中往往会产生如公有云、私有云、信创云、非信......
  • BMS系统如何实现远程监控与高效运维
    BMS系统(电池管理系统)是用来智能化管理各个电池单元,监控电池的状态的系统,通过对电压、电流、温度等参数采集、计算,进而控制电池的充放电过程,能够实现对电池的保护、提升电池的综合性能。 为实现BMS系统的安全稳定工作,就需要加强BMS系统的远程监控运维能力。对此数之能提供高效实用......
  • KubeSphere开源容器自动化运维平台实现远程访问操作,解决本地限制
    KubeSphere是一个基于Kubernetes的开源容器平台,它提供了全栈的IT自动化运维能力,简化了企业的DevOps工作流。KubeSphere采用前后端分离的架构,可以运行在任何Kubernetes、私有云、公有云、VM或物理环境之上。KubeSphere提供了运维友好的向导式操作界面,帮助企业快速构建一个强大和功......