避免90%以上IT故障，医院运维效率狂飙

时间：2023-09-12 18:35:39浏览次数：39

标签：运维数据库离线狂飙故障 90% 告警 CPU

一、故障发现到解决，仅用15分钟

一、问题描述

上午11点半左右，平台接到医院某软件PACS+数据库离线和CPU使用率异常告警。

避免90%以上IT故障，医院运维效率狂飙_运维

（告警信息）

避免90%以上IT故障，医院运维效率狂飙_离线_02

（告警详情）

二、查找问题的原因

避免90%以上IT故障，医院运维效率狂飙_离线_03

cpu使用率时序图

从CPU使用率时序图中，可以看到11点33分左右，CPU使用率迅速从20%左右增长到100%。因为操作系统的CPU资源不足，导致SQL Server数据库软件不能正常工作，平台检测不到数据库运维参数，生成离线告警。

三、问题处理步骤

1、通知现场工程师。

某软件PACS+数据库离线，需要协助排查软件PACS+数据库是否正常运行。现场工程师远程连接服务器，确认服务器操作系统正常运行。

避免90%以上IT故障，医院运维效率狂飙_离线_04

2、通知软件工程师查看SQL server数据库是否正常运行

避免90%以上IT故障，医院运维效率狂飙_数据库_05

3、查找数据库离线原因

避免90%以上IT故障，医院运维效率狂飙_运维_06

4、问题解决

将数据库重启，并对数据库占用资源设置限制，继续观察；

CPU使用率下降，恢复正常，Sql Server数据库运行正常。

避免90%以上IT故障，医院运维效率狂飙_运维_07

小结：医院应用软件较多，软件工程师人力有限，未能及时发现PACS+数据库离线问题。MOC工程师在数据库卡死的第一时间联系用户工程师，并协助现场工程师进一步检查SQL server数据库。最终锁定数据库占用CPU资源未释放，将数据库使用资源情况做限定，从发现到问题解决只用15分钟。

二、减少90%以上IT故障，医院效率狂飙

医院运维的难点在于业务系统错综复杂，数据庞大、资产分布广，数据安全敏感。高度依赖信息系统稳定和安全运营。具有以下特点：

设备多、分布广，巡检工作量大，极易错检、漏检；
缺乏系统预警，无法预知设备运行状况；
故障处理无序状态，依赖个人技术、手工，分散运维，风险系数高。

LinkSLA深耕医疗行业，根据医院运维环境特点，打造专业的服务方案。

1、统一部署，全栈监控

医院拥有硬件设备、网络设备、数据库、中间件等多种资产，分别由不同的供应商提供维护服务。LinkSLA智能运维管家通过统一部署实现数据中心一体化监控和智能化运维，将所有的监控资源和对象统一采集，建立底层基础架构到上层业务应用的关联关系，在设备发生故障时，快速分析设备对业务系统造成的影响，有效降低故障风险。

LinkSLA智能运维管家SaaS云运维，降低部署难度可开箱即用，省去大量分级部署，迅速完成数据库、中间件、容器环境。大大提高运维效率。

2、AI趋势性预测，更精准高效

基于医院运维场景的需求和相关的时序数据集，定制了ML算法（孤立森林、梯度提升树、直方图检测），经过训练、调整后的模型，实际验证准确率达到85%以上；经过一线值守服务的再次筛选，准确率达到95%左右。AI+人力服务最终达至了基本无误报的结果。

在业务数据上，提供一套完整的、处理分析与发现问题的算法。通过智能算法或规则实现异常监测，告警降噪，避免传统工具带来的告警风暴，集成告警事件工单，让故障得到快速响应。

3、MOC值守，诊断+修复

平台主动监控，MOC实时响应。基于资产价值定义SLA，量化服务水平，提供数字化决策依据。链接人员及流程，关联各种运维因子。平台内置ITIL流程，闭环运维，配套知识库，提供技能学习培训，避免人肉运维。也可远程申请MOC工程师协助，通过分析实时数据，查看时序图，迅速定位故障，实现高效远程协作指导。

4、极致的可视化用户体验

1、客户大屏

避免90%以上IT故障，医院运维效率狂飙_数据库_08

集中展示资产健康状况和服务水平

2、业务视图

避免90%以上IT故障，医院运维效率狂飙_离线_09

业务系统监控状况集中展示

3、工单详情

避免90%以上IT故障，医院运维效率狂飙_数据库_10

展示工单流程、基本信息、根因分析和历史相似工单

4、网络拓扑

避免90%以上IT故障，医院运维效率狂飙_运维_11

告警收敛和辅助根因分析的重要依据

将孤立分散的系统统一监控，减少重复和繁琐的日常巡检工作，使运维工作由被动变主动，提高IT服务的可用性、可靠性、和安全性的同时，实现低成本运维。LinkSLA智能运维管家，构建安全模式的纵深监控产品和服务，以稳定、高效、安全的特点助力智慧医疗加速发展。

标签：运维,数据库,离线,狂飙,故障,90%,告警,CPU
From： https://blog.51cto.com/u_15576159/7447149

AntDB数据库参加ACDU中国行杭州站，分享数据库运维实践与经验
关于ACDU和中国行:ACDU是由墨天轮社区举办的中国数据库联盟的品牌活动之一，在线下汇集数据库领域的行业知名人士，共同探讨数据库前沿技术及其应用，促进行业发展和创新的平台，也为开发者们提供友好交流的机会。AntDB作为具有技术前瞻性的国产数据库产品，积极分享15年行业实践经验、线......
GaussDB技术解读系列丨运维自动驾驶探索
本文分享自华为云社区《DTCC2023专家解读|GaussDB技术解读系列之运维自动驾驶探索》，作者：GaussDB数据库。近日，在第14届中国数据库技术大会（DTCC2023）的GaussDB“五高两易”核心技术，给世界一个更优选择专场，华为云数据库运维研发总监李东详细解读了GaussDB运维系统自动驾驶探索和实......
水泥储能电站远程监控智慧运维系统
水泥行业是重点耗能行业，受到环保部门的严格管控；加上市场低迷、水泥价格持续走低，与较高的能耗成本冲突日益严重，倒逼水泥行业寻找节能降耗新出路。目前，新能源与储能有着良好的政策支持，因此很多水泥厂在建设光伏系统自己产电的同时，也会建设储能电站并网运行，既能储存光伏电能，也能利用......
230909 NOIP 模拟赛 T1 cake 题解
原题题意有一块$n\timesm$$(1\len,m\le14)$的蛋糕，每个位置上有一个权值$a_{i,j}$$(1\lea_{i,j}\le1000)$，现在你要把它切开。每次你可以平行与某一边界把蛋糕切开，所以共有$n-1$个可以竖着切的位置，以及$m-1$个可以横着切的位置。对于每一组$i,j$\(......
【学习笔记】P8590 『JROI-8』这是新历的朝阳，也是旧历的残阳
比较有思维的一个数学题，写个笔记纪念一下。显然，为了使$\sum\limits_{i=1}^na_i^2$最大，整数一定要放最后一段，即求$\sum\limits_{i=1}^n(a_i+m)^2$，而负数需要分情况考虑，即放第一段还是最后一段，中间的$m-2$是空段，只考虑$1$和$m$这两个极端情况。可以设中间节点$t$，$a_{i......
Java基础知识面试题系列八：81～90题
Java基础知识面试题系列七：81～90题81.JavaCollections框架是什么82.什么是迭代器83.Iterator与ListIterator有什么区别84.ArrayList、Vector和LinkedList有什么区别85.ArrayList、Vector和LinkedList容器使用场景选择86.HashMap、Hashtable、TreeMap和WeakHashMap有哪些区别87.Hash......
ADRV9009 PCIe射频收发平台
概要QT1509RF射频收发板卡是一款基于RFIC架构的零中频PCIe总线软件无线平台。可实现双路射频接收、双路射频发送，支持带宽可达200MHz，能够适应不同频段和功率要求,调谐范围75MHz~6GHz。频段可覆盖2G/3G/4G/5G平台应用;可应用于通信、雷达、卫星测试验证、系统构建等场合。坤驰科......
基于V7 690T+ZYNQ7020的CPCI 双FMC载板
概要QT7061板卡是一款基于V7+Z7双FPGA的双FMC高性能CPCI载板。主要芯片采用Xilinx公司7系FPGA中最高端的Virtex7中的XC7VX690T-2FFG1761和Zynq7中的XC7Z020-CLG484，组成双FPGA载板。其中XC7VX690T-2FFG1761搭配2组共8片16bit4Gb的DDR3SDRAM（MT41K256M16HA-125ITE），XC7Z020-CLG484搭......
基于SMQ7VX690T FPGA +FT-6678 DSP 6U VPX双FMC载板
概要QT7041G-DSP是一款基于6UVPX架构，主体芯片采用国微SMQ7VX690T芯片作为主处理器、1片银河飞腾DSP处理器FT-6678做为协处理芯片的6UVPX标准双FMC载板。可对外部传入的数据处理分析，具备强大的运算能力。可用于软件无线电系统，基带信号处理，无线仿真平台，高速图像采集、处理等......
基于V7 690T 6U VPX双FMC高性能载板
概要QT7041E基于6UVPX架构，主体芯片采用一片XilinxFPGAVirtex-7XC7V690T，并带双FMC接口的信号处理板。可对外部传入的数据处理分析，具备强大的运算能力。板卡搭载不同的FMCAD/DA子板，可用于软件无线电系统，基带信号处理，无线仿真平台，高速图像采集、处理等。支持热插拔，设计芯片......