首页 > 其他分享 >存储故障处理流程演变

存储故障处理流程演变

时间:2024-04-01 18:04:15浏览次数:21  
标签:存储 ITIL 运维 流程 平台 故障 工单 告警

存储作为存放金融企业数据中心各类生产数据的重要载体,其日常的安全平稳运行至关重要。特别是应对若干存储的大量告警,如何从大量告警中提取关键告警消息并及时处理异常,可谓对存储平台的稳定运行起到保驾护航的作用。

存储告警处理作为常规工作,一方面需要在技术层面上及时发现告警并处理,另一方面还要在制度层面符合ITIL流程管理的规定。

存储告警中硬盘及电池的告警相对较多,此类告警出现时通常需要更换备件解决,且更换操作均属于标准流程。因此,存储硬件类告警的日常处理,如果兼顾流程、实际情况能纳入自动化管理,对于工作效率的提升将十分明显。

一、传统存储故障处理流程

1. 发现存储故障

机房值班人员通过每天定期现场巡检,借助存储物理亮灯可以发现异常情况并告知存储运维人员进行处理。由于人工巡检频率较低,发现异常相对比较滞后,且存在漏检可能。

为了能及时发现存储设备存在的告警,早期通过在各存储管理平台配置SNMP Trap,将告警信息由运行监控中心发送给存储运维人员。

这类告警即时性相当高,有效辅助运维人员在第一时间发现设备异常,但告警消息数目较多且缺乏过滤及压缩,也给运维人员的日常工作带来了一定的困扰。

2. 提交厂商日志确认并安排维修

SNMP Trap类告警消息因缺少设备序列号、机柜位置、部件位置、部件规格等明确信息,无法直接转发给厂商工程师进行设备报修,一般需要单独收集相关日志发送给厂商进一步分析,或者需要运维人员通过命令行或GUI等工具反馈具体信息给厂商。

设备报修要求出具相关部件的准确信息,而基于一定规则定制的告警消息无疑将使报修流程化繁为简,在日常运维中将节省大量的时间。

3. 纳入ITIL流程

存储硬件更换在制度上纳入ITIL流程变更管理,通常需要由存储运维人员在ITIL管理平台申请事件工单和变更工单。

运维人员梳理设备告警情况,并跟厂商确认好部件更换工作,先在ITIL管理平台中提出事件工单,然后关联此事件工单创建变更工单。事件工单经服务台确认后需要运维人员反馈事件原因和解决方案。变更工单经变更经理审核后需运维人员制定方案,并依次经变更经理、室经理、分管负责人审批后方能实施。变更实施完成后,运维人员还需要在事件工单和变更工单中说明变更时间和实施情况,如图1所示。

图片

图1 传统阶段存储故障处理流程示意图

二、目前存储故障处理流程

1. 发现存储故障

引入硬件监控平台,按照一定的时段轮询获取各品牌型号存储的告警信息。此类告警较Trap而言即时性相对较差,但采用了一定的规则过滤出等级较高的信息进行推送。告警消息少而精,便于定制,能更好地满足运维人员的日常管理要求。

例如,针对重复的告警,可以采用压缩算法,通常可以4小时报一次,直到问题解决。针对info、warning等较低级别的告警可以实现过滤,而只给运维人员推送error和critical等较高级别的告警。

2. 提交厂商关键信息并派件维修

借助硬件监控平台的广泛使用,设备告警消息通过运行监控中心按一定规则拼接后可以发送给运维人员。对于绝大多数情况,运维人员无需再登陆系统进行二次确认,直接可将告警消息转发给厂商人员即可安排派件维修。

3. 纳入ITIL流程

同传统阶段,运维人员仍需在日常工作中消耗一定的时间和精力来申请事件及变更工单并跟进流转。如图2所示。

图片

图2 目前阶段存储故障处理流程示意图

三、未来存储故障处理流程

前两个阶段在变更实施和ITIL流程管理上,两条线相对独立尚未进行融合,这与自动化运维管理仍有一定的差距。为进一步优化日常存储告警的处理工作,未来应着力于在ITIL流程中实现工单中模板化的东西由系统推送,并根据监控平台推送的恢复告警来自动反馈工单的解决方案和实施情况等信息。

1. 发现存储故障和判断故障恢复

目前硬件监控平台只能抓取设备的异常告警,对于故障修复后未能生成恢复类告警,需要人工参与判断是否完成故障修复。若监控平台对于特定设备能及时判断故障是否修复并生成恢复告警,则有益于推进ITIL流程的自动化管理,极大减少人工参与环节。

2. 提交厂商关键信息并派件维修

此部分尽可能针对不同品牌型号的存储及不同部件,进一步细化告警信息,从而实现告警消息转发后的正常派件维修即可。

3.ITIL流程自动化审批

硬件监控平台将收集到的异常告警及时推送至智能平台。智能平台加工整合收集到的异常告警,识别出常见的坏件告警(例如硬盘、电池告警),并基于选定的时间范围,按照既定的模板向ITIL管理平台提交事件工单和变更工单申请。变更工单经变更经理审核确认后,由智能平台提供模板完成方案制定环节的提交。ITIL管理平台在事件工单经服务台审批后发送给智能平台处理,并将变更工单实施环节发送至智能平台进行处理。后续由硬件监控平台捕捉设备告警是否修复,如正常完成修复,向智能平台及时推送恢复告警消息。智能平台最终基于恢复告警消息,向ITIL管理平台反馈实施情况从而关闭相关工单。显然,智能平台承担了运维人员ITIL流程管理相关的工作,其对监控告警的识别和整合发挥着不可替代的作用。如图3所示。

图片

图3 未来阶段存储故障处理流程示意图

综上所述,为了提升存储告警处理的自动化运维管理水平,一方面需要在告警消息的精准推送上下功夫,在硬件监控平台新增恢复告警,减少告警定位和设备报修中带来的时间人力开销;另一方面还需要打造智能平台,促进硬件监控平台和ITIL管理平台自然衔接,从而替代运维人员做好流程管理的跟进及反馈等工作。

标签:存储,ITIL,运维,流程,平台,故障,工单,告警
From: https://blog.csdn.net/LinkSLA/article/details/137224918

相关文章

  • 4.运算符 与 流程语句
    【一】程序与用户交互1)输入(input)2)输出(print)1.简单字符串print('hello,word!')2.多个变量输出a='one'b='two'print(a,b)#onetwo3.默认end参数print('hello',end='_')print('word!')#hello_word!【二】基本运算符1)算术运算符......
  • Mysql数据库故障排查与优化
    目录前言一、Mysql数据库的单实例故障1.故障一——拒绝连接数据库1.1故障内容1.2问题分析1.3解决方法2.故障二——密码错误2.1故障内容2.2问题分析2.3解决方法3.故障三——数据库处理较慢3.1故障内容3.2问题分析3.3解决方法4.故障四——数据库表被破坏4.1故障......
  • BOSHIDA 常见的DC电源模块故障及解决方法
    BOSHIDA常见的DC电源模块故障及解决方法DC电源模块广泛应用于各种电子设备中,为其提供稳定的直流电源。然而,由于长期使用或其他原因,DC电源模块有时会出现故障。本文将介绍一些常见的DC电源模块故障及相应的解决方法。 1.输出电压异常:DC电源模块的主要功能是提供稳定的输出电......
  • KingbaseES V8R3集群运维案例---主库OOM故障分析
    案例说明:KingbaseESV8R3集群,主库数据库OOM,产生core,请帮忙分析。数据库内存64Gb,为华为云虚拟机,无swap。适用版本:KingbaseESV8R3一、问题分析1、查看sys_log数据库OOM信息PortalMemory:8192totalin1blocks;7888free(0chunks);304usedPortalHeapMemory:1......
  • Radio Frameworks 启动流程
    RadioFrameworks收音机服务进程在Android中在frameworks/base/services/java/com/android/server/SystemServer.java/startOtherServices中被调用启动一、加载Radio权限配置文件SystemConfig在构造函数中加载权限配置文件时,会在多个文件目录下找权限配置文件,比如环......
  • CCRC办理流程
    CCRC信息安全服务资质一级/二级认证周期一般是12周,三级认证周期4周。认证周期包括自申请被正式受理之日起至颁发认证证书时止实际发生的时间,不包括申请单位准备或补充材料的时间。认证流程:认证申请与受理—文档审核—现场审核—认证决定—年度监督审核。证书状态:有效、暂停......
  • windows版本docker修改存储目录
    dockerdesktop里面,settings=>resource=>advance 或者手动操作1使用wsl--list-v在cmd终端,查看桌面是否关闭,如果没有关闭,使用wsl--shutdown立即终止所有正在运行的发行版和WSL2轻量级实用程序虚拟机2.查看存储地址默认情况下,DockerDesktopforWindow会创建如下......
  • 对象存储服务OBS obsfs挂载
    一、下载obsfs下载源码下载地址:https://github.com/huaweicloud/huaweicloud-obs-obsfsgitclonehttps://github.com/huaweicloud/huaweicloud-obs-obsfs.git#下载所需包yuminstall-ygcclibstdc++-develgcc-c++fusefuse-develcurl-devellibxml2-develmailcapgi......
  • 【故障诊断】基于 KPCA 进行降维、故障检测和故障诊断研究(Matlab代码实现)
    ......
  • 【故障检测】基于 KPCA 的故障检测【T2 和 Q 统计指数的可视化】(Matlab代码实现)
    ......