3)应急三把斧思路
故障应急方法很多,在不同的业务场景、不同的自动化水平等因素背景下,同类的故障的应急处理方法也不一样,如果对每一类的应急方法的重视程度都一视同仁,比如演练、自动化工具等工作的投入上就会失去重点,所以建议在应急方法的管理过程中也要有侧重的、分阶段的完善。
比方说在众多的应急方法中,不同的团队也会有一些常用的应急方法,比如应用运维的“三把斧”:重启、回撤、切换;DBA的“三把斧”:杀锁、加索引、清理数据。在归纳出这些常用的应急方案后,就可以有针对性围绕这类重点的痛点进行完善。
当然,强调应急三把斧的思路并不代表不用重视比较少出现故障的应急方案。是希望在人力资源有限的情况下,针对最常用的应急方法,要加大力度去实现自动化,并通过应急演练加强实际落地的能力。
以下以服务重启为例:
(1)痛点:
分布式部署,需要登录多个应用进行重启;
重启过程中遗忘保存现场,增加故障后的问题根源分析;
重启后检查方法复杂,效率不高且容易出错。
(2)解决方法:
针对最佳实践的重启应急的操作流程,先保存现场(比如针对JAVA服务先保存CORE),应急处理,汇总应检查的服务状态的数据。
针对不同的操作系统,新建服务重启工具,工具支持重启应急的操作流程(保存现场、重启、技术检查),并与监控事件的丰富整合在一起,提高应急的效率。
可用性是运维KPI或SLA中很重要的一个可量化指标,在基本的底线保障的基础之上,将可用性能力的建设提炼出来,以横向的角度进行建设,有利于集中力量,积累最佳实践,是一项投入产出比很高的工作。
可用性是运维KPI或SLA中很重要的一个可量化指标,在基本的底线保障的基础之上,将可用性能力的建设提炼出来,以横向的角度进行建设,有利于集中力量,积累最佳实践,是一项投入产出比很高的工作。
宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索“IT服务”,排名第一的就是)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长
标签:服务,运维,重启,可用性,双管齐下,应急,方法 From: https://blog.csdn.net/ITyunwei0987/article/details/139311157