首页 > 其他分享 >方法论与技术栈双管齐下的运维可用性能力建设(七)

方法论与技术栈双管齐下的运维可用性能力建设(七)

时间:2024-05-30 10:30:24浏览次数:22  
标签:服务 运维 重启 可用性 双管齐下 应急 方法

3)应急三把斧思路

故障应急方法很多,在不同的业务场景、不同的自动化水平等因素背景下,同类的故障的应急处理方法也不一样,如果对每一类的应急方法的重视程度都一视同仁,比如演练、自动化工具等工作的投入上就会失去重点,所以建议在应急方法的管理过程中也要有侧重的、分阶段的完善。

比方说在众多的应急方法中,不同的团队也会有一些常用的应急方法,比如应用运维的“三把斧”:重启、回撤、切换;DBA的“三把斧”:杀锁、加索引、清理数据。在归纳出这些常用的应急方案后,就可以有针对性围绕这类重点的痛点进行完善。

当然,强调应急三把斧的思路并不代表不用重视比较少出现故障的应急方案。是希望在人力资源有限的情况下,针对最常用的应急方法,要加大力度去实现自动化,并通过应急演练加强实际落地的能力。

以下以服务重启为例:

(1)痛点:

分布式部署,需要登录多个应用进行重启;

重启过程中遗忘保存现场,增加故障后的问题根源分析;

重启后检查方法复杂,效率不高且容易出错。

(2)解决方法:

针对最佳实践的重启应急的操作流程,先保存现场(比如针对JAVA服务先保存CORE),应急处理,汇总应检查的服务状态的数据。

针对不同的操作系统,新建服务重启工具,工具支持重启应急的操作流程(保存现场、重启、技术检查),并与监控事件的丰富整合在一起,提高应急的效率。

可用性是运维KPI或SLA中很重要的一个可量化指标,在基本的底线保障的基础之上,将可用性能力的建设提炼出来,以横向的角度进行建设,有利于集中力量,积累最佳实践,是一项投入产出比很高的工作。

可用性是运维KPI或SLA中很重要的一个可量化指标,在基本的底线保障的基础之上,将可用性能力的建设提炼出来,以横向的角度进行建设,有利于集中力量,积累最佳实践,是一项投入产出比很高的工作。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索“IT服务”,排名第一的就是)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长

标签:服务,运维,重启,可用性,双管齐下,应急,方法
From: https://blog.csdn.net/ITyunwei0987/article/details/139311157

相关文章

  • 【介绍下运维开发】
    ......
  • BIM运维管理平台
    产品是什么?以互联网为载体,以BIM为核心,集可视化、模型化、辅助运行、智能维护等功能于一体的综合运维管理平台。平台实现数据集成、数据记录、数据管理,形成完整的系统,与BIM模型相关,使信息以模型为载体,BIM模型支持数据可视化、数据分析、事故预报、漫游检查、漫游检查,通过连接......
  • 运维的出路在哪里特别是35以后
    出路就是安全运维。因为网安是吃经验饭的。简单的桌面运维已经跟不上未来数字时代的要求。网络安全运维属于经验越足,薪资越高的职业。《2022年网络安全产业人才发展报告》数据显示,网络安全产业人才中,处于25-40岁年龄段的青年从业者占比超过8成,其中30-40岁的人才最多,占比达到......
  • 开发-----运维不迷茫,运维工程师转型升级之路
    导言在工作中你是否遇到过困惑和迷茫的时期,总是有解决不完的问题,救不完的火,总在反复单调的做着同样的事情,担心自己会被时代给淹没,会被时代给抛弃,运维这样的工作是不是也能转型升级?下面我们一起看看腾讯应用运维工程师的产品经理转型升级之路吧!其实只要功夫深,铁杵磨成针,工作......
  • 揭秘运维开发:如何让你的系统更高效、更可靠?
    导言:运维开发,这个词近年来在科技圈频频出现,但它究竟是什么?为什么越来越多的企业开始重视它?本文将带你深入了解运维开发的核心概念、技术栈以及成功案例,揭秘其背后的奥秘,助你实现系统的高效运维和可靠运行。1.什么是运维开发?运维开发(DevOps)是指将开发和运维两个角色合并,通过......
  • SQLServer常用运维SQL整理
    今天线上SQLServer数据库的CPU被打爆了,紧急情况下,分析了数据库阻塞、连接分布、最耗CPU的TOP10SQL、查询SQL并行度配置、查询SQL重编译的原因等等整理了一些常用的SQL1. 查询数据库阻塞?1SELECT*FROM sys.sysprocessesWHEREblocked<>0查询......
  • 运维系列:Vscode使用国内镜像源下载,秒下
    Vscode使用国内镜像源下载,秒下Vscode使用国内镜像源下载,秒下镜像源Vscode使用国内镜像源下载,秒下镜像源国内镜像地址:https://vscode.cdn.azure.cn使用方法:很简单,只需要在官网选择自己需要的版本,点击下载,在下载的路径中将我们的镜像源替换上去即可1.81.1版本下......
  • [转帖]IT运维整体解决方案的资料分享
    点击标题下「蓝色微信名」可快速关注技术社群的这篇文章《IT运维整体解决方案(PPT)|周末送资料》给我们提供了一个IT运维整体解决方案PPT,包括了步骤规划、平台设计、事件处理流程、监控、各设备及系统管理、工作流引擎等各个要素,对撰写运维方案具有参考价值,部分内容可作为模......
  • 如何解决IT运维不给力
    运维不给力,是很多企业IT部门面临的头疼问题,其背后的原因错综复杂,可能涉及到资金投入不足、团队积极性不高、或是缺乏科学的运维管理体系。要解决这些问题,引入IT运维管理和利用先进的ITILDESK平台,可以作为破局的关键。 资金高效利用在预算有限的情况下,首先要确保资金用......
  • 【赛题解析】【网络建设与运维】2023年全国职业院校技能大赛中职组“网络建设与运维”
    在此之前,欢迎关注波比网络波比网络官方公众号:blbinet波比网络工作室官方公众号:blbistudio技能大赛各赛项交流群:https://www.blbi.cn/threads/40/更多正式赛题源文件访问:https://www.blbi.cn获取技术支持访问:https://www.blbi.cn/form/1/selectNISP、CIPS、PTE证书可......