工作生活中难免会遇到一些非常重大的危机、出现重大致命的BUG、如何面对?如何处理?如何化解危机?如何复盘?如何防止相同的事情重复发生?建立什么样的机制?定什么规章制度?
如何应对危机?如何高效率沟通协调?危机应对的多了处理经验也更丰富了、也不会怕遇到任何危机了、兵来将挡水来土掩、道高一尺魔高一丈、从容迎对各种危机。
有效防止技术故障的方法参考:
1:多开展结对编程、对核心业务代码进行复核、代码质量检查、代码质量扫描、结对编程的好处就是多一个思维、可能发现更多没被想到的问题、能有互补就完美了、虽然开展结对编程有很多难度、因为没几个人愿意被别人管控、改变自己的习惯。
2:采用稳定成熟的开发框架、创新可以用在测试性的项目里、经过验证可靠了后再用在核心项目里。
3:有完备的测试环境、可以在测试环境了充份验证逻辑,进行功能测试、压力测试、安全加固、有效限流、有些系统阶段性的访问量大、平时压力也很小、为了系统的稳定性、正式上线前、业务低峰时,都进行全链路压力测试、模拟大流量冲击、系统经过了严格的压力测试、平时运行会更加平稳、能保证能够支撑大业务量的冲击。
4:稳定成熟的网关机制、安全认证、权限鉴权控制、业务限流、流量流向控制、各种限流、降级服务等等都可以在网关层面统一实现,有效管控公司的各种服务应用。
5:需要对各种BUG进行定级、什么类型的BUG是什么级别、触犯什么类型的BUG有什么处罚机制?因为没任何处罚大家都无所谓产生什么BUG了,无法有效改进问题、防止问题重复发生、对生产环境、对公司的正常业务运转也没敬畏之心了,管理也不分好坏了。
6:BUG等级的认定、可以考虑影响范围、影响时长、影响用户数、影响业务等等维度进行等级认定,不同级别的BUG,有不同程度的处罚、因为好公司、大公司都有比较好的晋升机制、涨薪机制来吸音年轻人、吸引有能力的人、吸引有潜力的人来工作,他们需要能看到未来、看到发展前景、通常BUG等级会涉及到晋升、年终奖等等,让大家尽量不要有BUG,对BUG也有敬畏之心。
7:强大的监控、防止系统发生问题、各种强大的监控都加上、操作系统监控、网络流量监控、数据库监控、硬盘监控、内存监控、应用服务监控、业务监控、24小时不间断全天候值班监控、值班安排、第一时间有人响应、第一时间进行干预处理。
8:集群能力、防止单点故障、进行有效集群、任何一个单机单个容器等出问题、都不影响系统的正常运转、互联网思维比较强大的能力就是集群能力、用一堆小型能力的机器实现大规模应用,采用狼群战术。
9:持续发布系统、小步快跑、每个小功能的迭代发布、有问题可以流程化、机制化的灵活退回、可以有效倒退到上一个稳定版本、不会有重大的不可回退的版本、无可用版本的境界、能保证系统的平稳持续发布、可长久治理系统的稳定前进,防止发生重大问题时无法退回上一版本的局面。
10:应急预案、应急演练、出现什么样的紧急情况应该如何处理、处理的先后步骤是什么?为什么要这么处理?因为先后顺序错乱了,可能会把问题更加严重化、需要有一个完整的应急预案、例如先限流、先降级服务、逐个重启应用?还是重新启动数据库、重新启动操作系统、重新启动缓存等等。在业务淡季时还需要进行应急演练、故意人为创造可控的事故、看团队的应急能力、监控能力、事件响应能力。
11:有效复盘、为什么会产生这样的问题?来龙去脉是什么?是谁的问题谁的责任?如何防止这样的问题重复发生?我们如何改进流程、改进规章制度、改进管理方法、防止下一次有同样的问题发生、复盘的核心目的不应该是定罪为主、是为了防止类似事件重复发生为主会更好一些,相对公平公正的定则、还原事故的本质、不是互相甩锅为主目的。
12:需要有一些红线制度、触犯了什么BUG、重大失误、公司资损、信息安全泄露等等、有什么处罚依据、按公司的规定应该如何处理等等、合理合法的处理例如对公司的核心机密信息泄密、公司的各种信息安全等级的重要信息进行了泄露事故等等都有什么处罚依据、为什么要进行开除处罚等等。
各种知识是无边无际的与时俱进不断变化中进步、以上也仅供参考、希望对入门思维开拓能有所帮助。
标签:监控,--,能力,处理,限流,防止,技术人员,BUG From: https://www.cnblogs.com/jirigala/p/18007481