首页 > 其他分享 >[不好分类]仿照语雀故障分析内部一起故障处理的过程

[不好分类]仿照语雀故障分析内部一起故障处理的过程

时间:2023-10-25 09:22:46浏览次数:41  
标签:语雀 运维 故障 部门 答复 仿照 团队 收付

近期公司发生一起信息系统故障。尝试分析一下。

时间线

10月18日

8:24 用户提报MES系统收付关系有误,无法获取进出厂班量。

9:12管理员答复,核查一下。

10月19日

21:00 芳烃、烯烃、塑料等车间反馈班量采集错误。

22:59

管理员答复,发现约5个装置的进出厂收付关系丢失。第二日会核实后重建。

10月20日

8:46 调度部门请信息部门核查,确认是否近期项目是否导致收付关系丢失。

8:51 信息部门答复,项目组未进行变更。(后经确认,变更为甲方信息部门其他人员变更)

9:13 信息部门负责人要求各业务部门、运维部门、信息部门共同查明原因。

9:56 信息部门专家答复会进行核查。

20:47 芳烃人员反馈H2仍然无法修改。多个装置收付关系缺失。

21:07 信息部门员工答复联系顾问诊断。

21:50 调度部门专家再次请信息部门领导确认项目对数据的影响。

22:22 信息部门员工答复目前项目尚未对炼油、芳烃操作。

10月21日

8:02 MES管理员答复,已对芳烃、炼油收付关系重建。并请各厂装置人员主动确认是否有缺失,如缺失请重建。

16:35 管理员答复收付关系已重建完毕,请大家观察。故障基本处理完毕

故障原因分析:

1、根原因:项目团队成员(甲方)私自删除部分收付关系,导致故障,并且未及时告知运维团队。

2、运维团队未能有效与业务沟通,备份常见收付关系。

3、各团队界面相对模糊,发生故障时,未能有效响应。

4、项目管理方面存在责任不明确的现象,未能编制变更方案,未能编制测试和回退方案。

后续改进措施

1、加强项目管理团队在项目建设过程的约束。例如重大变更必须编制方案且必须经过审核。严格管控管理员权限,并采用实名制,避免多人共用一个账户,包括管理员账号、数据库账户等。

2、加强运维团队和业务部门的互动,定期培训灾难情况如何操作并进行应急演练。

3、严格各方工作界面的确定。对于各类故障应该在多长时间恢复。

4、需要综合考虑系统重要性,以确定是否要建立备份和容灾机制。

责任追究与内部团队考核

1、项目管理团队,扣发当月绩效;补充完善后续变更方案。

2、未能及时进行故障恢复导致业务受损,运维团队,依据运维合同进行考核。

3、信息部门未能与业务部门共同组织培训,建议考核。

标签:语雀,运维,故障,部门,答复,仿照,团队,收付
From: https://www.cnblogs.com/viphhs/p/17786329.html

相关文章

  • 语雀故障与反思,顺便再领半年会员!
    23日语雀的故障相信大部分人都已经知道了,官方发布的公告是这样的:10月23日语雀出现重大服务故障,且持续7个多小时才完全恢复,给用户使用造成极大不便,对此我们深感抱歉。经过复盘,我们在这里向大家进一步说明故障原因、修复过程和改进措施。故障原因及处理过程:10月23日下......
  • [不好分类]yuque.com语雀无法访问
    事件备忘:从2023年10月23日下午14:00左右开始至发稿,无法访问yuque.com的web,报错为500,跳转到https://www.yuque.com/500?real_status=500 原因猜测:作为一款web应用,无法从web访问应该是比较严重的事故。个人猜测是后端基础设施故障,或者未知发布导致应用故障。公众号咨询,官方......
  • 掌握 Kubernetes 故障排除:有效维护集群的最佳实践和工具
    Kubernetes是一款管理容器化应用程序的强大工具。然而,与任何复杂的系统一样,使用它时也可能出错。当问题出现时,掌握有效的故障排除技术和工具非常重要。 本文将介绍以下步骤,助您了解事件收集的入门知识:检索最新事件使用Pod模拟问题在位于PV的Pod中存储事件 检索......
  • 掌握 Kubernetes 故障排除:有效维护集群的最佳实践和工具
    Kubernetes是一款管理容器化应用程序的强大工具。然而,与任何复杂的系统一样,使用它时也可能出错。当问题出现时,掌握有效的故障排除技术和工具非常重要。 本文将介绍以下步骤,助您了解事件收集的入门知识:检索最新事件使用Pod模拟问题在位于PV的Pod中存储事件 检索......
  • linux网络故障排查
    在日常使用中,经常会出现无法连通的情况,这个时候我们就需要找到问题出在哪里,这里面给各位提供一个生产环境排查网络故障的大体思路,一般情况下如果遇到网络故障,都是通过筛选的方式一点一点的确定问题所在,首先判断是本机的问题还是网络上其它设备的问题,如果同一网络环境中的其它主机......
  • Linux常见较全的故障修复思路及解决方案
    一、crontab不执⾏crontab是linux自动周期执⾏脚本的常用工具,实现服务器按着设定的周期策略进⾏执⾏脚本或命令任务,但是crontab也常出现一些不执⾏的问题导致计划任务未按预期执⾏。根据个⼈运维工作所⻅的案例,进行归纳,常⻅问题如下:1、脚本编辑器错误shell脚本:#!/bin/bash#!/bin/shpyth......
  • html+css3+anime.js实现文字故障动画
    记录一个很酷的动画,效果如图: 是基于html+css3+anime.js实现的,看了眼代码,其实是默认文字的div中定位了几个相同的文字块,利用clip-path这个属性去裁剪展示其中的一部分,用于展示故障的效果,动画则是使用anime.js去循环改变X与Y轴的位置,同时调整绘制的颜色,demo代码如下:<!DOCTYPEh......
  • 【笔记】问题控制与管理&故障、问题、已知错误、变更请求之间的逻辑关系&问题管理流程
    【笔记】问题控制与管理&故障、问题、已知错误、变更请求之间的逻辑关系问题控制与管理与故障管理的尽可能快地恢复服多的目标不同,问题管理是要防止再次发生故障**例如你制作了一个报表,用户填写了问题数据进去,因此报错提示了,让用户换个数据或者和用户说不要这样填写的方法就算......
  • 【笔记】数据库、网络故障与恢复
    【笔记】数据库故障与恢复数据库故障主要分:事务故障、系统故障和介质故障事务故障是指事务在运行至正常终点前被终止,此时数据库可能出现不正确的状态。是由于事务程序内部错误而引起的,有些可以预期,如金额不足等,有些不可以预期,如非法输入、运算溢出等。类似于手动执行回滚恢......
  • 再现ORA-600 4000故障处理---惜分飞
    联系:手机/微信(+8617813235971)QQ(107644445)标题:再现ORA-6004000故障处理作者:惜分飞©版权所有[未经本人同意,不得以任何形式转载,否则有进一步追究法律责任的权利.]有一个10g的库,由于redo损坏导致无法正常recover成功正常途径无法open成功,尝试强制打开库 Wed......