近期公司发生一起信息系统故障。尝试分析一下。
时间线
10月18日
8:24 用户提报MES系统收付关系有误,无法获取进出厂班量。
9:12管理员答复,核查一下。
10月19日
21:00 芳烃、烯烃、塑料等车间反馈班量采集错误。
22:59
管理员答复,发现约5个装置的进出厂收付关系丢失。第二日会核实后重建。
10月20日
8:46 调度部门请信息部门核查,确认是否近期项目是否导致收付关系丢失。
8:51 信息部门答复,项目组未进行变更。(后经确认,变更为甲方信息部门其他人员变更)
9:13 信息部门负责人要求各业务部门、运维部门、信息部门共同查明原因。
9:56 信息部门专家答复会进行核查。
20:47 芳烃人员反馈H2仍然无法修改。多个装置收付关系缺失。
21:07 信息部门员工答复联系顾问诊断。
21:50 调度部门专家再次请信息部门领导确认项目对数据的影响。
22:22 信息部门员工答复目前项目尚未对炼油、芳烃操作。
10月21日
8:02 MES管理员答复,已对芳烃、炼油收付关系重建。并请各厂装置人员主动确认是否有缺失,如缺失请重建。
16:35 管理员答复收付关系已重建完毕,请大家观察。故障基本处理完毕
故障原因分析:
1、根原因:项目团队成员(甲方)私自删除部分收付关系,导致故障,并且未及时告知运维团队。
2、运维团队未能有效与业务沟通,备份常见收付关系。
3、各团队界面相对模糊,发生故障时,未能有效响应。
4、项目管理方面存在责任不明确的现象,未能编制变更方案,未能编制测试和回退方案。
后续改进措施
1、加强项目管理团队在项目建设过程的约束。例如重大变更必须编制方案且必须经过审核。严格管控管理员权限,并采用实名制,避免多人共用一个账户,包括管理员账号、数据库账户等。
2、加强运维团队和业务部门的互动,定期培训灾难情况如何操作并进行应急演练。
3、严格各方工作界面的确定。对于各类故障应该在多长时间恢复。
4、需要综合考虑系统重要性,以确定是否要建立备份和容灾机制。
责任追究与内部团队考核
1、项目管理团队,扣发当月绩效;补充完善后续变更方案。
2、未能及时进行故障恢复导致业务受损,运维团队,依据运维合同进行考核。
3、信息部门未能与业务部门共同组织培训,建议考核。
标签:语雀,运维,故障,部门,答复,仿照,团队,收付 From: https://www.cnblogs.com/viphhs/p/17786329.html