问题管理
问题的报告、受理、分派、督促、反馈、解决、跟踪、总结等工作过程
面对的问题
- 疲于解决重复性事件和问题
- 缺乏运维自动化:跟踪效率低,问题流转过程长;
- 流程性工作繁重:缺乏沉淀,难以形成问题库和深度挖掘分析底层原因和问题间关系
- 难以把控运维全局:不利于工作总结和持续优化
应用问题的一些基本定义
应用问题:
- 对应用系统在生产环境中发生的技术业务事件进行深入研究,明确事件产生的根源。
应用问题管理:
- 对问题的提炼、分析、解决和总结等活动进行管理的过程
应用问题管理的目标:
- 对应用系统运维过程中的问题进行调查分析,找到其根本原因和解决方案并实施,将应用系统错误对业务产生的影响降到最低,防止其再次发生,提升系统的稳定性。
应用问题的来源:
- 包括但不限于各渠道反映的生产系统异常或隐患事件,经分析认定为应用问题的。
- 对于非技术性问题、业务需求,与应用系统无关的运行问题等情况,不属于应用问题范畴。
应用问题的分类
从问题来源的角度可划分为事件问题与一般问题
- 事件问题:直接来源于生产运行事件的应用问题
- 一般问题:除直接来源于生产运行事件之外的问题
从问题成因的角度(可动态调整)可分为:
- 运行问题
- 程序问题
- 数据问题
- 设计问题
- 变更问题
- 第三方问题
- 业务问题
- 测试问题
- 其他问题
问题管理的应用成效
为实施主动式运维提供信息承载和管理的平台。
- 信息互联互通
- 流程集中管理
- 主动归纳挖掘
一、实现问题管理流程电子化
通过问题管理平台的搭建,解决手工处理 问题管理工作时人工跟踪过程复杂、信息碎片化现象严重的问题,
全面记录问题处理信息及跟踪工作流,提升问题流转效率,沉淀有价值的应用问题数据。
二、规范问题管理过程
规范问题报告、问题跟踪反馈等工作过程,
提高应用问题报告、解决、反馈的时效性,
使问题报告及反馈信息要素更加准确。
三、有效控制问题数量
提高问题定位率及解决率
缩短问题平均处理周期
四、形成问题库,为主动运维服务
系统记录、跟踪和管理应用系统日常运维中各渠道出现的应用问题及解决过程,
在大量数据积累的基础上形成问题库并转换为知识库,作为技术资源供开发、运维过程中参考,
及时分析和判断系统运行风险,在事件发生之前发现和解决有关问题,为实施主动运维提供信息承载和管理的平台。
事件问题根源分析报告
- 事件问题发生时间
- 事件现象
- 问题分析和处理过程
- 原因定位时间
- 问题影响情况
- 问题根源
- 解决方案
- 问题解决时间
- 测试改进意见
- 后续整改落实情况
- 等等