1.优先恢复业务,然后再排查原因和排查数据丢失错乱之类的;
首先明确一点,就是线上突然出现问题,说明至少代码逻辑没有十分明显的bug,否则刚上线没多久就该验证出来了;
如果是刚上线没多久出现的问题,很明显是回退应用来看是否能恢复业务;
如果是上线蛮久后出现问题,代码一般是没有十分大的问题,这种情况一般是比如IO问题,流量过大等等问题导致的;
这种情况是以恢复业务为主,不用想数据是不是已经错乱等问题那么快,要知道轻重缓急,如果不尽快恢复业务,会持续影响新的人,到时候就不只是已经出问题的用户抱怨了;
等业务恢复后再来排查原因(当然回退仍然是业务恢复的手段之一,毕竟虽然上线蛮久了也还是可能新功能导致的问题),以及排查数据有没有问题进行修正;
重点就是:如果不及时恢复业务,影响的就不只是已经受影响的用户(哪怕他们数据已经出问题了,也不要排查那么快),而是直接变成整体服务都不可用了;
当然有些场景就是要先找出问题,才能恢复业务的除外(比如某些数据配置错误导致的问题【因为配置我们一般都会默认认为是正确的而不会去做错误判断,有些甚至也没法校验配置格式是否正确;而且如果配置都要判断是否正确某种意义上就是套娃了,判断的点会十分巨大】)
标签:上线,解决方案,业务,问题,排查,线上,恢复 From: https://www.cnblogs.com/silentdoer/p/17007451.html