首页 > 其他分享 >SRE服务端预案,应急处理手册

SRE服务端预案,应急处理手册

时间:2023-11-06 15:57:38浏览次数:35  
标签:降级 查看 SRE 手册 限流 应用 告警 pod 服务端

服务端应急处理流程

问题升级流程

问题升级步骤

SRE人员-各端组长-业务线负责人

现有降级手段

App业务入口降级

降级范围以及作用域

使用App降级策略,App在各个业务入口会直接降级,关闭对应的业务入口

使用场景

  1. 对应业务出现会持续扩大损失并且短期无法修复的报错,比如应用持续出现异常,并且异常会导致越来越多的脏数据影响业务流程
  2. 应用无法正常提供服务,并且确认无法短期内恢复。

AHAS限流降级

降级范围以及作用域

通过AHAS的限流能力,对核心应用接入AHAS,具备对指定接口做限流降级的能力。

使用场景

  1. 特定业务出现过量的访问或请求,在扩容之前,先使用AHAS进行限流保证已有业务不被打挂。
  2. 服务端出现短期内无法恢复的基础设施异常,使用AHAS进行限流降级,保证友好的返回。

应急预案SOP

MySQL

目前C端现有资源

rds_*************等

表变更

现象

阿里云DMS审核表变更

动作

通知大数据,同步表待大数据确认变更的内容对他们的影响后,再执行。

长事务慢会话告警

现象

云监控-数据库层群出现C端实例的慢会话或者长事务告警

动作

登录das查看对应数据库实例状况,分析具体原因

  1. 如果实例会话中有异常会话,联系DBA,backup,帮忙杀死异常的会话
  2. 如果请求分析中慢日志某系统出现大量慢sql,视慢sql增长量,对该系统进行扩容处理

MySQL连接获取慢

现象

应用arms出现慢接口告警,并且链路追踪中耗时较长的步骤是druid或者hikari的getConnect等方法

动作

  1. 对应用进行扩容,按依次按顺序找SRE->组长->运维,其中的一个完成
  2. 观察慢接口数量是否下降,告警是否消失
  3. 调整应用数据库连接池配置,重新发布应用

Kafka

目前现有资源

kafka_********

kafka堆积

现象

动作

  1. 登录阿里云kafka监控查看堆积的消费者组的情况

  2. 刷新查看堆积量的增长情况,如果堆积量逐渐减少,那么可能只是突增流量和业务导致的,可以继续观察,如果没有明显减少的情况,则对比分区以及机器数,如果分区>机器数,则扩容机器数到=分区数,如果分区<=机器数,则联系运维组扩分区+应用扩容,扩容后继续观察堆积情况。

    Redis

    目前现有资源

    redis_*******

    Redis告警

    现象

    动作

    1. 登录DAS查看情况,先看实时趋势,辨别一下是短期增长后回落还是还在持续增长。

    2. 主要查看内存和cpu使用率,一般是这两个告警

    3. 依靠实例会话里慢日志和缓存分析,查看导致异常的应用或者会话或者业务,如果对redis整体的影响增加很大,那么需要对对应的业务做降级,如果影响不大,那么则马上安排优化该业务

      服务

      目前C端现有资源

      all

      慢接口告警

      现象

      动作

      1. 登录arms查看情况,对应应用-接口调用-调用链查询-按时间排序。

      2. 点击traceId进入排查接口慢的原因,如果是下游慢,联系下游排查处理,如果是中间件(mysql或者redis)慢,看一下是否某个sql导致的

      3. 观察慢接口出现的频率是否持续上升,如果没有缓解并且短时间内无法解决,马上使用ahas对该接口进行限流降级。

        Full gc告警

        现象

        动作

        1. 登录arms查看情况,对应应用-应用详情-JVM监控。
        2. 查看gc情况以及堆内存情况,如果只是单pod的fullgc次数越来越多但堆内的老年代内存没有明显回收释放,那么需要对有问题的pod进行手动重启。
        3. 如果只是比较稳定的进行full gc并且老年代回收较为理想,但应用扔保持触发告警阈值的频率,那么可能只是单纯量上来了,需要对集群进行扩容。

线程池告警

现象

动作

  1. 登录arms查看情况,对应应用-应用详情-JVM监控。

  2. 查看JVM监控中的线程数,是否有明显的尖刺。

  3. 查看是单pod的问题,还是整个集群每个pod都有问题。

  4. 如果单pod的问题,重启该pod。

  5. 如果是整个集群的每个pod都有该情况,扩容集群,观察情况是否有缓解。

    错误率告警

    现象

    动作

    1. 点击链接进入sls,查看对应服务的error日志
    2. 具体情况具体分析,如果对系统影响较小,或者可以业务上进行修复恢复,那么就业务修复处理。
    3. 如果对业务影响较大,并且会持续出现脏数据或者报错,那么对业务进行降级

标签:降级,查看,SRE,手册,限流,应用,告警,pod,服务端
From: https://www.cnblogs.com/intotw/p/17812865.html

相关文章

  • Arduino® UNO R4 Minima 手册
    概述经过增强和改进,ArduinoUNOR4Minima配备了由瑞萨电子提供的强大32位微控制器。为提高处理能力、扩展内存和全新级别的板载外围设备做好准备。与现有Shields等附件的兼容性保持不变,无需对标准外形尺寸或5V工作电压进行任何更改。ArduinoUNOR4(以下简称UNOR4Mi......
  • fortran实战手册(1)
    概述FORTRAN是英文“FORmulaTRANslator”的缩写,译为“公式翻译器”,它是世界上最早出现的计算机高级程序设计语言,广泛应用于科学和工程计算领域。FORTRAN语言以其特有的功能在数值、科学和工程计算领域发挥着重要作用。Fortran语言的最大特性是接近数学公式的自然描述,在计算机里......
  • 魔导手册 Stable Diffusion 画龙 画坤坤(鲲) 画麒麟
    一、选择模型1、点击Checkpoints 2、拉到最后选择sd-xl-base_1.0 二、开启创作之旅1、点击Generation点击Refiner 2、选择sdxl/sd_xl_refiner_1.0.safetensors(PS下拉框拉到最后就行啦)  3、输入咒语(正向提示词和反向提示词)点击生成 坤坤就出来了 三、......
  • Linux 备忘手册
    Linux备忘手册B站视频介绍:程序员Linux备忘手册来了解决学完就忘高效查询一分钟定位80%以上高频问题终于来了,耗时一个半月,修改超过10次,程序员Linux备忘手册终于来了。长图适合你在初学时挂在机房、家里或者是宿舍的墙上,随查随用。我还为大家准备了一个A4纸的手册版,这个就适......
  • 服务端java接口程序接收到data参数时,中文会变成乱码,这样处理
    学习记录。场景:服务端java接口程序,在接收到请求包,data参数中包含中文,请求时用的编码是UTF-8,但收到后会变成乱码尝试:试了很多办法,包括:Stringbody=IOUtils.toString(request.getInputStream(),StandardCharsets.UTF_8);都无济于事解决:增加系统......
  • TCP的通信流程和socket套接字完成服务端和客户端通信
    一、TCP是一个面向连接的、安全的、流式传输协议,这个协议是传输层协议。面向连接:是一个双向连接,通过三次握手建立连接,通过四次挥手断开连接。安全:tcp通信的过程中,会对发送的每一数据包都会进行校验,如果发现数据丢失,会自动重传。流式传输:发送端和接受端处理数据的速......
  • 晨控CK-GW08系列网关控制器与CODESYS软件MODBUSTCP通讯手册
    晨控CK-GW08系列网关控制器与CODESYS软件MODBUSTCP通讯手册晨控CK-GW08系列是一款支持标准工业通讯协议ModbusTCP的网关控制器,方便用户集成到PLC等控制系统中。系统还集成了8路读写接口,用户可通过通信接口使用ModbusTCP协议对8路读写接口所连接的读卡器进行相对独立的读写操作。......
  • 弯道超车,Android初级程序员进阶修炼手册
    前言是否有很多Android程序员已经进入了这么一种状态,感觉晋升无望,每天维护同样的模块,写的代码也很少出现bug,即使有bug也能迅速解决,当年对IT的热爱也快要消磨殆尽了。据统计,今年的毕业生将创历史新高,多达1158万。并不是说所有毕业生都会进入IT行业,但每年进入IT行业只多不少,而一直身......
  • 用springBoot、netty写TCP客户端/服务端,并用TCP工具测试
    1.启动客户端和连接服务端packagecom.pkx.cloud.test.netty;importio.netty.bootstrap.Bootstrap;importio.netty.channel.*;importio.netty.channel.nio.NioEventLoopGroup;importio.netty.channel.socket.SocketChannel;importio.netty.channel.socket.nio.NioSock......
  • ruby实战手册(14)-css(1)
    目录linkimportlink<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><title>learnjs</title><basehref="/"><linkhref="styles/style.css"typ......