混沌演练实践（二）-支付加挂链路演练

时间：2023-05-24 11:23:48浏览次数：42

标签：加挂场景混沌演练故障链路 CPU

1. 背景

当前微服务架构下，各个服务间依赖高，调用关系复杂，业务场景很少可以通过一个系统来实现，常见的业务场景实现基本涉及多个上下游系统，要保证整体链路的稳定性，需要尽量减少系统之间的耦合性，避免因为单点失效引起整个链路的故障。

2. 目标

通过混沌演练验证链路中部分系统发生故障时候的整体链路的表现，对链路保持正常运作的能力进行校验和评估,提前识别未知隐患并进行修复,进而保障整个链路更好地抵御生产环境中的失控条件,提升整体场景功能的稳定性。

3. 演练链路

对真实的业务场景进行混沌演练，就需要对业务场景的相关服务和调用关系进行链路梳理，一般需要根据实际业务场景，画出系统交互图，通过链路串联、数据追踪、和上下游确认等方式整理链路图。

4. 演练计划

混沌演练之前，一定要好可行性评估，评估可以演练的服务部署环境、演练工具的成熟度、演练场景的爆炸半径等，然后决策演练场景，进行实践操作。

5. 内容加载演练实践

5.1 链路梳理

内容加载链路演练，通过内容加载的系统交互梳理出加载链路：摹略引擎执行-AB分流-CMS资源获取-鹰眼内容发送

5.2 接口梳理

根据调链路调用关系用梳理出具体的接口：

5.3 制定演练计划

演练时间：2023.03.28 14:00-22:00

演练攻击人员：孙X英、陈X然；演练防守人员：张X雷、付X军、刘X、韩X

针对链路接口设计演练场景，一般根据系统特色来设计更容易发生的故障，比如应用偏计算比较消耗CPU的话，故障设计包含CPU满载，应用对于响应的时效有严格的要求的话一般包含方法延迟故障设计。

本次链路故障场景设计如下：

具体演练场景设计可参考：混沌实战演练（一）

5.4 演练执行

目前借助天权自动化运维平台进行混沌攻防演练，进入工具市场—演练类，选择不同的故障方案，点击“立即执行”；

如选择Java进程满载场景演练，选择满载率100%，满载核数为演练应用部署服务的CPU核数，演练时长是执行满载的持续时间，选择演练的具体应用和指定IP，执行演练计划。

演练示例，根据演练的场景配置好故障参数，如下图为精准触达系统-消息触达方法延迟增加30ms参数设定：

演练执行结果检查，下图为分流服务-JAVA进程满载，指定分流进程CPU满载，故障执行结果：

5.5 演练监控

使用监控工具实时收集服务器在混沌演练运行期间的性能状态，如系统层面的 CPU、内存等使用情况，观察方法的响应时间、成功率等指标，一方面验证在混沌场景执行期间系统状态是否达到预期的效果，同时记录演练期间发生的问题，记录现场，另一方面通过监控发现有风险问题进行人工干预，立刻终止演练。

场景一：精准触达系统-消息触达方法延迟增加30ms

演练监控方法执行的成功率和 TP 999：

场景二：分流服务-JAVA进程满载，指定分流进程CPU满载

监控平台实时观测系统的CPU使用率：

5.6 演练反馈

检查系统故障发生时候监控手段是否完善，研发人员是否可以根据系统告警，快速的定位并解决问题。检查团队的响应、协同效率。

邮件事故告警：

事故恢复告警：

5.7 环境恢复

场景演练可等待演练时长结束后自行中止，也可根据手工取消、终止演练场景。

演练完成后建议需要重启容器，保证服务恢复正常状态。

5.8 演练复盘

演练结束之后，我们需要对演练进行复盘。不同的故障下，系统的表现以及整体业务场景所受到的影响，演练过程中所发现的问题，需要在复盘报告中呈现出来。

6.总结

链路演练通过提前主动注入故障，发现系统之间的强弱依赖，对链路进行检验，降低生产环境中故障发生的概率。

“居安思危，思则有备，有备无患。”

作者：京东科技孙民英

内容来源：京东云开发者社区

标签：加挂,场景,混沌,演练,故障,链路,CPU
From： https://www.cnblogs.com/Jcloud/p/17427460.html

进阶篇丨链路追踪（Tracing）很简单：常见问题排查
作者：涯海经过前面多篇内容的学习，想必大部分同学都已经熟练掌握分布式链路追踪的基础用法，比如回溯链路请求轨迹，定位耗时瓶颈点；配置核心接口黄金三指标告警，第一时间发现流量异常；大促前梳理应用上下游关键依赖，联系相关方协同备战等等。随着深入使用链路追踪技术，问题发现与诊断方面的......
m基于MIMO-OFDM-LDPC-STBC的通信链路matlab误码率仿真
1.算法仿真效果matlab2013b仿真结果如下：使用一个二值图进行测试，并加入不同的均衡算法进行对比：2.算法涉及理论知识概要LDPC码是麻省理工学院RobertGallager于1963年在博士论文中提出的一种具有稀疏校验矩阵的分组纠错码。几乎适用于所有的信道，因此成为编码界近年来的研究......
m基于MIMO-OFDM-LDPC-STBC的通信链路matlab误码率仿真
1.算法仿真效果matlab2013b仿真结果如下：使用一个二值图进行测试，并加入不同的均衡算法进行对比： 2.算法涉及理论知识概要 LDPC码是麻省理工学院RobertGallager于1963年在博士论文中提出的一种具有稀疏校验矩阵的分组纠错码。几乎......
微盟全链路压测：如何帮助电商业务实现 10 倍性能提升？
一分钟精华速览全链路压测之所以被誉为电商大促备战的“核武器”，是因为它基于实际的生产业务场景、系统环境，模拟海量的用户请求和数据对整个业务链进行压力测试，能真实反映系统的状况，对系统风险和瓶颈真正做到心中有数。微盟作为电商SaaS的龙头企业，支撑着数十万中小电商企业的经......
【BSP视频教程】BSP视频教程第26期：CAN/CANFD/CANopen专题，CANFD整个运行机制精讲，图文并
上期视频教程为大家分享了很多CAN理论方面的知识，本期视频教程我们在实战应用中学习CANFD。CANFD涉及到的知识点非常多，我们本期重点是把CANFD整个运行机制搞明白，知其然知其所以然。视频：https://www.bilibili.com/video/BV1iX4y117Bv视频提纲：参考资料：1、【原创】H7-TOOL的CANFDT......
【BSP视频教程】BSP视频教程第26期：CAN/CANFD/CANopen专题，CANFD整个运行机制精讲，图文并
上期视频教程为大家分享了很多CAN理论方面的知识，本期视频教程我们在实战应用中学习CANFD。CANFD涉及到的知识点非常多，我们本期重点是把CANFD整个运行机制搞明白，知其然知其所以然。视频：https://www.bilibili.com/video/BV1iX4y117Bv视频提纲：参考资料：1、【原创】H7-TOOL的CANFDT......
m异构蜂窝网络的K-Tier下行链路的matlab性能仿真,对比网络Voronoi图,覆盖率等
1.算法仿真效果matlab2022a仿真结果如下： 2.算法涉及理论知识概要蜂窝网络正在从精心规划的一组大型塔式基站（BSs）对异构基础设施元素的非常规部署，通常还包括微、微微和以及分布式天线。在本文中，我们为下行链路开发易于处理、灵活和精确的......
第5章链路层：链路、接入网和局域网 5.4 交换局域网
局域网按拓扑结构：形网、环形网、总线网、树形网和网状网计算机与局域网的连接：计算机与局域网通过网络接口板进行连接，网络接口板又称通信适配器，网络接口卡，网卡。局域网体系结构总结：节点的3种不同地址表示（应用层的主机名、网络层的IP地址和链路层的MAC地址）总结：地......
如何在金融企业推进故障演练？中国人寿分阶段实践总结
一分钟精华速览越来越多企业正在通过故障注入和演练的方式提升系统可靠性，这其中金融行业的应用较为特殊。一方面其可靠性要求比非涉账类系统更高；另一方面金融行业有更加严格的监管要求，如客户、账目等信息都有严格约束。加之金融系统较其他行业系统更加庞大、繁杂，所以金融行业落地......
如何在金融企业推进故障演练？中国人寿分阶段实践总结
一分钟精华速览越来越多企业正在通过故障注入和演练的方式提升系统可靠性，这其中金融行业的应用较为特殊。一方面其可靠性要求比非涉账类系统更高；另一方面金融行业有更加严格的监管要求，如客户、账目等信息都有严格约束。加之金融系统较其他行业系统更加庞大、繁杂，所以金融行业落地......