首页 > 其他分享 >【现网事故】记一次多系统调用,并发冲突、请求放大导致的生产问题

【现网事故】记一次多系统调用,并发冲突、请求放大导致的生产问题

时间:2023-08-04 12:44:24浏览次数:49  
标签:转账 Note 现网 participant over 重试 并发 调用 迁移

事故现象

生产环境,转账相关请求失败量暴增。

直接原因

现网多个重试请求同时到达 svr,导致内存数据库大量返回时间戳冲突。业务方收到时间戳冲突,自动进行业务重试,服务内部也存在重试,导致流量放大。

转账

首先我们一起了解一下转账。转账请求在支付场景中的应用频率非常高,它是现代金融系统中的一个核心功能。在日常生活中,个人和企业都需要进行各种不同类型的转账:

  1. 个人间转账:朋友、家人之间进行的转账,如还款、借款、生日礼物赠送等。
  2. 工资支付:企业向员工支付工资、奖金等。
  3. 税费缴纳:向政府缴纳所得税、增值税等税费、政府退回多征收的税费等。
  4. 跨境汇款:向国外的个人或企业进行的转账,如国际贸易、留学生汇款等。
  5. 投资与理财:向股票、基金、保险等金融产品进行的投资转账。
  6. 退款与赔付:商家或金融机构向客户退还购物款项、保险理赔等。
  7. ...

随着移动支付、网上银行等数字金融服务的普及,转账请求在支付场景中的应用频率越来越高。人们可以随时随地进行转账,这背后离不开金融科技的发展带来的更加便捷、安全、高效的转账过程。

业务背景介绍

背景一:转账流程

转账流程

转账常见流程:

sequenceDiagram participant 转出方 participant 银行 participant 转入方 转出方->>银行: 发起转账请求 银行->>银行: 验证转出方信息 银行->>银行: 验证转入方信息 银行->>银行: 检查转账金额 Note over 银行: ... 银行->>银行: 执行转账 Note over 银行: 判断转账是否成功 银行-->>转出方: 通知转账结果 银行-->>转入方: 通知转账结果
转账异常处理

当支付渠道系统内部出现异常,比如给转入方转钱时遇到被调系统返回超时时:

  1. 系统自动重试: 在大多数情况下,支付渠道系统会在短时间内自动重试转账操作,以确保交易成功。通常,系统会在一定时间内尝试多次,直到转账成功或达到重试次数上限。

  2. 转账暂停: 如果系统在多次重试后仍然无法完成转账,支付渠道可能会暂停该笔转账。在这种情况下,会通知转出方关于转账暂停的原因,并可能建议转出方稍后再次尝试转账。

  3. ** 资金退回:** 如果系统在尝试一定次数后仍无法完成转账,支付渠道可能会将资金退回到转出方的账户。转出方可以选择在支付渠道系统恢复正常后重新发起转账。

  4. 客户通知: 在上述情况下,银行会通过短信、电话或电子邮件等方式通知转出方关于转账失败的原因。客户可以根据银行的建议采取相应措施。

  5. ...

总之,渠道会尽力确保交易的顺利进行。

转账异常处理流程图
sequenceDiagram participant from as 转出方 participant to as 转入方 participant MQ rect rgb(255, 228, 196) Note over from,to: 扣款成功,充值成功 end from->>to: 扣款成功 to->>from: 充值成功 Note over from: 流程结束 rect rgb(255, 228, 196) Note over from,to: 扣款成功,充值失败,重试成功 end from->>to: 扣款成功 to->>from: 充值失败 from->>MQ: 推送消息 MQ->>to: 发起重试 to->>from: 重试成功 Note over from: 流程结束 rect rgb(255, 228, 196) Note over from,to: 扣款成功,充值失败,重试失败,退款 end from->>to: 扣款成功 to->>from: 充值失败 from->>MQ: 推送消息 MQ->>to: 发起重试 to->>from: 重试失败 from->>from: 退款 Note over from: 流程结束

背景二:账户系统合并

因为公司账户系统存在多套,同一个服务商在不同的业务都存在商业合作时,账户归属不同的系统。降本增效大背景下,相关业务完成了业务账户的融合,将同一个商户在两个系统上的商户信息进行整合,融合到同一个账户,方便客户更好的维护,也方便客户账户资金共享,保证业务不中断。

改造后上层调用方会传递迁移前后两套uin的参数来进行调用,账户系统通过查询 uin 的映射关系和关系中的迁移状态判断实际操作的账户。

即两个不同入口的请求都需要先查询一次迁移关系,如果账户已经迁移,则使用迁移后的账户进行操作,这个逻辑同时适用于转出方 和 转入方, 所以流程图上加上了查询关系的逻辑 蓝色部分。

如果操作过程中,账户状态发生了变化,则内部进行重试。

sequenceDiagram participant from as 转出方 participant Migrated as 迁移关系 participant to as 转入方 participant MQ participant MQConsumer Note over from,to: 查询转入方、转出方迁移关系 rect DodgerBlue from->> Migrated: 查询迁移关系 Migrated->>from: 返回迁移关系 from ->> from:判断转出方实际抵扣账户 end rect DodgerBlue to->>Migrated: 查询迁移关系 Migrated->>to: 返回迁移关系 to ->> to:判断转出方实际抵扣账户 end Note over from,to: 扣款成功,充值成功 from->>to: 使用迁移后的转出方扣款 to->>from: 使用迁移后的转入方充值 Note over from: .......
实际全流程:
sequenceDiagram participant user as 用户 participant fromA as 转出账户A participant fromB as 转出账户A' participant toA as 充值账户B participant toB as 充值账户B' participant Migrated as 迁移关系 participant MQ rect Bisque user ->> fromA: 发起转账请求 end Note over fromA: 查询转出方迁移关系 alt 未迁移 fromA->>fromA: 扣原账户 else 已经迁移 fromB->>fromB: 扣迁移账户 else 迁移中 Note over fromB: 流程结束 end rect Bisque fromB->>toA: 充值 end Note over toA: 查询转入方迁移关系 alt 未迁移 toA->>toA: 充原账户 else 已经迁移 toB->>toB: 充迁移账户 else 迁移中 toB->> MQ: 推送 MQ 重试 Note over toB: 流程结束 end Note over toA: 查询转入方迁移关系 alt 充值成功 Note over toB: 流程结束 else 充值失败 toB ->> MQ: 推送MQ 重试 Note over fromB: 流程结束 end Note over MQConsumer: 重试逻辑 MQConsumer ->> MQ: 查询数据 MQ -->> MQConsumer: 存在重试数据 rect Bisque MQConsumer ->>user : 发起重试 end user ->> toA: 重试充值 alt 重试成功 Note over toB: 重写充值流水,流程结束 else 重试失败 user ->> fromB: 对转出方进行退款,写退款流水 Note over fromB: 流程结束 end

背景三:扣内存数据库逻辑

为了支持高并发的需求,账户系统使用的是一个自研的缓存数据库,数据库内部有诸多逻辑,其中操作账户时,会先 get 数据,再 set 数据, get 的时候会拿到当前数据的的时间戳 和更新序列号,set 的时候,数据库会校验这个时间戳的合法性。

所以在请求出现并发时会出现这样的情况:

sequenceDiagram participant 客户端1 participant 客户端2 participant 数据库 客户端1->>数据库: get(键) 数据库->>客户端1: 上次更新时间戳t1, 值v1 客户端2->>数据库: get(键) 数据库->>客户端2: 上次更新时间戳t1, 值v1 客户端1->>客户端1: 修改值v1 客户端2->>客户端2: 修改值v1 客户端1->>数据库: set(键, 新值v1, 上次更新时间戳t1, 序列号1) 数据库->>数据库: 检查上次更新时间戳t1 数据库->>客户端1: 结果(成功) rect Coral 客户端2->>数据库: set(键, 新值v2, 上次更新时间戳t1, 序列号1) 数据库->>数据库: 检查上次更新时间戳和序列号 Note over 数据库: 数据已经被更新为时间戳t2 数据库->>客户端2: 结果(错误:时间戳冲突) end

背景四:调用方重试逻辑

调用方除非遇到订单重复、余额不足等明确错误,不然会推送 MQ 进行重试。

问题定位

相信大家看完上面的背景和前面的现象描述已经知道了问题的原因:业务的重试和系统内部的重试逻辑出现了重叠,导致了绝对并发(内存数据库的get\set逻辑极快),但是因为涉及到多个系统,每次请求的 uuid 又完全一致,导致了定位链路过长,定位难度增大。最后在测试环境复现了很多次才复现出来。

总结

针对这个问题给我总结了以下几点:

  1. 测试环境和生产环境的差异:测试环境很难完全模拟生产环境的各种情况,特别是在并发、性能和压力测试方面。因此,我们需要更加关注这些方面的测试,并尽量使测试环境接近生产环境。

  2. 完善的测试用例:在设计测试用例时,需要考虑各种异常情况和边缘条件,包括系统之间的相互调用、失败重试等情况。这样可以提高测试的覆盖率,降低类似问题的发生概率。

  3. 强化并发和压力测试:在软件测试过程中,应该重点关注并发和压力测试,模拟大量用户同时访问和操作,以便发现潜在的性能瓶颈和冲突问题。(常态化性能测试是一个非常好的切入点。后续会专门写一篇博客介绍如何进行常态化性能压测。

  4. 监控和日志分析:在生产环境中,应该加强对系统的监控和日志分析,以便及时发现并定位问题。同时,测试人员可以通过分析生产环境的监控和日志数据,了解系统在实际运行中的表现,从而改进测试策略。

以下是一些避免类似问题的发生的改进措施:

  1. 测试同学需要与开发团队紧密合作,了解系统架构和相互调用的关系,以便更好地设计测试用例。
  2. 在系统设计和开发阶段,可以引入容错和熔断机制,以应对失败重试和请求放大等问题。测试工程师需要关注这些机制的实现,并在测试中验证其有效性。
  3. 在测试计划中明确测试范围,包括并发测试、压力测试和性能测试,确保测试环境尽量接近生产环境,有条件的可以使用真实的数据和场景进行测试(现网引流)。
  4. 对于失败重试等可能会放大流量的逻辑,进行专项测试,模拟各种异常和故障情况(后续会专门写一篇博客介绍如何进行混沌注入),验证系统的稳定性和健壮性。

标签:转账,Note,现网,participant,over,重试,并发,调用,迁移
From: https://www.cnblogs.com/Detector/p/17602502.html

相关文章

  • python调用RabbitMQ
    本文不涉及较难的操作,仅仅提供常用的生产消息和消费消息的方式。--好像也没啥花里胡哨的操作1、准备想要python调用rabbitMQ需要安装pika,所有需要提前安装好pika包#全局pipinstallpika;#如果用的anaconda的上面那个装不上可以试试这个?condainstallpika;2、代......
  • Qt 在线程中invokeMethod采用QueuedConnection模式,调用带指针参数槽,实际不会调用
    widgetObject有操函数Test:voidTest(int*v);在线程中调用Test,会被忽略,实际不会调用。QMetaObject::invokeMethod(widgetObject,"Test",Qt::QueuedConnection,Q_ARG(int*,&v));下面是网上找的理由: 在同一个线程中当信号和槽都在同一个线程中时,值传递参数和引用传递参数有......
  • 深入探讨API调用性能优化与错误处理
    随着互联网技术的不断发展,API(应用程序接口)已经成为软件系统中重要的组成部分。而优化API调用的性能以及处理错误和异常情况则是保障系统稳定性和可靠性的关键。本文将从以下几个方面来探讨如何进行性能优化和错误处理。一、优化API调用的性能1.使用合适的数据传输格式选择合适的数......
  • 深入探讨API调用性能优化与错误处理
    ​随着互联网技术的不断发展,API(应用程序接口)已经成为软件系统中重要的组成部分。而优化API调用的性能以及处理错误和异常情况则是保障系统稳定性和可靠性的关键。本文将从以下几个方面来探讨如何进行性能优化和错误处理。一、优化API调用的性能1.使用合适的数据传输格式选择......
  • Android 打印调用栈的方法
    转载1.Java层调用栈打印:(1)打印本地调用堆栈Log.i(TAG,Log.getStackTraceString(newThrowable()));//打印本地调用堆栈(2)打印远程调用堆栈importandroid.os.Binder;importandroid.app.IActivityManager;importandroid.util.Log;StringprocessName="";intpid=......
  • Qt 调用倍福TwinCAT通讯模块(TcAdsDll)
    Qt实现TwinCAT通讯目前这种方式是通过调用TwinCAT提供的AdsApi与倍福PLC通讯的。要求本机安装TwinCAT(无需作为主机,但是可能这个api依赖TwinCAT的一些服务)。关于AdsApi的官方资料请看这里,有函数的详细解释,还有例子。你值得拥有。https://infosys.beckhoff.com/english.php?conte......
  • 【知识点】JAVA之并发集合
    当涉及到多线程编程时,使用并发集合是一种常见的方式来处理多个线程同时访问和操作共享数据的问题。并发集合是一组线程安全的数据结构,可以同时被多个线程访问和修改,而不会导致数据不一致或竞争条件。以下是一些常见的并发集合及其特点:ConcurrentHashMap(并发哈希表):它是一个线程......
  • Wi-Fi STA/STA 并发
    Android12引入了Wi-FiSTA/STA并发功能,使设备可同时连接到两个Wi-Fi网络。此可选功能支持以下功能。Make-before-break:设备会在断开现有连接之前连接到新的Wi-Fi网络。这使得Wi-Fi网络之间的切换更加顺畅并发仅本地和互联网连接:设备会连接到仅限本地的网络,而不中断设......
  • 基于GPT搭建私有知识库聊天机器人(五)函数调用
    文章链接:基于GPT搭建私有知识库聊天机器人(一)实现原理基于GPT搭建私有知识库聊天机器人(二)环境安装基于GPT搭建私有知识库聊天机器人(三)向量数据训练基于GPT搭建私有知识库聊天机器人(四)问答实现OpenAI在6月13日发布了几个重磅更新,其中包括:开放了16k上下文的GPT-3.5-Turbo模型gpt-3.5-t......
  • 自动生成python程序调用关系逻辑图
    前言你是否因为看一个程序或者运行一个框架,不知道他的运行流程?自己想写一个运行流程却觉得麻烦无从下手?graphviz+pycallgraph帮你绘制让领导看了都拍桌子称赞你的python程序逻辑调用关系图!先来看一下我这段时间在写的一个框架的部分流程吧~密密麻麻,真的哈人,完整的更哈人。狗看了都......