首页 > 其他分享 >一种新的告警收敛方式“先知预警”,为您的系统健康护航 | 京东云技术团队

一种新的告警收敛方式“先知预警”,为您的系统健康护航 | 京东云技术团队

时间:2023-08-04 12:39:11浏览次数:47  
标签:护航 日终 预警 对账 订单 告警 异常 京东

前言

一种新的告警收敛方式“先知预警”,为您的系统健康护航 | 京东云技术团队_预警系统

简介

买基金,上京东

基金交易系统是用户使用京东金融APP进行基金交易的核心支撑系统,每天有数十亿元的交易额。

在大额的交易面前,系统的稳定性尤其重要,同时基金业务比较复杂,为保障每个地方的稳定,告警埋点很多,加上各种日终检查,看似很完美,实际却有了新的问题,因告警太多,日检滞后,而无法快速处理有效异常,导致对账延迟和引发客诉。

结合日常处理经验,我们重新思考是否有好的方式,提前发现异常,改善此事,于是在基金交易系统中做了一件事情,有效的提高了系统的稳定性,以下为此事的主要效果

工单数量:相对2022年1-6月的客诉总数(334)减少127个,对账时间:稳定在16点半前完成,异常订单:从每天几个变成偶发出现, 后续流程:比以往有了较强的稳定性, 同时也间接的释放了,因客诉异常引起的资源消耗(客服,产品,研发,工程师),提高了用户一定体验和满意度。

什么事项

为基金交易系统增加了新型的异常预警,能更加有效的提前发现系统异常,快速解决

为什么做这个事情

在基金交易中,每天有几十万的订单,交易额有数十亿,基金业务场景不仅又多、又复杂,而且链路也比较长,盘后的数据检查经常由于各种原因出现异常订单(运营配置错误,基金公司下发文件异常,系统bug等),而无法顺利对账,影响后续流程。排查定位和修复问题,需在2小时内完成,如果超过时长会对后续流程造成严重的影响,所以有效异常的提前发现和预警就非常重要

基金交易系统异常告警无法满足吗?

交易系统中现有2种告警,一种是即时告警,一个日终报警

即时告警**,**由于老项目时间久,存在历史原因,每天会收到数千封即时告警邮件,想筛选出真正的有效异常,变得非常困难,还有一定的时效性。

日终报警, 是在每日交易结束后,系统会自动进行日终检查,如果发现异常,需在2小时内解决,而且只能对已发生的结果进行修正,个别异常还好,如果出现批量异常,那么2小时就非常宝贵。短时间内的修复,不仅存在高压出错的风险,还可能因此对后续流程产生隐患,甚至对用户造成影响,引发客诉工单。异常工单的处理,是对客服、产品和工程师一种消耗,而且在微服务架构中排查和解决更加复杂耗时。总之每次对账出现异常,总是非常紧张。

你做的预警有什么特点

1、是即时告警和日终报警的补充

2、可通过手机一个界面随时观察异常变化

3、15分钟内即可发现疑异常订单

4、可快速定位,精确到重要场景

预警具体怎么做到呢?

首先对账能否顺利,取决异常情况,而异常又无法彻底避免,提前发现与控制就非常重要

一种新的告警收敛方式“先知预警”,为您的系统健康护航 | 京东云技术团队_预警系统_02

如图,各种场景都可能出现异常

制定异常发现和处理策略

面对告警过滤困难,日终滞后, 结合历史处理经验,对系统进行再次思考,是否有更简单的方式,能有效的对异常进行实时发现预警?

通过探讨,总结了一个简单的规律:

如果关键点没按照指定时间内变更,即可定义为可疑异常 ,其严重级别可以通过汇总数量进行表示

于是制定了如下策略

一种新的告警收敛方式“先知预警”,为您的系统健康护航 | 京东云技术团队_微服务_03

制定监控预警技术方案

1:首先要基于本身的业务进行识别,基金交易对账是对订单的最终标记状态校验,我们假设一个支付的订单,如果在15分钟内,订单的状态没有发生变化,是否设定为可疑异常?其原因可能很多,如网络问题、MQ消息延迟、代码BUG等等,总之是有问题,那么这样的订单数量越大,就代表其影响的订单就越多,对账的风险就越高。

2:关键点的异常识别,可以采用同样的逻辑,如果在指定的时间内,关键点的状态没有发生变化,即可设定为可疑对象,比如基金交易的重要场景:申购,赎回,支付,非交易过户,退款等场景,都可以基于场景数据的状态变化或者MQ的积压情况进行识别,举个申购的例子:用户申购完成后,后续的流程是采用MQ和任务的方式执行,每个任务都有初始和完成状态,如果这个申购任务在15分钟内,没有标记为完成,即可定义为可疑异常,此类的状态的任务越多,影响对账的风险就越高

一种新的告警收敛方式“先知预警”,为您的系统健康护航 | 京东云技术团队_技术方案_04

落实技术方案

一种新的告警收敛方式“先知预警”,为您的系统健康护航 | 京东云技术团队_微服务_05

实践中验证效果

效果:刚上线只对总订单和2个场景加了预警,慢慢增加到11个场景,效果也很明显,异常基本上在交易中就被提前发现,如果操作失误,可提前告知相关方修正,如果是系统BUG,就可提前紧急修复,后续再推进根治和架构升级。随着时间推移,影响对账异常范围,虽不能百分百覆盖,但是容易出错的关键点,已经得到有效控制,近几个月,偶发才出现几单(历史用户的存量异常订单引起),对账得到了有效的保护。

经典案例,2023年春节期间,通过预警发现几个异常订单出现,通过排查,是因为基金公司下发可赎回时间为非交易时间引起,涉及16个TA,4000多条记录,假如没提前发现,节后可能会引发批量的异常订单和客诉,形成事故,通过发现处理,规避了发生。

总结

通过这个预警系统,我们能够提前发现并主动处理对账事后异常,其技术难度并不高, 更多的讲究的是一个方法。对此方法起了一个名字叫"先知预警",也希望此理论能对您的系统有所帮助。例如实战中,今年618的拉新活动渠道的监控,10分钟如果没产生订单就进行电话预警;基金停售提前3天邮件电话预警,都可以用此理论解释。

先知预警:是一种基于时间序列分析和业务理解的预测方法,它通过分析历史数据和理解业务,预测未来可能出现的关键点和变化趋势,并及时进行预警和调整,以确保业务的稳定运行。

作者:京东科技 江亚宁

来源:京东云开发者社区

标签:护航,日终,预警,对账,订单,告警,异常,京东
From: https://blog.51cto.com/u_15714439/6959548

相关文章

  • @ControllerAdvice注解使用及原理探究 | 京东物流技术团队
    最近在新项目的开发过程中,遇到了个问题,需要将一些异常的业务流程返回给前端,需要提供给前端不同的响应码,前端再在次基础上做提示语言的国际化适配。这些异常流程涉及业务层和控制层的各个地方,如果每个地方都写一些重复代码显得很冗余。然后查询解决方案时发现了@ControllerAdvice这......
  • 一种新的告警收敛方式“先知预警”,为您的系统健康护航
    前言简介买基金,上京东基金交易系统是用户使用京东金融APP进行基金交易的核心支撑系统,每天有数十亿元的交易额。在大额的交易面前,系统的稳定性尤其重要,同时基金业务比较复杂,为保障每个地方的稳定,告警埋点很多,加上各种日终检查,看似很完美,实际却有了新的问题,因告警太多,日检滞后,......
  • Android学习笔记(三十):弹出信息-Toast和告警
    Android提供两个常用的消息弹出框,Toast和Alert。ToastToast是一种短暂的提示框,并不需要用户交互,也不会将focus移过来,因此可以适合大多数的场景,向用户进行信息提示。在之前的学习中,已经多次使用到Toast了。创建一个Toast很简单,使用静态方法makeText(Contextcontext,CharSequencet......
  • 控制台出现lockdown-install.js文件报Removing intrinsics.问题告警
    查的原因是:警告来自MetaMaskChrome扩展。解决方法:关闭MetaMask扩展程序。参考资料:https://www.jdk5.com/ask/282/what-is-causing-the-warning-removing-intrinsics-arrayprototype-toreversed-in......
  • 关于自动限流的思考 | 京东云技术团队
    目标保证系统不因流量过载而挂。现状:人工限流正常的微服务限流工具都需要人工配置:支持应用负责人事先配置限流规则(接口+调用方+限流阈值),流量在阈值以下可以正常响应,超过阈值的流量会快速失败。这种方案存在如下问题:问题1.接口多,无法全面覆盖要想保证系统不因流量过载而挂,那就需要......
  • 4G无线断电断网监测网关可远程告警
    RTU5028E网络故障监测终端是一款功能强大且方便实用的设备,集合了断网、断电、网线故障报警功能。它支持同时监测多达7台网络设备,可以帮助用户快速定位远程网络设备离线的原因。此外,它还具备自动重启和远程重启网络设备的功能,为用户提供了更加便捷的操作方式。一、断网报警功能RTU50......
  • 直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路
    当企业的业务发展到一定的阶段时,在系统中引入监控告警系统来对系统/业务进行监控是必备的流程。没有监控或者没有一个好的监控,会导致开发人员无法快速判断系统是否健康;告警的实质则是“把人当服务用”,用告警通知人的方式去干预系统达到修正的目的。监控告警在企业保障系统的稳定性......
  • iPhone 15的OLED面板订单传已落定,京东方退出? | 百能云芯
    苹果(Apple)将于4日公布第2季财报,外界关注iPhone15系列制程进展,韩国媒体报道,三星显示器已获准生产iPhone15全4款所需有机发光二极管(OLED)面板,LGDisplay也获得有条件生产iPhone15Pro所需OLED面板的许可。韩国TheElec科技媒体1日引述消息人士报道,除了三星显示器(SamsungDisplay)外,......
  • 一种轻量级定时任务实现 | 京东云技术团队
    现在市面上有各式各样的分布式定时任务,每个都有其独特的特点,我们这边的项目因为一开始使用的是分布式开源调度框架TBSchedule,但是这个框架依赖ZK,由于ZK的不稳定性和项目老旧无人维护,导致我们的定时任务会偶发出现异常,比如:任务停止、任务项丢失、任务不执行等;每逢618大促,在单量很大......
  • 分布式服务高可用实现:复制 | 京东物流技术团队
    1\.为什么需要复制我们可以考虑如下问题:当数据量、读取或写入负载已经超过了当前服务器的处理能力,如何实现负载均衡?希望在单台服务器出现故障时仍能继续工作,这该如何实现?当服务的用户遍布全球,并希望他们访问服务时不会有较大的延迟,怎么才能统一用户的交互体验?这些问题其实都能通过......