首页 > 其他分享 >【稳定性】秘密武器--功能开关技术

【稳定性】秘密武器--功能开关技术

时间:2023-09-28 11:14:04浏览次数:32  
标签:功能 开关 -- 代码 配置 秘密武器 Promise DUCC

一、背景

继上篇【稳定性:关于缩短MTTR的探索】后,看到一些线上问题应急预案采用的是回滚方案,但是在大部分牵扯代码场景下,开关技术才是线上问题快速止血的最佳方式。比如履约平台组的Promise作为下单黄金链路,如遇线上问题的话,采用通用的回滚方式需要5-10+分钟(500+台机器)并且回滚如果操作不当会加重问题,而采用开关技术则是秒级。同时Promise在处理日常迭代需求和稳定性保障方面,功能开关技术同样发挥了重要的作用。针对改动范围大、影响面广的需求,我通常会问上线了最坏情况是什么?应急预案是什么?你带开关了吗?。当然开关也是有成本的,接下来本篇跟大家一起交流下高频发布支撑下的功能开关技术理论与实践结合的点点滴滴。

二、什么是功能开关?

功能开关其实就是一个轻量级的动态配置框架,它可以帮助您在代码中动态管理配置项(你可以理解可以动态干预代码逻辑走向)。通过使用功能开关,您可以根据需要为应用开启或关闭部分功能。这种方法通常适用于以下场景:设置黑白名单、降级业务功能、流量切量以及大促活动时的动态调整日志级别等。

从代码的角度来讲,每个开关的本质就是一个"if......else"条件语句块。



三、开关用途

对于高频率的发布上线来说,开关技术是一种合理的技术手段,被赋予了两种新的用途。

  1. 快速止血:一旦生产环境出了问题,直接找到对应功能的开关选项,将其设置为“关闭”。

  2. 隔离:即将功能代码隔离在线上执行路径之外,对用户不产生影响。

四、开关成本

使用开关技术也会带来成本。

  1. 首先,每个开关选项最少有两个状态,“开”和“闭”。当我们在发布之前对软件进行功能验证时,需要考虑每个开关在系统中的状态,有时候甚至要进行组合测试,开关的数量越多,可能就会产生越多组合测试的成本。

  2. 其次,并不是所有的开关代码都能以优雅的方式实现,给代码的编写和维护都带来了一定的复杂性,需要细心设计。

  3. 最后,开关在系统中存在的时间越长,维护它的成本就越高。比如Promise系统历史原因已经200多个开关了,没有及时清理现在不敢动。

五、开关管理

为了能够最大化利用开关带来的好处,并尽可能减少它带来的成本,应该对开关进行系统化的管理,并尽可能遵循以下原则。

  1. 在满足业务需求及稳定性的前提下,尽可能少用开关技术。开关本质上是if...else...的语句,它会带来程序的复杂性,尤其是代码设计混乱、代码模块职责不清晰时,更容易出错。

  2. 易于管理:软件团队应对开关配置进行统一管理,方便查找和查看状态。

  3. 开关策略标准化:开关策略是指开关的定义、命名以及如何配置。功能开关应该遵循统一的标准和规范,以便不同团队之间的协作和沟通更加顺畅。目前小组开关命名等也不规范,正在标准化路程中。

  4. 可扩展性:功能开关应该具有可扩展性,以便在需要时能够轻松地添加新的功能或修改现有的功能。这可以通过使用模块化的设计和开放的接口来实现。

  5. 在确保稳定性的前提下,尽量定期检查和清理不必要的开关项。Promise新功能开关逐步清理中。

6. 安全性:功能开关应该具有足够的安全措施,以确保只有授权的用户才能修改和配置开关状态。此外,功能开关还应该能够防止未经授权的访问和攻击。如DUCC权限管理及XBP审批管理。

总之,持续交付中使用功能开关技术的原则应该是灵活、可靠、安全、标准化、自动化、可追溯性和可扩展性的综合体现,以确保系统能够在不同的环境和需求下保持稳定和高效。

六、典型应用场景

开关可分为发布开关、运维开关、A/B实验开关、权限开关。具体应用场景如下:

功能发布更加灵活:这些开关允许该代码功能提前部署到生产环境中,但功能不生效。比如Promise系统在下单黄金链路属于下游,很多需求需要系统先上线,待上游都上线完成后再打开开关进行业务验证。如下图DUCC配置:

capactiySwitch.enable=true

黑白名单功能:黑白名单是常用的访问控制规则,通过功能开关可以快速实现黑白名单功能。比如Promise中的KA时效白名单开关。如下图DUCC配置:

kaPromiseSwitch.whiteList=010***,011***,012***

线上验证****:系统上线后,业务需要在生产环境中测试验证,由于生产环境中测试验证存在一定的风险,功能开关可以配置相关的验证参数组合(比如下单前根据用户pin、下单后订单号、仓库ID等),这样可以在生产环境中不影响其他用户体验的情况下去测试功能,可以更早地发现问题。如下图DUCC配置:

jitSwitch.storeId=1-1,1-2,1-3,1-4,****

运行时动态调整日志级别****:在应用运行时动态修改日志级别的功能。比如Promise在618&双11大促峰值期间对日志进行降级(只打印出入参及下游依赖的出入参),TP99从30ms降低到13ms,待大促峰值过后日志调整回来,方便排查。如下图DUCC配置:

log4j.logger=info

降级业务功能****:例如在大促到来的时候,可以通过开关将非核心的业务逻辑降级,减少一些非必要的资源消耗。或者依赖下游JSF问题,如业务有损可接受,也可进行开关降级,通过开关关闭则不调用下游JSF。如下图DUCC配置:

commonSwith.fence=true

切量验证****:重构新功能上线后,根据订单号或者pin百分比逐步切量进行线上验证。如下图DUCC配置:

commonSwith.percent=10

控制客户端行为能力****:对于APP来说,这种控制可能意味着客户端周期性地和服务器联系,例如多久同步一次和重试的频率、心跳时间等

七、开关实践

**7.1、**复用型开关

比如很多场景发送MQ,目前可通过复用开关来配置发送MQ是异步还是同步方式。而不是每个topic配置一个开关,把相同的场景统一设置为一个通用的开关。但需要注意通用开关的隔离性差,如果不进行配置校验验证则可能影响其他开关功能。

jmqUtil.asyncTopics=topic1,topic2,topic3,topic4,....

比如依赖下游JSF三方接口较多,设计一个复用型开关判断是否需要降级下游

**7.2、**特定时间生效开关

开关特性:开关可配置多个属性值,根据指定时间生效对应value

使用场景:比如仓库产能审批,之前业务是要求0点开关要生效对应版本,研发需要0点的时候配置,长期这样配置,研发效率低下,并且还需要按时按点对ducc开关进行修改。故设计为一个开关可提前配置好生效时间和生效的value值。比如下面是产能审批的ducc开关,effectiveTime代表生效日期,version代表对应生效版本。

[
  {
    "effectiveTime": "2023-03-09 12:00",
    "version": "76"
  },
  {
    "effectiveTime": "2023-04-20 12:00",
    "version": "77"
  },
  {
    "effectiveTime": "2023-05-14 00:00",
    "version": "78"
  }
]

八、总结

总的来说,功能开关可以帮助技术团队更有效地工作,同时还可以改善用户体验,降低发布新功能的风险。

参考:

持续交付2.0业务引领的DevOps精要

作者:京东物流 冯志文

来源:京东云开发者社区 自猿其说Tech 转载请注明来源

标签:功能,开关,--,代码,配置,秘密武器,Promise,DUCC
From: https://www.cnblogs.com/jingdongkeji/p/17735230.html

相关文章

  • 2022 China Collegiate Programming Contest (CCPC) Mianyang Onsite GCHMAD
    2022ChinaCollegiateProgrammingContest(CCPC)MianyangOnsite目录2022ChinaCollegiateProgrammingContest(CCPC)MianyangOnsiteVP情况G-LetThemEatCakeC-CatchYouCatchMeH-LifeisHardandUndecidable,but...M-Rock-Paper-ScissorsPyramidA-......
  • 【WCH蓝牙系列芯片】-基于CH582开发板—BLE从机开启HAL Sleep模式
    ---------------------------------------------------------------------------------------------------------------------在WCH沁恒官方提供的CH583的EVT资源包中,找到BLE文件中找到【Peripheral:外设从机角色例程】这个工程文件,在这个工程文件中,添加HALSleep模式,开启低功耗模......
  • 网络请求-本机
    参考 https://cloud.tencent.com/developer/article/1839865本机网络通信的内核执行流程 跨机网络IO的流程是: 开篇三个问题的答案1)问题1:127.0.0.1本机网络IO需要经过网卡吗?通过本文的叙述,我们确定地得出结论,不需要经过网卡。即使了把网卡拔了本机网络是否还可以......
  • Solution -「模拟赛」草莓蛋糕
      \(\max(a_x+a_y,b_y+b_x)\)的贡献形式不是独立的,并不好进行分析。考虑通过分类讨论将\(\max\)拆开。若令\(h_i=a_i-b_i\),\(h'_i=b_i-a_i\),可以发现若\(h_x\geqslanth'_y\)取值则为\(b_x+b_y\),反之亦然。  注意到\(h\)本身自带一个一维偏序关系,于......
  • E. Iva & Pav
    E.Iva&Pav把每一项的数拆分成32位二进制,然后求前i项第j位二进制为1的前缀和,如果区间范围内的1等于区间范围,则是可行的,乘上对应位置的大小,每一位求和判断与k的大小二分+前缀和点击查看代码#include<bits/stdc++.h>usingnamespacestd;#defineLLlonglongconstintN......
  • HarmonyOS非线性容器特性及使用场景
     非线性容器实现能快速查找的数据结构,其底层通过hash或者红黑树实现,包括HashMap、HashSet、TreeMap、TreeSet、LightWeightMap、LightWeightSet、PlainArray七种。非线性容器中的key及value的类型均满足ECMA标准。HashMapHashMap可用来存储具有关联关系的key-value键值对集......
  • Mybatis中的设计模式
    最近在看《通用源码阅读指导书:Mybatis源码详解》,这本书一一介绍了Mybatis中的各个包的功能,同时也涉及讲了一些阅读源码的技巧,还讲了一些源码中涉及的设计模式,这是本篇文章介绍的内容在多说一点这本书,Mybatis是大部分Java开发者都熟悉的一个框架,通过这本书去学习如何阅读源码非常......
  • 禁止 win10 锁屏一分钟后显示器自动黑屏
    1、概述每次离开电脑时都进行锁屏,回来时发现电脑显示器屏幕是黑屏的,然后发现关闭显示器的时间设置的是一小时,然而我才离开电脑几分钟而已,于是查了一些资料,原来是「控制台锁定显示关闭超时」惹的祸,是其配置默认为一分钟引起的,也就是锁屏后,系统默认会在一分钟后关闭显示器,而无视电......
  • Sensor接口之——DVP接口
    DVPDVP(DigitalVideoPort)是传统的sensor输出接口,采用并行输出方式,数据位宽有8bit、10bit、12bit、16bit等。 DVP总线PCLK极限约在96M左右,而且走线长度不能过长,所有DVP最大速率最好控制在72M以下,PCBlayout较容易画,MIPI总线速率lvds接口耦合,走线必须差分等长,并且需要......
  • 在Go中如何实现并发
    Go语言的并发机制是其强大和流行的一个关键特性之一。Go使用协程(goroutines)和通道(channels)来实现并发编程,这使得编写高效且可维护的并发代码变得相对容易。下面是Go的并发机制的详细介绍:协程(Goroutines):协程是Go中的轻量级线程,由Go运行时管理。与传统线程相比,协程的创建和销毁......