首页 > 数据库 >Redis 在 vivo 推送平台的应用与优化实践

Redis 在 vivo 推送平台的应用与优化实践

时间:2023-04-04 20:36:15浏览次数:55  
标签:缓存 Redis vivo 集群 msg 推送 节点


一、推送平台特点

vivo推送平台是vivo公司向开发者提供的消息推送服务,通过在云端与客户端之间建立一条稳定、可靠的长连接,为开发者提供向客户端应用实时推送消息的服务,支持百亿级的通知/消息推送,秒级触达移动用户。

推送平台的特点是并发高、消息量大、送达及时性较高。目前现状最高推送速度140w/s,单日最大消息量150亿,端到端秒级在线送达率99.9%。

二、推送平台Redis使用介绍

基于vivo推送平台的特点,对并发和时效性要求较高,并且消息数量多,消息有效期短。所以,推送平台选择使用Redis中间件作为消息存储和中转,以及token信息存储。之前主要使用两个Redis集群,采用Redis Cluster 集群模式。两个集群如下:

Redis 在 vivo 推送平台的应用与优化实践_推送

对Redis的操作,主要包括如下几方面:

1)推送环节,在接入层存储消息体到msg Redis集群,消息过期时间为msg Redis存储消息的过期时间。

2)推送服务层经过一系列逻辑后,从msg Redis集群查出消息体,查询client Redis集群client信息,如果client在线,直接推送。如果client不在线,将消息id写到等待队列。

3)如果连接上来,推送服务层,读取等待队列消息,进行推送。

4)存储管理服务,会定期扫描cii索引,根据cii存储的最后更新时间,如果14天都没更新,说明是不活跃用户,会清理该token信息,同时清理该token对应的等待队列消息。

推送环节操作Redis流程图如下:

Redis 在 vivo 推送平台的应用与优化实践_Redis_02

三、推送平台线上问题

如上面介绍,推送平台使用Redis主要msg集群和client集群,随着业务的发展,系统对性能要求越来越高,Redis出现一些瓶颈问题,其中msg Redis集群在优化前,规模已达到220个master,4400G容量。随着集群规模变大,维护难度增加,事故率变高。特别是4月份,某某明星离婚事件,实时并发消息量5.2亿,msg Redis集群出现单节点连接数、内存暴增问题,其中一个节点连接数达到24674,内存达到23.46G,持续30分钟左右。期间msg Redis集群读写响应较慢,平均响应时间500ms左右,影响到整体系统的稳定性和可用性,可用性降到85%。

Redis 在 vivo 推送平台的应用与优化实践_推送_03

四、推送平台Redis优化

Redis一般从以下几方面优化:

1)容量:Redis属于内存型存储,相较于磁盘存储型数据库,存储成本较昂贵,正是由于内存型存储这个特性使得它读写性能较高,但是存储空间有限。因此,业务在使用时,应注意存储内容尽量是热数据,并且容量是可预先评估的,最好设置过期时间。在存储设计时,合理使用对应数据结构,对于一些相对大的value,可以压缩后存储。

2)热key倾斜:Redis-Cluster把所有的物理节点映射到[0-16383]slot(槽)上,每个节点负责一部分slot。当有请求调用时,根据 CRC16(key) mod 16384的值,决定将key请求到哪个slot中。由于Redis-cluster这个特性,每个节点只负责一部分slot,因此,在设计key的时候应保证key的随机性,特别是使用一些hash算法映射key时,应保证hash值的随机分布。另外,控制热点key并发问题,可以采用限流降级或者本地缓存方式,防止热点key并发请求过高导致Redis热点倾斜。

3)集群过大:Redis-Cluster采用无中心结构,每个节点保存数据和整个集群状态,每个节点都和其他所有节点连接。每个节点都保存所有节点与slot映射关系。当节点较多时,每个节点保存的映射关系也会变多。各节点之间心跳包的消息体内携带的数据越多。在扩缩容时,集群重新进行clusterSlots时间相对较长。集群会存在阻塞风险,稳定性受影响。因此,在使用集群时,应该尽量避免集群节点过多,最后根据业务对集群进行拆分。

这里有个问题:为什么Redis-Cluster使用16384个slot,而不是更多,最多可以有多少个节点?

官方作者给出了解释,并且在解释中说明,Redis-Cluster不建议超过1000个主节点。

Redis 在 vivo 推送平台的应用与优化实践_redis_04

基于以上一些优化方向,和自身业务特性,推送平台从以下几方面开启Redis优化之路。

  • msg Redis集群容量优化;
  • msg Redis大集群根据业务属性拆分;
  • Redis热点key排查;
  • client Redis集群并发调用优化。

4.1 msg Redis集群容量优化

前文提及,msg Redis集群规模达到220个master、4400G容量,高峰期已使用容量达到3650G,使用了83%左右,如果后续推送提量,还需扩容,成本太高。于是对msg Redis集群存储内容进行分析,使用的分析工具是雪球开源RDB分析工具RDR 。github网址:这里不多介绍,大家可以去github网址下载相应的工具使用。这个工具可以分析Redis快照情况,包括:Redis不同结构类型容量、key数量、top 100 largest keys、前缀key数量和容量。

分析后的结论:msg Redis集群中,mi:开头的结构占比80%左右,其中单推消息占比80%。说明:

  • 单推:1条消息推送1个用户
  • 群推:1条消息可以重复推送多个用户,消息可以复用。

单推的特点是一对一推送,推送完或者推送失败(被管控、无效用户等)消息体就不再使用。

优化方案

  • 及时清理单推消息,如果用户已经收到单推消息,收到puback回执,直接删除Redis消息。如果单推消息被管控等原因限制发送,直接删除单推消息体。
  • 对于相同内容的消息,进行聚合存储,相同内容消息存储一条,消息id做标识推送时多次使用。

经过这个优化后,缩容效果较明显。全量上线后容量缩小了2090G,原最高容量为3650G,容量缩小了58%

Redis 在 vivo 推送平台的应用与优化实践_redis_05

4.2 msg Redis大集群根据业务属性拆分

虽然进行了集群容量优化,但是高峰期msg Redis压力依然很大。

主要原因

1)连接msg Redis的节点很多,导致高峰期连接数较高。

2)消息体还有等待队列都存储在一个集群,推送时都需要操作,导致Redis并发很大,高峰期cpu负载较高,到达90%以上。

3)老集群Redis版本是3.x,拆分后,新集群使用4.x版本。相较于3.x版本有如下优势:

  • PSYNC2.0:优化了之前版本中,主从节点切换必然引起全量复制的问题。
  • 提供了新的缓存剔除算法:LFU(Least Frequently Used),并对已有算法进行了优化。
  • 提供了非阻塞del和flushall/flushdb功能,有效解决删除了bigkey可能造成的Redis阻塞。
  • 提供了memory命令,实现对内存更为全面的监控统计。
  • 更节约内存,存储同样多的数据,需要更少的内存空间。
  • 可以做内存碎片整理,逐步回收内存。当使用Jemalloc内存分配方案的时候,Redis可以使用在线内存整理。

拆分方案根据业务属性对msg Redis存储信息进行拆分,把消息体和等待队列拆分出来,放到独立的两个集群中去。这样就有两种拆分方案。

方案一把等待队列从老集群拆分出来

只需推送节点进行修改,但是发送等待队列连续的,有状态,与clientId在线状态相关,对应的value会实时更新,切换会导致数据丢失。

方案二把消息体从老集群拆分出来

所有连接msg Redis的节点替换新地址重启,推送节点进行双读,等到老集群命中率为0时,直接切换读新集群。由于消息体的特点是只有写和读两个操作,没有更新,切换不用考虑状态问题,只要保证可以写入读取没问题。并且消息体容量具有增量属性,需要能方便快速的扩容,新集群采用4.0版本,方便动态扩缩容。

Redis 在 vivo 推送平台的应用与优化实践_Redis_06

考虑到对业务的影响及服务可用性,保证消息不丢失,最终我们选择方案二。采用双读单写方案设计:

由于将消息体切换到新集群,那在切换期间一段时间(最多30天),新的消息体写到新集群,老集群存储老消息体内容。这期间推送节点需要双读,保证数据不丢失。为了保证双读的高效性,需要支持不修改代码,不重启服务的动态规则调整措施。

大致规则分为4个:只读老、只读新、先读老后读新、先读新后读老。

设计思路:服务端支持4种策略,通过配置中心的配置决定走哪个规则。

规则的判断依据:根据老集群的命中数和命中率决定。上线初期规则配置“先读老再读新”;当老集群命中率低于50%,切换成"先读新后读老";当老集群命中数为0后,切换成“只读新”。

老集群的命中率和命中数通过通用监控增加埋点。

方案二流程图如下:

Redis 在 vivo 推送平台的应用与优化实践_Redis_07

拆分后效果:

  • 拆分前,老msg Redis集群同时期高峰期负载95%以上。
  • 拆分后,同时期高峰期负载降低到70%,下降15%。

Redis 在 vivo 推送平台的应用与优化实践_数据库_08

拆分前,msg Redis集群同时期高峰期平均响应时间1.2ms,高峰期存在调用Redis响应慢情况。拆分后,平均响应时间降低到0.5ms,高峰期无响应慢问题。

4.3 Redis热点key排查

前面有说过,4月某某明星热点事件,出现msg Redis单节点连接数、内存飙升问题,单节点节点连接数达到24674,内存达到23.46G。

由于Redis集群使用的虚拟机,起初怀疑是虚拟机所在宿主机存在压力问题,因为根据排查发现出现问题的节点所在宿主机上挂载Redis主节点很多,大概10个左右,而其他宿主机挂载2-4个左右主节点,于是对master进行了一轮均衡化优化,使每台宿主机分配的主节点都比较均衡。均衡化之后,整体有一定改善。但是,在推送高峰期,尤其是全速全量推送时,还是会偶尔出现单节点连接数、内存飙升问题。观察宿主机网卡出入流量,都没出现瓶颈问题,同时也排除了宿主机上其他业务节点的影响。因此怀疑还是业务使用Redis存在热点倾斜问题。

通过高峰期抓取调用链监控,从下图可以看到,我们11:49到12:59这期间调用msg Redis的hexists命令耗时很高,该命令主要是查询消息是否在mii索引中,链路分析耗时的key大都为mii:0。同时对问题节点Redis内存快照进行分析,发现mii:0容量占比很高,存在读取mii:0热点问题。

Redis 在 vivo 推送平台的应用与优化实践_中间件_09

经过分析排查,发现生成消息id的雪花算法生成的messageId,存在倾斜问题,由于同一毫秒的序列值都是从0开始,并且序列长度为12位,所以对于并发不是很高的管理后台及api节点,生成的messageId基本都是最后12位为0。由于mii索引key是mi:${messageId%1024},messageId最后12位为0,messageId%1024即为0,这样就导致msg Redis中mii:0这个key很大,查询时命中率高,因此导致了Redis的热key问题。

Redis 在 vivo 推送平台的应用与优化实践_数据库_10

优化措施

1)雪花算法改造,生成消息id时使用的sequence初始值不再是0,而是从0~1023随机取一个数,防止热点倾斜问题。

2)通过msg消息体中消息类型及消息体是否存在来替换调hexists命令。

最终效果:优化后,mii索引已分布均匀,Redis连接数很平稳,内存增长也较平稳,不再出现Redis单节点内存、连接数暴增问题。

4.4 client Redis集群并发调用优化

上游节点调用推送节点是通过clientId进行一致性hash调用的,推送节点会缓存clientInfo信息到本地,缓存时间7天,推送时,优先查询本地缓存,判断该client是否有效。对于重要且经常变更的信息,直接查询client Redis获取,这样导致推送高峰期,client Redis集群压力很大,并发高,cpu负载高。

优化前推送节点操作缓存和client Redis流程图:

Redis 在 vivo 推送平台的应用与优化实践_数据库_11

优化方案:对原有clientInfo缓存进行拆分,拆分成三个缓存,采取分级方案。

  • cache还是保存原来clientInfo一些信息,这些信息是不经常变更的,缓存时间还是7天。
  • cache1缓存clientInfo经常变更的信息,如:在线状态、cn地址等。
  • cache2缓存ci加密部分参数,这部分缓存只在需要加密时使用,变更频率没那么高,只有连接时才会变更。

由于新增了缓存,需考虑缓存一致性问题,于是新增一下措施:

1)推送缓存校验,调用broker节点,根据broker的返回信息,更新和清理本地缓存信息。broker新增不在线、aes不匹配错误码。下次推送或者重试时,会重新从Redis中加载,获取最新的client信息。

2)根据手机端上行事件,connect和disconnect时,更新和清理本地缓存信息,下次推送或者重试时,会重新从Redis中加载,获取最新的client信息。

整体流程:消息推送时,优先查询本地缓存,缓存不存在或者已过期,才从client Redis中加载。推送到broker时,根据broker返回信息,更新或失效缓存。上行,收到disconnect、connect事件,及时更新或失效缓存,再次推送时重新从client Redis加载。

优化后推送节点操作缓存和client Redis流程图:

Redis 在 vivo 推送平台的应用与优化实践_中间件_12

优化后效果

1)新增cache1缓存命中率52%,cache2缓存命中率30%。

2)client Redis并发调用量减少了近20%。

Redis 在 vivo 推送平台的应用与优化实践_数据库_13

3)高峰期Redis负载降低15%左右。

Redis 在 vivo 推送平台的应用与优化实践_中间件_14

Redis 在 vivo 推送平台的应用与优化实践_数据库_15

五、总结

Redis由于其高并发性能和支持丰富的数据结构,在高并发系统中作为缓存中间件是较好的选择。当然,Redis是否能发挥高性能,还依赖业务是否真的理解和正确使用Redis。有如下几点需要注意:

1)由于Redis集群模式,每个主节点只负责一部分slot,业务在设计Redis key时要充分考虑key的随机性,均匀分散在Redis各节点上,同时应避免大key出现。另外,业务上应避免Redis请求热点问题,同一时刻请求打到少部分节点。

2)Redis实际吞吐量还与请求Redis的包数据大小,网卡有关,官方文档有相关说明,单个包大小超过1000bytes时,性能会急剧下降。所以在使用Redis时应尽量避免大key。另外,最好根据实际业务场景和实际网络环境,带宽和网卡情况进行性能压测,对集群实际吞吐量做摸底。

以我们client Redis集群为例:(仅供参考)

  • Network:10000Mb;
  • Redis Version:3.x;
  • Payload size:250bytes avg;
  • 命令:hset(25%)、hmset(10%)、hget(60%)、hmget(5%);
  • 性能情况:连接数5500、48000/s、cpu 95%左右。

Redis 在 vivo 推送平台的应用与优化实践_redis_16

Redis 在 vivo 推送平台的应用与优化实践_Redis_17

Redis在实时分析这块支持较少,除了基本指标监控外,实时内存数据分析暂不支持。在实际业务场景下如果出现Redis瓶颈,往往监控数据也会缺失,定位问题较难。对Redis的数据分析只能依赖分析工具对Redis快照文件进行分析。因此,对Redis的使用依赖业务对Redis的充分认知,方案设计的时候充分考虑。同时根据业务场景对Redis做好性能压测,了解瓶颈在哪,做好监控和扩缩容准备。

作者:vivo互联网服务器团队-Yu Quan


标签:缓存,Redis,vivo,集群,msg,推送,节点
From: https://blog.51cto.com/u_14291117/6169496

相关文章

  • 流量录制与回放在vivo的落地实践
    一、为什么要使用流量录制与回放?1.1vivo业务状况近几年,vivo互联网领域处于高速发展状态,同时由于vivo手机出货量一直在国内名列前茅,经过多年积累,用户规模非常庞大。因此,vivo手机出厂内置很多应用,如浏览器、短视频、直播、资讯、应用商店等都是直面用户的高并发、复杂系统。这些面向......
  • vivo直播应用技术实践与探索
    一、概述2019年vivo直播平台立项,初期与优秀的顶部直播平台进行联运直播开发,进行市场,产品和技术的初步探索;再到后来为了丰富直播的内容和形式,开始自己独立探索;之后,我们结合vivo现阶段的直播业务,陆续完成了泛娱乐,互动,公司事件直播等多种直播形式的落地,相信后续根据业务的规划,我们会给......
  • vivo 评论中台的流量及数据隔离实践
    一、背景vivo评论中台通过提供评论发表、点赞、举报、自定义评论排序等通用能力,帮助前台业务快速搭建评论功能并提供评论运营能力,避免了前台业务的重复建设和数据孤岛问题。目前已有vivo短视频、vivo浏览器、负一屏、vivo商城等10+业务接入。这些业务的流量大小和波动范围不同,如何......
  • vivo浏览器的快速开发平台实践-总览篇
    一、什么是快速开发平台快速开发平台,顾名思义就是可以使得开发更为快速的开发平台,是提高团队开发效率的生产力工具。近一两年,国内很多公司越来越注重研发效能的度量和提升,基于软件开发的特点,覆盖管理和优化、团队工程实践、个人工程实践、优化流程四大方面。本文所讲的快速开发平台......
  • Redis支持的数据结构
    Redis数据库提供了多种数据结构,其中最常见的数据结构有String(字符串)、List(表)、Set(集合)、Hash(散列)、SortedSets(有序集合)。 (1)String(字符串)String字符串是Redis中最基本也是最简单的数据结构,其值是二进制安全的,值的数据类型可以为数字、文本、图片、视频或者序列化的对......
  • Redis概述
    键值对存储数据库是NoSQL数据库的一种类型,也是最简单的NoSQL数据库。顾名思义,键值对存储数据库中的数据是以键值对的形式来存储的。常见的键值对存储数据库有Redis、TokyoCabinet/Tyrant、Voldemort以及OracleBDB数据库。 Redis简介RemoteDic......
  • Redis——面试问题集合
    那你能说说Redis是单线程的?Redis完全基于内存,绝大部分请求是纯粹的内存操作,非常迅速,数据存在内存中,类似于HashMap,HashMap的优势就是查找和操作的时间复杂度是O(1)。数据结构简单,对数据操作也简单。采用单线程,避免了不必要的上下文切换和竞争条件,不存在多线程导致的CPU切换......
  • vivo 短视频推荐去重服务的设计实践
    一、概述1.1业务背景vivo短视频在视频推荐时需要对用户已经看过的视频进行过滤去重,避免给用户重复推荐同一个视频影响体验。在一次推荐请求处理流程中,会基于用户兴趣进行视频召回,大约召回2000~10000条不等的视频,然后进行视频去重,过滤用户已经看过的视频,仅保留用户未观看过的视频进......
  • Redis 内存优化在 vivo 的探索与实践
    作者:vivo互联网服务器团队-TangWenjian一、背景使用过Redis的同学应该都知道,它基于键值对(key-value)的内存数据库,所有数据存放在内存中,内存在Redis中扮演一个核心角色,所有的操作都是围绕它进行。我们在实际维护过程中经常会被问到如下问题,比如数据怎么存储在Redis里面能......
  • Redis——知识脑图
    摘要Redis相关学习资源和知识脑图。一、gitee的相关资源:https://gitee.com/xjl2462612540/RedisPrinciple二、Redis的知识脑图三、Redis基础原理文章3.1Redis命令执行原理Redis——Redis命令执行原理_庄小焱的博客3.2Redis底层数据结构原理Redis——底层数据结构原理_庄小焱的博......