首页 > 数据库 >Redis连接超时排查实录

Redis连接超时排查实录

时间:2024-04-03 18:14:01浏览次数:24  
标签:Lettuce Redis redis 排查 connection spring 超时 连接

记一次Redis超时

关键字:#spring-data-redis、#RedisTemplate、#Pipeline、#Lettuce

spring-data-redis:2.6.3

1 现象

时间轴(已脱敏)

day01 线上发现接口耗时不正常变高

day02 其他接口mget操作偶现超时,陆续发现其他Redis命令也偶尔出现超时(持续半个月)

day03 排查Redis无慢查询,连接数正常,确认为批量写缓存导致

day04 尝试去除问题缓存,Redis超时消失,服务多个接口耗时下降50%~60%

day05 改进配置,重新上线,缓存正常,接口耗时波动不大

2 错误

2.1 spring-data-redis虚假的pipeline

需求:高频批量刷缓存,每个string key单独设置随机过期时间,单次批量操作上限为500。

spring-data-redis的multiSet不支持同时设置过期时间,但是spring-data-redis支持pipeline。

问题代码鉴赏

    /**
     * 批量缓存
     * @param time base过期时间
     * @param random 随机过期时间范围 1表示不增加随机范围
     */
    private void msetWithRandomExpire(Map<String, String> kv, long time, int random) {
        RedisSerializer<String> stringSerializer = template.getStringSerializer();
        Random rand = new Random();
        template.executePipelined((RedisCallback<String>) connection -> {
            connection.openPipeline();
            kv.forEach((k, v) -> {
                long expireTime = time + rand.nextInt(random);
                connection.setEx(Objects.requireNonNull(stringSerializer.serialize(k)),
                        expireTime, Objects.requireNonNull(stringSerializer.serialize(v)));
            });
            connection.closePipeline();
            return null;
        });
    }

测试发现redis连接超时。

spring-data-redis采用的默认Redis客户端是Lettuce,Lettuce所有请求默认使用同一个共享连接的实例,只有当执行事务/pipeline命令时会新建一个私有连接。

执行单个Redis命令时,每收到一条命令,Lettuce就发送给Redis服务器,而pipeline需要将批量的命令缓存在内存,然后一次性发送给Redis服务器。

但是,查看LettuceConnection源码发现,Lettuce默认的pipeline刷入方式是FlushEachCommand,也就是每条命令都会产生一次发送行为。

使用pipeline的本意是避免多次发送带来的网络开销,所以spring-data-redis的pipeline是个伪批量操作,本质上和一条一条发送没有区别。

// org.springframework.data.redis.connection.lettuce.LettuceConnectionFactory#pipeliningFlushPolicy
public class LettuceConnection extends AbstractRedisConnection {
    // ...
    private PipeliningFlushPolicy pipeliningFlushPolicy = PipeliningFlushPolicy.flushEachCommand();
    // ...
}

2.2 Lettuce手动刷入的并发问题

spring-data-redis对Lettuce的封装存在缺陷,考虑使用原生的Lettuce客户端实现pipeline。

Lettuce的连接有一个AutoFlushCommands,默认是true,即收到一个命令就发到服务端一个。如果配置为 false,则将所有命令缓存起来,手动调用flushCommands的时候,将缓存的命令一起发到服务端,这样其实就是实现了 Pipeline。

在Lettuce官网找到了用异步方式实现的pipeline代码,参考官网样例后写出的问题代码如下:

    public void msetWithRandomExpire(Map<String, String> kv, long time, int random) {
        RedisConnectionFactory connectionFactory = redisTemplate.getConnectionFactory();
        LettuceConnection connection = null;
        RedisClusterAsyncCommands<byte[], byte[]> commands = null;
        try {
            Random rand = new Random();
            connection = (LettuceConnection) RedisConnectionUtils.getConnection(connectionFactory);
            commands = connection.getNativeConnection();
            commands.setAutoFlushCommands(false);
            List<RedisFuture<?>> futures = new ArrayList<>();
            for (Map.Entry<String, String> entry : kv.entrySet()) {
                String k = entry.getKey();
                String v = entry.getValue();
                long expireTime = time + rand.nextInt(random);
                futures.add(commands.setex(k.getBytes(), expireTime, v.getBytes()));
            }
			// 批量flush命令
            commands.flushCommands();

            LettuceFutures.awaitAll(5, TimeUnit.SECONDS, futures.toArray(new RedisFuture[futures.size()]));
        } finally {
            // 恢复自动刷入
            if (commands != null) {
                commands.setAutoFlushCommands(true);
            }
            if (connection != null) {
                RedisConnectionUtils.releaseConnection(connection, connectionFactory);
            }
        }
    }

官方声称这样写,在50-1000个批量操作的区间内,吞吐量可以提高五倍,简直完美满足我的需求。

上线测试后确实非常快,500个SETEX命令可以在10ms内完成,没有再发生过Redis连接超时的现象。

问题在于,AutoFlushCommands这个配置对于共享连接是全局的,会影响到其他正在使用共享连接的线程。

所以,Lettuce官方的建议是把这个操作放在一个私有连接里进行,这样就不会影响到共享连接中的命令。

The AutoFlushCommands state is set per connection and therefore affects all threads using the shared connection. If you want to omit this effect, use dedicated connections. The AutoFlushCommands state cannot be set on pooled connections by the Lettuce connection pooling.

spring-data-redis里执行pipeline命令,会先申请一个私有连接,虽然它的刷入命令的策略有问题,但这个可以参考下。

翻了下Lettuce的API,发现通过getNativeConnection方法可以获取到私有连接。

connection = (LettuceConnection) RedisConnectionUtils.getConnection(connectionFactory);
commands = connection.getNativeConnection();

@Override
public RedisClusterAsyncCommands<byte[], byte[]> getNativeConnection() {
		LettuceSubscription subscription = this.subscription;
		// getAsyncConnection()会返回一个私有连接
		return (subscription != null ? subscription.getNativeConnection().async() : getAsyncConnection());
}

研究到这里以为大功告成,由于用了比较取巧的写法,上线也观察了两天,并没有出现问题,直到第三天排行榜Redis莫名开始出现超时。

报错如下

io.lettuce.core.RedisCommandTimeoutException: Command timed out after 1 minute(s)

Github issue翻到一个老哥遇到了同样的问题,Lettuce作者的回答是

Switching setAutoFlushCommands to false is only recommended for single-threaded connection use that wants to optimize command buffering for batch imports.

Lettuce works in general in a non-blocking, multiplexing mode regardless of the API that you're using. You can use synchronous, asynchronous, any reactive APIs with the same connection.

That being said, if you don't touch setAutoFlushCommands, you should be good.

只推荐在单线程的应用中使用setAutoFlushCommands来手动刷命令。Lettuce通常以非阻塞、多路复用模式工作,与使用什么API无关,不管是同步/异步/响应式API。如果你不碰这东西,就没事了。

作者跟官网说的有点矛盾,官网强调了只要在私有连接里进行pipeline操作就不会影响到共享连接,所以怀疑到底有没有正确获取到私有连接。

回到Lettuce的API,getNativeConnection这个方法再点进去一层

	RedisClusterAsyncCommands<byte[], byte[]> getAsyncConnection() {

		if (isQueueing() || isPipelined()) {
			return getAsyncDedicatedConnection();
		}
        // 当共享连接不为空 返回一个共享连接
		if (asyncSharedConn != null) {

			if (asyncSharedConn instanceof StatefulRedisConnection) {
				return ((StatefulRedisConnection<byte[], byte[]>) asyncSharedConn).async();
			}
			if (asyncSharedConn instanceof StatefulRedisClusterConnection) {
				return ((StatefulRedisClusterConnection<byte[], byte[]>) asyncSharedConn).async();
			}
		}
		return getAsyncDedicatedConnection();
	}

原来getNativeConnection这个方法获取私有连接是有条件的,只有当共享连接被关闭时才会返回私有连接。

而关闭共享连接需要调用setShareNativeConnection(false)这个方法,这个配置同样是全局的,关闭后,所有的命令都会走私有连接,这时需要用连接池来管理Lettuce连接。

到这里Redis超时的原因就找到了。

Lettuce官方在文档最后的QA里贴了一个出现RedisCommandTimeoutException的可能原因,最后一条是:【为什么要贴在最后…】

If you manually control the flushing behavior of commands (setAutoFlushCommands(true/false)), you should have a good reason to do so. In multi-threaded environments, race conditions may easily happen, and commands are not flushed. Updating a missing or misplaced flushCommands() call might solve the problem.

意思是,修改在AutoFlushCommands这个配置的时候需要注意,多线程环境中,竞态会频繁出现,命令将会阻塞,修改在不当的场景下使用手动刷入flushCommands也许会解决问题。

【以下为个人理解】

虽然在finally中恢复了自动刷入,但是在并发场景下,会有一些在AutoFlushCommands=false时执行的命令,这些命令将会被阻塞在本地内存,无法发送到Redis服务器。所以这个问题本质是网络的阻塞,通过info clients查询Redis连接数正常,配置超时没有用,慢日志也查不到任何记录,干掉缓存的批量操作后,Redis终于正常了。

3 修复

在上面的前提下修复这个问题,需要三步

3.1 配置

3.1.1 Lettuce连接池

所有命令走单独的私有连接,需要用连接池管理。

具体参数根据业务调整

spring.redis.lettuce.pool.max-active=50  
# Minimum number of idle connections in the connection pool.
spring.redis.lettuce.pool.min-idle=5  
# Maximum number of idle connections in the connection pool.
spring.redis.lettuce.pool.max-idle=50  
# Maximum time for waiting for connections in the connection pool. A negative value indicates no limit.
spring.redis.lettuce.pool.max-wait=5000  
# Interval for scheduling an eviction thread.
spring.redis.pool.time-between-eviction-runs-millis=2000  

3.1.2 关闭共享连接

搭配spring-data-redis使用,关闭共享连接

@Bean
public LettuceConnectionFactory lettuceConnectionFactory() {
    LettuceConnectionFactory factory = new LettuceConnectionFactory();
    factory.setShareNativeConnection(true);
    // read config
    return factory;
}

3.2 写法调整

3.2.1 用Lettuce API重写代码

    public void msetWithRandomExpire(Map<String, String> kv, long baseTime, int random) {
        RedisClient client = RedisClient.create();
        try (StatefulRedisConnection<String, String> connection = client.connect()) {
            Random rand = new Random();
            RedisAsyncCommands<String, String> commands = connection.async();
            // 关闭命令自动flush
            commands.setAutoFlushCommands(false);
            List<RedisFuture<?>> futures = new ArrayList<>();
            for (Map.Entry<String, String> entry : kv.entrySet()) {
                long expireTime = baseTime + rand.nextInt(random);
                futures.add(commands.setex(entry.getKey(), expireTime, entry.getValue()));
            }
            // 手动批量flush
            commands.flushCommands();
            LettuceFutures.awaitAll(5, TimeUnit.SECONDS, futures.toArray(new RedisFuture[0]));
        }
    }

3.2.2 spring-data-redis封装的flush策略

除了用Lettuce原生API实现之外,spring-data-redis也已经给pipeline封装好了三种flush策略。

PipeliningFlushPolicy也就是Lettuce的pipeline刷新策略,包括默认的每个命令都刷入,一共有三种,基本上满足大部分业务场景。

  /** 
    * org.springframework.data.redis.connection.lettuce.LettuceConnection.PipeliningFlushPolicy
    * FlushEachCommand: 每个命令flush一次 默认策略
    * FlushOnClose: 每次连接关闭时flush一次
    * BufferedFlushing: 设置buffer大小 每达到buffer个命令刷一次 连接关闭时也刷一次
    */
	public interface PipeliningFlushPolicy {

		static PipeliningFlushPolicy flushEachCommand() {
			return FlushEachCommand.INSTANCE;
		}
    
		static PipeliningFlushPolicy flushOnClose() {
			return FlushOnClose.INSTANCE;
		}
    
		static PipeliningFlushPolicy buffered(int bufferSize) {

			Assert.isTrue(bufferSize > 0, "Buffer size must be greater than 0");
			return () -> new BufferedFlushing(bufferSize);
		}

		PipeliningFlushState newPipeline();
	}

设置pipeliningFlushPolicy=FlushOnClose之后,上面在2.1节提到的虚假的pipeline就成为真正的pipeline了。

@Bean
public LettuceConnectionFactory lettuceConnectionFactory() {
    LettuceConnectionFactory factory = new LettuceConnectionFactory();
    factory.setShareNativeConnection(true);
    // 设置pipeline的flush策略
    factory.setPipeliningFlushPolicy(LettuceConnection.PipeliningFlushPolicy.flushOnClose());
    // read config
    return factory;
}

4 思考

去除问题缓存后,服务所有带Redis缓存的接口平均耗时下降了一半,问题接口耗时稳定在5ms左右。

监控耗时对比非常夸张,这里不放图了,

修复问题后,接口耗时整体稳定,性能无明显提升。

关于性能

Redis是单线程的,Lettuce也是单线程多路复用的。

实际上Lettuce在单线程状态下有着最佳的性能表现,采用线程池管理后,给系统引入了不必要的复杂度,Lettuce官方也吐槽大量的issue和bug来自多线程环境。

只有当事务/Pipeline等阻塞性操作较多时,主动放弃单线程的优势才是值得的。

否则,在并发没有那么高,甚至db都能hold住的场景,没有必要折腾Redis。

// TODO 性能测试

关于坏的技术

什么是坏的技术?(尤其是在引入新的技术的时候)

  • 研究不透彻的API:陌生的API,从入口到最底部的链路,随手调用一下到底走的是哪条,需要搞清楚

  • 脱离业务场景的:非必要引入的技术只会增加系统复杂度,带来负面影响。开发一时的自我满足是有害的

5 参考

[1] Lettuce文档 https://lettuce.io/

[2] Lettuce Github issue https://github.com/lettuce-io/lettuce-core/issues/1604

[3] lettuce 在spring-data-redis包装后关于pipeline的坑,你知道吗?

[4] 初探 Redis 客户端 Lettuce:真香!

[5] Lettuce连接池

标签:Lettuce,Redis,redis,排查,connection,spring,超时,连接
From: https://www.cnblogs.com/CofJus/p/18113262

相关文章

  • Redis作为微服务共享缓存的优缺点
    1.引言随着微服务架构的流行,越来越多的系统采用了微服务架构来构建应用程序。在微服务架构中,服务之间需要进行通信和协调,而这些服务通常需要共享一些数据,比如缓存数据。在这种情况下,Redis成为了一个非常受欢迎的选择。然而,使用Redis作为微服务架构中的共享缓存也会带来一些问题......
  • NoSQL之Redis配置与优化
    目录一.关系数据库与非关系数据库1、关系型数据库2、非关系型数据库非关系型数据库产生背景3、关系型数据库和非关系型数据库区别: 数据存储方式不同扩展方式不同对事务性的支持不同总结:二、Redis简介Redis具有以下几个优点 三、Redis安装部署​编辑 四、Re......
  • 简单的redis分布式锁实现
    简单的redis分布式锁实现1.需求我们公司想实现一个简单的分布式锁,用于服务启动初始化执行init方法的时候,只执行一次,避免重复执行加载缓存规则的代码,还有预防高并发流程发起部分,产品超发,多发问题。所以结合网上信息,自己简单实现了一个redis分布式锁,可以进行单次资源锁定,排......
  • 【Redis】.Net Core 面试破冰
    目录1.Redis简介2.使用场景3.C#具体使用介绍(Nuget)StackExchange.RedisFreeRedisNewLife.RedisServiceStack.Redis(收费)4.Redis常用面试问题以及回答5.建议及经验分享建议Redis经验分享ShareFlow1.Redis简介Redis是一个开源的使用ANSIC语言编写、遵守BSD协议、支持......
  • go~连接redis的方法
    在Go语言中使用Redis,通常需要使用第三方库来实现与Redis服务器的交互。目前比较流行的Go语言Redis客户端库有go-redis和redigo等。这里以go-redis为例,简单介绍如何在Go语言中使用Redis。使用go-redis连接Redis数据库安装go-redis库:可以使用go命令行工具安装go-redis库:goget......
  • Redis--安装
    Redis(RemoteDictionaryServer)是一个开源的内存数据存储系统,也被称为键值存储数据库。它支持多种数据结构,包括字符串(strings)、哈希(hashes)、列表(lists)、集合(sets)和有序集合(sortedsets)等,并提供了丰富的操作命令和功能。 yum下载yuminstallredis 编译安装包下载地址:htt......
  • 达梦执行存储过程报死锁问题分析排查方法
    最近在一个项目中调用存储过程报死锁错误,而根据DEADLOCK_HISTORY也无法看出是哪个表产生了死锁,下面模拟一下环境做测试dropTABLEifEXISTStest;CREATETABLEtest(idint);BEGINforiin1..100loopinsertintotestVALUES(i);endloop;commit;end;CREATEorREP......
  • redis自学(28)RDB持久化
    RDBRDB全程RedisDatabaseBackupfile(Redis数据备份文件),也被叫做Redis数据快照。简单来说就是把内存中所有数据都记录到磁盘中。当Redis实例故障重启后,从磁盘读取快照文件,恢复数据。快照文件成为RDB文件,默认是保存在当前运行目录。Redis停机时会执行一次RDB。 也就是优......
  • OpenMLDB vs Redis 内存占用量测试报告
    1.背景OpenMLDB是一款开源的高性能全内存SQL数据库,在时序数据存储、实时特征计算等方面都有很多创新和优化。Redis是业界最流行的内存存储数据库,广泛应用于缓存等高性能在线场景。虽然二者应用场景不尽相同,但作为都是使用内存作为存储介质的数据库,希望通过对相同数据行数下......
  • 【Redis核心知识】实现秒杀的三种方案
    Redis秒杀方案Redis性能很好,被大量使用于秒杀场景下,实现秒杀有以下几种方案:方案一:使用商品ID作为分布式锁,加锁后扣减库存该方案的实现流程为:用户发起秒杀请求到Redis,Redis先使用商品ID作为key尝试加锁,保证只有一个用户进入之后流程,保证原子性;如果加锁成功,则查询库存。如......