目录
redis 群集有三种模式,分别是主从同步/复制、哨兵模式、Cluster,下面会讲解一下三种模式的工作方式,以及如何搭建cluster群集
- 主从复制:主从复制是高可用Redis的基础,哨兵和集群都是在主从复制基础上实现高可用的。主从复制主要实现了数据的多机备份,以及对于读操作的负载均衡和简单的故障恢复。
- 缺陷:故障恢复无法自动化;写操作无法负载均衡;存储能力受到单机的限制。
- 哨兵:在主从复制的基础上,哨兵实现了自动化的故障恢复。
- 缺陷:写操作无法负载均衡;存储能力受到单机的限制;哨兵无法对从节点进行自动故障转移,在读写分离场景下,从节点故障会导致读服务不可用,需要对从节点做额外的监控、切换操作。
- 集群:通过集群,Redis解决了写操作无法负载均衡,以及存储能力受到单机限制的问题,实现了较为完善的高可用方案。
一. Redis 主从复制
1. 介绍
主从复制,是指将一台Redis服务器的数据,复制到其他的Redis服务器。前者称为主节点(Master),后者称为从节点(Slave);数据的复制是单向的,只能由主节点到从节点。
默认情况下,每台Redis服务器都是主节点;且一个主节点可以有多个从节点(或没有从节点),但一个从节点只能有一个主节点。
2. 作用
- 数据冗余:主从复制实现了数据的热备份,是持久化之外的一种数据冗余方式。
- 故障恢复:当主节点出现问题时,可以由从节点提供服务,实现快速的故障恢复;实际上是一种服务的冗余。
- 负载均衡:在主从复制的基础上,配合读写分离,可以由主节点提供写服务,由从节点提供读服务(即写Redis数据时应用连接主节点,读Redis数据时应用连接从节点),分担服务器负载;尤其是在写少读多的场景下,通过多个从节点分担读负载,可以大大提高Redis服务器的并发量。
- 高可用基石:除了上述作用以外,主从复制还是哨兵和集群能够实施的基础,因此说主从复制是Redis高可用的基础。
3. 流程
(1)若启动一个 Slave 机器进程,则它会向 Master 机器发送一个“sync command”命令,请求同步连接。
(2)无论是第一次连接还是重新连接,Master 机器都会启动一个后台进程,将数据快照保存到数据文件中(执行rdb操作),同时 Master 还会记录修改数据的所有命令并缓存在数据文件中。
(3)后台进程完成缓存操作之后,Master 机器就会向 Slave 机器发送数据文件,Slave 端机器将数据文件保存到硬盘上,然后将其加载到内存中,接着 Master 机器就会将修改数据的所有操作一并发送给 Slave 端机器。若 Slave 出现故障导致宕机,则恢复正常后会自动重新连接。
(4)Master 机器收到 Slave 端机器的连接后,将其完整的数据文件发送给 Slave 端机器,如果Master 同时收到多个Slave发来的同步请求,则 Master 会在后台启动一个进程以保存数据文件,然后将其发送给所有的 Slave 端机器,确保所有的 Slave 端机器都正常。
4. 搭建 Redis 主从复制
实验准备:
Master节点:192.168.44.60
Slave1节点:192.168.44.50
Slave2节点:192.168.44.40
安装redis
先关闭防火墙和核心防护
改名方便区分
编译安装 Redis
yum install -y gcc gcc-c++ make
tar zxvf redis-5.0.7.tar.gz
cd /opt/redis-5.0.7/
make
make PREFIX=/usr/local/redis install
cd /opt/redis-5.0.7/utils
./install_server.sh
修改 master 的Redis配置文件
vim /etc/redis/6379.conf redis.conf
bind 0.0.0.0 #70行,修改监听地址为0.0.0.0
daemonize yes #137行,开启守护进程
logfile /var/log/redis_6379.log #172行,指定日志文件目录
dir /var/lib/redis/6379 #264行,指定工作目录
appendonly yes #700行,开启AOF持久化功能
修改完之后重启服务
修改 slave 的Redis配置文件
vim /etc/redis/6379.conf
bind 0.0.0.0 #70行,修改监听地址为0.0.0.0
daemonize yes #137行,开启守护进程
logfile /var/log/redis_6379.log #172行,指定日志文件目录
dir /var/lib/redis/6379 #264行,指定工作目录
replicaof 192.168.10.23 6379 #288行,指定要同步的Master节点IP和端口
appendonly yes #700行,开启AOF持久化功能
验证主从效果
主:
去从里面看看
主从复制成功
二. Redis 哨兵模式
1. 介绍
主从切换技术的方法是:当服务器宕机后,需要手动一台从机切换为主机,这需要人工干预,不仅费时费力而且还会造成一段时间内服务不可用。为了解决主从复制的缺点,就有了哨兵机制。
哨兵的核心功能:在主从复制的基础上,哨兵引入了主节点的自动故障转移。
哨兵模式的组成:
- 哨兵节点: 哨兵系统由一个或多个哨兵节点组成,哨兵节点是特殊的redis节点,不存储数据。
- 数据节点: 主节点和从节点都是数据节点。
2. 原理
哨兵(sentinel):是一个分布式系统,用于对主从结构中的每台服务器进行监控,当出现故障时通过投票机制选择新的 Master 并将所有 slave 连接到新的 Master。所以整个运行哨兵的集群的数量不得少于3个节点。
3. 哨兵模式的作用
- 监控:哨兵会不断地检查主节点和从节点是否运作正常。
- 自动故障转移:当主节点不能正常工作时,哨兵会开始自动故障转移操作,它会将失效主节点的其中一个从节点升级为新的主节点,并让其它从节点改为复制新的主节点。
- 通知(提醒):哨兵可以将故障转移的结果发送给客户端
注意:
在部署Redis哨兵集群时,推荐将哨兵节点部署在独立的主机或虚拟机上,这样可以避免由于主机故障导致哨兵失效的情况发生,更好地确保整个Redis系统的高可用性。
4. 工作流程
1. 哨兵对主从复制集群进行监控,监控对象“所有redis数据节点”
2. 哨兵与哨兵之间进行相互监控,监控的对象:哨兵彼此
3. 监控目的
3.1 哨兵与哨兵之间的监控目的:检测彼此的存活状态
3.2 哨兵监控所有的redis数据库的目的:为了实现故障自动故障切换
故障切换原理
① 当master 挂掉,哨兵会及时发现,发现之后,进行投票机制,选举出一个新的master服务器(一定是奇数)
② 完成salve ---> master的从向主进行切换
③ 完成其他的从服务器对新的master配置
4.1 故障转移机制
① 由哨兵节点定期监控发现主节点是否出现了故障
每个哨兵节点每隔1秒会向主节点、从节点及其它哨兵节点发送一次ping命令做一次心跳检测。如果主节点在一定时间范围内不回复或者是回复一个错误消息,那么这个哨兵就会认为这个主节点主观下线了(单方面的)。当超过半数哨兵节点认为该主节点主观下线了,这样就客观下线了。
② 当主节点出现故障,此时哨兵节点会通过Raft算法(选举算法)实现选举机制共同选举出一个哨兵节点为leader,来负责处理主节点的故障转移和通知。所以整个运行哨兵的集群的数量不得少于3个节点。
③ 由leader哨兵节点执行故障转移,过程如下:
- 将某一个从节点升级为新的主节点,让其它从节点指向新的主节点;
- 若原主节点恢复也变成从节点,并指向新的主节点;
- 通知客户端主节点已经更换。
需要特别注意的是,客观下线是主节点才有的概念;如果从节点和哨兵节点发生故障,被哨兵主观下线后,不会再有后续的客观下线和故障转移操作。
4.2 主节点的选举
- 过滤掉不健康的(已下线的),没有回复哨兵 ping 响应的从节点。
- 选择配置文件中从节点优先级配置最高的。(replica-priority,默认值为100)
- 选择复制偏移量最大,也就是复制最完整的从节点。
5. 搭建Redis哨兵模式
哨兵的启动依赖于主从模式,所以须把主从模式安装好的情况下再去做哨兵模式
实验准备:
Master节点:192.168.44.60
Slave1节点:192.168.44.50
Slave2节点:192.168.44.40
修改哨兵模式的配置文件(所有节点操作)
vim /opt/redis-5.0.7/sentinel.conf
protected-mode no #17行,关闭保护模式
port 26379 #21行,Redis哨兵默认的监听端口
daemonize yes #26行,指定sentinel为后台启动
logfile "/var/log/sentinel.log" #36行,指定日志存放路径
dir "/var/lib/redis/6379" #65行,指定数据库存放路径
sentinel monitor mymaster 192.168.44.60 6379 2 #84行,修改 指定该哨兵节点监控192.168.44.60:6379这个主节点,
该主节点的名称是mymaster,最后的2的含义与主节点的故障判定有关:
至少需要2个哨兵节点同意,才能判定主节点故障并进行故障转移
sentinel down-after-milliseconds mymaster 30000 #113行,判定服务器down掉的时间周期,默认30000毫秒(30秒)
sentinel failover-timeout mymaster 180000 #146行,故障节点的最大超时时间为180000(180秒)
先启动master,在启动slave
cd /opt/redis-5.0.7/
redis-sentinel sentinel.conf &
查看哨兵信息
redis-cli -p 26379 info sentinel
故障模拟:
杀死 Master 节点上redis-server的进程号
检测方式一:
这段日志来自于Redis Sentinel节点(编号56804),记录了一次Redis主节点故障检测与自动故障转移的过程:
56804:X 03 Apr 2024 16:52:25.978 # +sdown master mymaster 192.168.44.60 6379
Sentinel节点检测到名为mymaster的主节点(IP地址192.168.44.60,端口6379)处于主观下线(Subjectively Down,sdown)状态,即Sentinel自身认为主节点不可达。
56804:X 03 Apr 2024 16:52:26.004 # +new-epoch 1
Sentinel进入一个新的纪元(epoch),这是一个内部版本号,用于协调故障转移时的决策。
56804:X 03 Apr 2024 16:52:26.006 # +vote-for-leader 3eb68db436bf63803327049b916fc756dabed360 1
Sentinel节点投票选举ID为3eb68db436bf63803327049b916fc756dabed360的Sentinel为领导者进行故障转移操作。
56804:X 03 Apr 2024 16:52:26.042 # +odown master mymaster 192.168.44.60 6379 #quorum 3/2
主节点被标记为客观下线(Objectively Down,odown),这是因为至少有三个Sentinel(quorum)同意主节点不可达。
56804:X 03 Apr 2024 16:52:26.042 # Next failover delay: I will not start a failover before Wed Apr 3 16:58:26 2024
Sentinel决定延迟故障转移操作,不会在指定时间之前触发failover。
56804:X 03 Apr 2024 16:52:26.513 # +config-update-from sentinel 3eb68db436bf63803327049b916fc756dabed360 192.168.44.40 26379 @ mymaster 192.168.44.60 6379
Sentinel接收到领导者的配置更新,原主节点已被确定下线。
56804:X 03 Apr 2024 16:52:26.513 # +switch-master mymaster 192.168.44.60 6379 192.168.44.40 6379
完成故障转移,原主节点(192.168.44.60:6379)更换为新的主节点(192.168.44.40:6379)。
56804:X 03 Apr 2024 16:52:26.513 * +slave slave 192.168.44.50:6379 192.168.44.50 6379 @ mymaster 192.168.44.40 6379
Sentinel识别到现有从节点(192.168.44.50:6379)已开始跟随新的主节点(192.168.44.40:6379)。
56804:X 03 Apr 2024 16:52:26.513 * +slave slave 192.168.44.60:6379 192.168.44.60 6379 @ mymaster 192.168.44.40 6379
旧主节点(192.168.44.60:6379)也被重新配置为从节点,并开始追随新的主节点。
56804:X 03 Apr 2024 16:52:56.562 # +sdown slave 192.168.44.60:6379 192.168.44.60 6379 @ mymaster 192.168.44.40 6379
在故障转移之后,Sentinel再次报告旧主节点(现为从节点)192.168.44.60:6379主观下线,意味着它在此刻又被Sentinel监测为不可达。
总结来说,上述日志描述了一个Redis Sentinel集群监测到主节点故障、发起投票、达成共识后自动进行故障转移、并重新配置从节点的过程。在故障转移之后,原来的一个从节点(现已成为新的主节点)继续提供服务,而旧主节点则暂时失去了联系。
检测方式二:
查看哨兵信息
总结:
主从复制总结
redis主从复制 是为了数据冗余和读写分离
在这两种模式中,有两种角色主节点(master)和从节点(slave),主节点负责处理写的操作,并将数据更改复制到一个或多个从节点。
这样我们的主节点负载减轻,从节点可以提供数据读取服务,实现读写分离,如果主节点停止服务,从节点之一可以立即接管主节点的角色,再继续提供服务
具体流程如下:
1、从节点启动成功连接主节点后,发送一个sync命令
2、主节点接受到sync的命令后开始在后台保存快照,同时,它也开始记录接收到rsnc后所有执行写的命令,快照完成后会将这个快照文件发送给从节点。
3、从节点收到快照文件之后开始载入,并持续接受主节点发送过来的新的写命令执行
总的来说 通过主从复制,redis 能够实现数据的备份(master 产生的数据能slave备份),负责均衡(读操作可以分摊到slave上去)和高可用(master宕机后,可以由slave进行故障切换)
redis 哨兵机制
哨兵是一个高可用的行解决方案 官方认可 默认模式
1、监控:redis 哨兵 会持续监控master和slave实例是否正常运行
2、通知:如某个redis实例有问题,哨兵可以通过API向管理员或者其他应用发信通知
3、自动故障转移:如果master节点不工作,哨兵会开始故障转移的过程,选择一个slave节点晋升为新的master,其他剩余slave的节点会被重新配置为信的master节点的slave
4、配置提供服务:客户端可以使用哨兵来查询被认证的master节点该master节点的目录所有的slave节点
redis 哨兵是一个用于管理多个reids服务的系统,它提供监控、通知、自动故障转移、配置提供服务的功能,以实现redis高可用性