目录
分布式锁
分布式锁是什么?
分布式锁是一种跨进程,跨机器节点的互斥锁。保证多机器节点对于共享资源的排他性。线程锁的生命周期是单进程多线程,分布式锁的生命周期是多进程多机器节点。
重要特性:
1.排他性,同一时间只有一个节点能访问共享资源。
2.可重入性,允许一个已经获得锁的进程,在没有释放锁之前重新获得锁。
3.锁的获取和释放方法
4.锁的失效机制,避免死锁问题。
满足这些条件的组件都可以实现分布式锁。
分布式锁的实现
1.关系型数据库:使用唯一性约束实现锁的排他性,如果要针对某个方法加锁,可以创建一个表包含方法名称字段,并且把方法名设置称唯一的约束。抢占锁的逻辑是,往表里插入一条数据,如果已经有其他线程获得了某个方法的锁,这时插入数据就会失败,这样就保证了互斥性,优点:实现简单,缺点:实现比较完善的分布式锁,还需要可重入性,锁的失效机制,没有获得锁的线程实现阻塞就会比较麻烦。
2.Redis,使用setnx命令实现锁,如果Key不存在就返回1,存在返回0,使用expire命令设置锁的失效时间,避免死锁问题。锁过期但业务逻辑没有执行完成,这种情况使用定时任务给指定Key进行续期。
redisson组件提供分布式锁的实现,内置了watch dog机制对锁进行续期。
如果在Redis搭建高可用集群的情况下出现主从切换导致Key失效,可能造成多个线程抢占到同一个锁资源的情况,使用redLock解决。
3.分布式锁应该是一个CP模型,而Redis是一个ap模型,所以在集群架构下,由于数据一致性问题导致极端情况下出现多个线程抢占到锁的情况,基于CP模型实现分布式锁,使用zookeeper。
4.在数据一致性方面,zookeeper用到了zab协议保证数据一致性,etcd使用raft算法保证数据一致性。
5.锁的互斥性,zookeeper使用基于有序节点和watch机制实现互斥和唤醒,etcd使用prefix机制和watch实现互斥和唤醒。
实现分布式锁,zookeeper和Redis哪个好
使用分布式锁的目的是保证同一个时间只有一个进程可以对共享资源进行操作。
用途分类,
允许多个客户端操作共享资源,共享锁。使用场景共享资源具有幂等性,可以避免重复操作对共享资源频繁加锁带来的性能开销。
只允许一个客户端操作共享资源,独占锁。使用场景共享资源具有非幂等,保证同一时间只有一个进程或线程访问资源。
实现方式,
基于Redis,使用set Key value nx px miliseconds 指令,这个指令设置一个键值对,如果Key存在,返回0,否则返回1,通过返回值判断锁的占用情况,实现分布式锁。
使用 redission 组件,提供了分布式锁的封装方法,我们只需要调用api里Lock,unlock方法,Redission所有指令通过lua脚本执行,并支持lua脚本原子执行,redission,watch dog 机制,在获取锁之后,每隔10秒把Key超时时间设置为30s,解决锁过期问题,保证没有死锁发生。
基于zookeeper,
1.每个线程或进程在zookeeper的Lock目录下创建一个临时有序节点,表示抢占锁,所有创建的节点会按照先后顺序生成一个有序编号的节点。
2.线程创建节点后,获取Lock节点下的所有子节点,判断当前线程创建的节点是不是所有节点中序号最小。
3.如果是,则获取锁成功。
4.否则,对节点序号的前一个节点添加一个监听事件,当前一个节点释放锁之后,触发回调通知,从而再次尝试获得锁。
优缺点,
Redis,1.获取锁的方式简单,如果获取不到,不断尝试获取,比较影响性能。
2.Redis是ap模型,在集群模式下由于数据一致性问题导致锁出现问题,即使使用redlock算法实现,在某些场景下也不能保证百分之百的可靠性。
实际开发里常使用Redis实现分布式锁,他性能高,高并发场景使用。
zookeeper,1.设计定位就是分布式协调,强一致性。锁的模型健壮,简单易用,适合做分布式锁。
2.如果获取不到锁,则需要添加一个监听器,不需要一直轮询,性能影响小。cp模型。
幂等问题
一个方法多次执行的结果和第一次执行的结果保存一致。
为什么考虑幂等问题?
在网络通信里,存在接口重复调用问题,1.用户请求重复提交2.在分布式系统里,避免数据丢失,采用的超时重试机制。
所以对于数据变更类接口,需要保证接口的幂等性,幂等性的核心思想是保证这个接口的执行结果只影响一次,后续再次调用不会对数据产生影响。
怎么解决幂等?
使用数据的唯一约束实现。例如数据插入场景,场景订单,因为订单编号是唯一,多次调用就会触发数据库唯一约束异常,避免一个请求创建多个订单的问题。
使用Redis的setnx命令,例如mq消费场景,为了避免mq数据重复消费导致数据多次被修改的问题,可以在收到mq消息时候,把这个消息通过setnx写入Redis,一旦这个信息被消费过,就不会再次被消费。
使用状态机实现,状态机是一条数据完整运行状态的转换流程。因为他的状态只能向前变更,当多次修改同一条数据的时候,一旦状态发生变化,那么对数据的修改只造成一次影响。
其他方法,token机制,增加去重表
一致性hash算法
在分布式环境下,hash表里可能存在的动态扩容和缩容问题。
为什么使用一致性hash算法?
在hash表里我们使用键值对存储数据,当数据量比较大的时候,我们把数据存储到多个节点上,然后通过hash取模的方式决定将当前Key存储到那个节点上。当存储节点增加和减少时,映射关系会发生变化,也就需要对所有数据按照新的节点数量重新映射一遍,这样涉及大量的数据迁移和重新映射,代价很大。
一致性hash算法用来优化这种动态变化场景的算法。
工作原理:通过一个hash环的数据结构实现。这个环的起点是0,终点是2的32次方-1,
环的数据分布范围是【0~232-1】。我们把存储节点的IP地址作为Key进行hash运算,在环上确定一个位置,然后把需要存储的目标Key使用hash算法后得到一个hash值,同样也会落地环的某个位置上,然后这个目标Key会按照顺时间方向找一个离自己最近的节点进行存储。
一致性hash算法与普通hash算法比好在哪里?
假设需要增加一个新节点node4,那么数据映射关系的影响范围只限于node3,1,只有少部分数据需要重新映射迁移。如果节点1因为故障下线了,那么只需要把节点1上的数据重新分配到节点2上面即可,这样对数据响应范围就小。所以一致性hash算法的扩展性强,在增加和减少服务器节点的时候,数据迁移的范围小。为了避免hash倾斜导致数据分布不均匀的情况,使用虚拟节点的方式解决。
应用,dubbo基于hash的负载均衡,分库分表设计时的取模运算。
分布式ID设计
分布式全局ID的特点,
1.有序性,有序的ID能够更好的确认数据的位置,以及在B+树存储结构里,范围查询的效率更高,并且可以提升数据的维护效率。
2.安全性,避免恶意爬取数据造成数据泄漏
3.可用性,ID生成系统对可用性要求高,一旦出现故障会造成业务不可以用的问题
4.性能,需要满足整个公司的业务需求,涉及亿级别的调用,对性能要求高。
5.实现,基于Twitter开源的雪花算法实现,他是由64位长度组成的全局ID生成算法,通过对64位数值进行区位划分来表示不同含义实现唯一性。
好处:1,算法实现简单。
2.不存在太多外部依赖。
3.可以生成用意义的有序编号。
4.基于位运算性能好,Twitter测试峰值是10万个每秒。
雪花算法
由Twitter开源的分布式ID生成算法,主要应用于分库分表场景的全局ID作为业务主键或者生成唯一订单号。
为什么叫雪花算法?
一般雪花大小大约由10的19次方三个水分子组成。在雪花形成的过程里会形成不同的分支,所以大自然里不存在2个完全相同的雪花,每一片雪花都有自己独特的形状。那么雪花算法的含义是生成的ID像雪花一样独一无二。
特点,
1.唯一性
2.单调递增,保证下一个ID号一定大于上一个
3.保证安全:满足无规律性,防止根据ID号猜出业务数据信息,增加恶意爬取数据的难度
4.含时间戳:记录系统时间
5.高可用:发布一个获得分布式ID的请求,服务器至少保证99.99%可以创建一个全局的唯一的分布式ID
6.低延迟,高QPS
组成,
雪花算法生成一个由64个bit位组成的long类型的数字分为4个部分:
1.1个比特的符号位,一般是0
2.用41个比特表示系统时间戳,记录系统时间的毫秒数。2的41次方-1
3.10比特工作机器的ID,保证多个服务器上生成ID的唯一性。2的10次方
4.12个位表示递增序列,用来记录同一毫秒内产生不同ID的能力。2的12次方-1
雪花算法根据这4个部分的规则组成,生成对应位的数据,然后组装成一个全局ID
优点,分布式系统内不会产生ID碰撞,效率高。不需要依赖数据库等第三方系统,稳定性高,可以根据自身业务分配比特位,非常灵活。生成ID的性能高,每秒可以生成26万个自增可排序的ID。
缺点,依赖机器时钟,如果机器时钟回拨,可能导致ID重复,分布式环境下,每天机器的时钟不可能完全同步,有时会出现不是完全递增的情况。
分布式事务
spring事务和分布式事务
spring提供了对数据库事务的封装,提供了声明式事务配置,使得开发人员从复杂的事务处理里得到解脱,我们不必关心连接获取,连接关闭,事务提交,事务回滚这些操作,把精力聚焦在业务开发层面。所以spring的事务是数据库层面的事务,这个事务管理是针对单个数据库里面多个表操作的,满足事务的acid特性。
分布式事务用于解决多个数据库的事务操作里的数据一致性问题,传统数据库不支持跨数据库操作,所以需要分布式事务解决方案。例如,seata集成到spring生态里解决分布式事务问题。
分布式事务解决方案
分布式事务是事务的参与者和支持事务的服务器,资源服务器,事务管理服务器,分别位于分布式系统的不同节点上,需要保证不同节点的数据的一致性。例如,大型电商系统里的下单场景,会涉及扣库存,折扣计算,订单ID生成等服务,这些服务位于不同服务器和数据库里,那么下单是否成功,不仅取决于本地节点的数据库操作,还需要依赖其他服务的执行结果,这时分布式事务需要保证这些操作全部成功或全部失败。因此分布式事务保证不同数据库里的数据的一致性。
根据acp定理和base理论,我们知道,要么采用强一致性方案,要么采用弱一致性方案,也叫最终一致性方案。
强一致性方案,通过第三方事务管理器来协调多个节点的事物,保证每个一个节点的事物到达同时成功或者同时失败。使用x/open dtp 模型提供xa协议,基于二阶段提交或三阶段提交的方式实现。但是如果全局事务管理器里的任意一个节点在进行事务提交的时候,由于网络通信延迟导致了阻塞,就会影响所有节点的事物提交,而且会影响到用户请求线程,这样对用户体验和整体性能影响很大。
弱一致性,在性能和数据一致性取得平衡的方案,他损失了强一致性,数据在某一个时刻存在不一致的状态,但是最终这些数据到达一致,好处是提高了性能。
常见方案,
1.分布式消息队列实现最终一致性
2.tcc事务,通过演进版本的二阶段提交实现最终一致性
3.使用seata事务框架。
seata
在微服务架构下,由于数据库和应用服务的拆分,导致一个事务里的多个dml操作变成了跨进程或跨多个数据库的多个事务单元的多个dml操作,传统的数据库事务不能解决这个问题,所以出现分布式事务的概念。
cap定理,consistency一致性,availability可用性,partition tolerance 分区容错性,我们知道,在分布式事务里,强一致性方案对于应用的性能和可用性造成影响,所以对于数据一致性要求不高的场景,使用弱一致性方案。
分布式事务实现上,对于强一致性,通过xa协议下的二阶段提交来实现,对于弱一致性,基于tcc事务模型,可靠性消息模型方案来实现。
seata是阿里开源分布式事务解决方案,提供高性能,简单易用的分布式事务。一站式分布式事务解决方案。
seata事务模式
at,基于本地事务加二阶段协议来实现最终数据的一致性。默认方案。
tcc,try,confirm,cancel 三个单词的缩写,简单理解把一个完整的业务逻辑拆分成三个阶段,然后通过事务管理器在业务逻辑层面根据每个分支事务的执行情况分别调用该业务的confirm或cancel方法。
saga,长事务解决方案,业务流程里每个参与者都提交本地事务,如果出现一个参与者失败,则补偿前面已经成功的参与者。
xa,强一致性事务,利用事务资源对xa协议的支持,以xa协议的机制来管理分支事务的一种事务模式。
tcc的悬挂问题
tcc把一个事务拆分成2个阶段,类似于传统的xa事务模型
1.try阶段实现业务检查,预留必要的业务资源
2.confirm阶段真正执行业务逻辑,只需要使用try阶段预留的业务进行处理。
cancel阶段,如果事务执行失败,就通过cancel方法释放try阶段预留的业务资源。
在tcc事务模式下,通过一个事务协调器来管理多个事务,每个事务先执行try方法。当所有事物参与者的try方法执行完后,就执行confirm方法完成真正的逻辑的执行,一旦任意一个事务的参与者出现异常,就通过cancel接口触发事务回滚,释放try阶段占用的资源。当然这是一个最终一致性方案,因此try执行成功后,必须保证confirm执行成功。try执行失败时,必须保证cancel释放资源。
悬挂问题,tcc执行try接口出现网络延迟,使得tcc触发cancel接口回滚,但可能在回滚之后,这个超时的try接口才被真正执行,导致了cancel接口比try接口先执行,从而造成try接口预留的资源无法释放,这就出现悬挂。
如果解决:只需要保证cancel接口执行完之后,不允许try接口再执行。我们可以在try接口里面,先判断cancel接口有没有执行过,如果有就不在执行。是否执行过这个判断,在事务控制表里插入一条事务控制记录标记这个事务的回滚状态,然后在try接口里读取这个状态判断就行了。
标签:事务,hash,ID,一致性,节点,分布式 From: https://blog.csdn.net/z524635690/article/details/144645806