首页 > 其他分享 >详解一致性哈希

详解一致性哈希

时间:2023-03-06 09:13:22浏览次数:41  
标签:环上 虚拟 哈希 一致性 数据 节点 详解

在单机系统中,所有的数据都存储在同一个服务器下,当数据量越来越多的时候,超过了单机存储容量的上限,就需要使用分布式存储系统,在分布式存储系统重,数据会被拆分到不同的存储服务下,减少单机服务的压力。

哈希算法

在分布式系统中,每个节点存储的数据都是不同的。通过使用分布式存储,将数据水平拆分到不同的节点上,新的数据也会分配到新的节点上,比如使用取模方式分配节点,先用hash算法算出hash值,然后使用hash/N,N是节点数,比如三个节点。

  • 取模值=0,分配节点1
  • 取模值=1,分配节点2
  • 取模值=2,分配节点3

如果节点数量是固定的,数据分配方式是固定的,获取数据的方式也是固定,数据也能正常的获取。

如果节点数量发生了变化,新增或者减少节点时,比如新增节点4,原来分配到节点1的数据被分配到节点4,原来的数据映射都无效,数据也无法正常获取了。这就需要使用到一致性哈希算法

一致性哈希

一致性哈希,从名字就能看出来,该算法符合一致性原则,当服务节点数量增加或减少,数据还能正常获取到。那一致性哈希有什么神奇的地方呢?先介绍什么是一致性哈希:

上面是一个哈希环,环上有2^32个节点。和上面取模算法一样,一致性哈希算法也是取模算法,不同的是一致哈希算法是对2^32个节点取模运算,哈希环的节点是固定的,取模运算结果值也是固定的。

  • 数据先进行哈希运算,获取哈希值。
  • 对哈希值对2^32取模运算。

取模后的值一定是在哈希环上。那是如何找到存储的节点呢?答案在环上往顺时针方向找到第一个节点

比如哈希环上,有三个节点,分别是节点1节点2节点3,平均分布在哈希环上:

新增一个数据,先算出来哈希值,确定该数据在哈希环上的位置,然后从这个位置顺时针方向找到第一个节点,就是存储数据的节点。

比如下图中数据key-01,先算出该数据在哈希环的位置,往顺时针方向找到第一个节点,也就是节点1,同理key-02key-03顺时针分别找到节点2节点3

增减节点

增加一个节点之后,比如新增加一个节点4,经过哈希计算获取节点的位置:

可以看到,此时key-01key-03数据不受影响,key-02存储的节点从节点2迁移到了节点4

那减少一个节点,移除节点1:

此时key-02key-03数据不受影响,只有key-01被迁移到节点2

在一致性哈希上,增加或减少节点,影响的节点从新节点逆时针方向到上一个节点的数据。

对服务器节点扩容或者缩容,影响的数据只占整体数据一小部分,对整体系统的影响不大,对于数据准确性要求多的数据则不适用一致性哈希。

数据倾斜

上面数据是均匀的分布在哈希环上,每个节点的存储压力都比较均衡,但是一致性哈希并不能保证数据会平均的分布在各个节点上,当大量的数据都分布在同一个节点上,如下图所示,大量的节点都分布在节点3上:

此时请求访问数据主要是集中在节点3上,而环上的节点服务器配置基本是一致的,不会因为某个服务器压力大,就单独加大某个服务器的配置。节点3数据存储和访问量是其他节点的几倍以上,当请求压力超过了服务处理的上限后,就会导致节点3崩溃,节点3挂了之后,全部数据压力都会转移到节点1,节点1也会宕机,最后形成雪崩。

数据倾斜解决

为了解决数据倾斜问题,一致性哈希算法引入了虚拟节点,一个节点对应多个虚拟节点,上面三个真实节点,每个节点引入3个虚拟节点:

  • 节点1引入三个虚拟节点:1A、1B、1C
  • 节点2引入三个虚拟节点:2A、2B、2C
  • 节点3引入三个虚拟节点:3A、3B、3C

引入虚拟节点之后,环上一共有9个节点:

节点数量多了之后,数据在哈希环上的分布就更加均匀了,就不容易出现上面数据倾斜的问题,当有数据存储到1A虚拟节点,在通过1A虚拟节点就能找到真实节点节点1了。

在实际应用中,虚拟节点的数量远大于上面虚拟节点数量。虚拟节点越多,对应的数据分布就更加的均匀。比如Nginx的一致性哈希算法中的虚拟节点就有160个。

虚拟节点除了使数据分布更加均衡之外,也会极大的提高数据的稳定性,当节点的数量变化时,会有不同的节点分担数据的请求压力,而不会像上面一样,当一个节点挂了,数据全都转到另一个节点上,导致雪崩发生。

总结

  • 常见的哈希算法,先计算出哈希值,再根据服务数量取模(hash%N),将数据存储到固定的服务器下。
    • 当节点增加或者减少,N发生了变化,原来hash%N方式都失效了,数据也无法正常的获取了。
  • 一致性哈希算法就是为了解决节点数量发生变化时,数据一致性的问题。
    • 在一个环上有2^32节点,新增一个数据,先算出来哈希值,然后取模,算出来在环上的位置,往顺时针找到第一个服务节点,就是存储的服务节点。
    • 如果添加或者减少服务,比如服务挂了,或者服务扩容了。只是影响从新的服务节点逆时针方向摘到的第一个服务节点,其他数据不受影响。
  • 哈希环数据分布不均匀时,出现数据倾斜,就需要引入虚拟节点,一个服务节点对应多个虚拟节点,访问数据请求到虚拟节点,再找到对应的真实服务节点。虚拟节点越多,数据的分布就越均衡。同时,新增或者减少节点,会有不同的服务节点分摊压力,使服务更加稳定。

标签:环上,虚拟,哈希,一致性,数据,节点,详解
From: https://www.cnblogs.com/jeremylai7/p/17182577.html

相关文章

  • Vue过滤器的使用详解(代码实现)
    过滤器的功能是对要显示的数据进行格式化后再显示,其并没有改变原本的数据,只是产生新的对应的数据 过滤器,其实不是必须要用的东西,它只是vue给我们提供的新的数据处理方式......
  • Java基础随笔(2)static静态详解
    1packagecom.chapter;23classBowl{4Bowl(intmarker){5System.out.println("Bowl+("+marker+")");6}78voidf1(int......
  • 07-Redis系列之-双写一致性,缓存详解和优化点
    双写一致性redis和mysql数据同步方案先更新数据库,再更新缓存(一般不用)先删缓存,再更新数据库(在存数据的时候,请求来了,缓存不是最新的,一般也不用)先更新数据库,再删缓存(请求......
  • Kubernetes(k8s)权限管理RBAC详解
    一、简介kubernetes集群相关所有的交互都通过apiserver来完成,对于这样集中式管理的系统来说,权限管理尤其重要,在1.5版的时候引入了RBAC(RoleBaseAccessControl)的权限......
  • 03-Redis系列之-高级用法详解
    慢查询生命周期我们配置一个时间,如果查询时间超过了我们设置的时间,我们就认为这是一个慢查询.慢查询发生在第三阶段客户端超时不一定慢查询,但慢查询是客户端超时的一个......
  • TextView(文本框)详解
    从本节开始我们来一个个讲解Android中的UI控件,本节给大家带来的UI控件是:TextView(文本框),用于显示文本的一个控件,另外声明一点,我不是翻译API文档,不会一个个属性的去扣,只学实......
  • 【基数排序算法详解】Java/Go/Python/JS/C不同语言实现
    说明基数排序(RadixSort)是一种非比较型整数排序算法,其原理是将整数按位数切割成不同的数字,然后按每个位数分别比较。由于整数也可以表达字符串(比如名字或日期)和特定格式的......
  • 基于AHB-APB BUS slave详解
    基于AHB-APBBUSslave详解1.目录高内聚:让模块的功能更集中,更单一。AMBA总线例子,需要有一个模块和AMBA进行交互,就可以单独将其作为一个模块。轻耦合,两个模块之间的交......
  • Python 字符串详解
    Python访问字符串中的值:Python访问子字符串,可以使用方括号来截取字符串,如下实例:#!/usr/bin/python#coding:UFT-8var1='HelloWorld!'var2="PythonRunoob"print"var......
  • Python 文件处理方法详解
    打开和关闭文件:open函数:打开一个文件,创建一个file对象,相关的方法才可以调用它进行读写。语法:fileobject=open(file_name[,access_mode][,buffering])#各个参数的细节......