首页 > 其他分享 >什么是一致性哈希?一致性哈希是如何工作的?如何设计一致性哈希?

什么是一致性哈希?一致性哈希是如何工作的?如何设计一致性哈希?

时间:2023-05-28 20:37:31浏览次数:45  
标签:环上 server 如何 哈希 一致性 服务器 节点

如果你有 n 个缓存服务器,一个常见的负载均衡方式是使用以下的哈希方法:

服务器索引 = 哈希(键) % N,其中 N 是服务器池的大小。

让我们通过一个例子来说明这是如何工作的。如表5-1所示,我们有4台服务器和8个字符串键及其哈希值。

image-20230520221609818

为了获取存储某个键的服务器,我们执行模运算 f(键) % 4。例如,哈希(键0) % 4 = 1 意味着客户端必须联系服务器1来获取缓存的数据。图5-1展示了基于表5-1的键的分布。

image-20230520221627093

AI不会取代你,使用AI的人会。欢迎关注我的公众号:更AI。以程序员的视角来看AI能带给我们什么~

当服务器池的大小固定且数据分布均匀时,这种方法工作得很好。然而,当新的服务器被添加,或者现有的服务器被移除时,就会出现问题。例如,如果服务器1离线,服务器池的大小就变成了3。使用相同的哈希函数,我们得到的键的哈希值是相同的。但是应用模运算会因为服务器数量减少了1而得到不同的服务器索引。我们应用 哈希 % 3 得到的结果如表5-2所示:

image-20230520221638743

图5-2展示了基于表5-2的新键分布。

image-20230520221651912

如图5-2所示,大多数键都被重新分配了,而不仅仅是那些最初存储在离线服务器(服务器1)中的键。这意味着,当服务器1离线时,大多数缓存客户端将连接到错误的服务器来获取数据。这导致了一场缓存未命中的风暴。一致性哈希是一种有效的技术来缓解这个问题。

一致性哈希

引用自维基百科:"一致性哈希是一种特殊的哈希,使得当哈希表大小改变且使用一致性哈希时,平均只有 k/n 个键需要被重新映射,其中 k 是键的数量,n 是槽位的数量。相比之下,在大多数传统哈希表中,数组槽位数量的变化导致几乎所有的键都需要被重新映射[1]”。

哈希空间和哈希环

现在我们理解了一致性哈希的定义,让我们了解它是如何工作的。假设使用SHA-1作为哈希函数f,哈希函数的输出范围是:x0, x1, x2, x3, ..., xn。在密码学中,SHA-1的哈希空间从0到2^160 - 1。也就是说,x0 对应0,xn 对应2^160 - 1,所有其他的哈希值都落在0和2^160 - 1之间。图5-3展示了哈希空间。

image-20230520221712073

通过连接两端,我们得到一个如图5-4所示的哈希环:

image-20230520221721241

哈希服务器

使用相同的哈希函数f,我们根据服务器的IP或名字将服务器映射到环上。图5-5显示了4台服务器被映射到哈希环上。

image-20230520221733973

哈希键

值得一提的是,这里使用的哈希函数与“重哈希问题”中的不同,并且没有模运算。如图5-6所示,4个缓存键(key0,key1,key2和key3)被哈希到哈希环上。

image-20230520221804796

服务器查找

为了确定一个键存储在哪个服务器上,我们从环上的键位置顺时针方向进行寻找,直到找到一个服务器。图5-7解释了这个过程。顺时针方向,key 0 存储在 server 0上;key1 存储在 server 1 上;key2 存储在 server 2 上;key3 存储在 server 3 上。

image-20230520221817073

添加服务器

使用上述逻辑,添加新服务器只需要重新分配一部分键。

在图5-8中,新增 server 4 后,只有 key0 需要被重新分配。k1, k2,k3 仍然在相同的服务器上。让我们仔细看看这个逻辑。在 server 4 添加之前,key0 存储在 server 0 上。现在,key0 将存储在 server 4 上,因为 server 4 是它从环上的 key0 位置顺时针方向遇到的第一个服务器。其他的键根据一致性哈希算法不需要重新分配。

image-20230520221838084

移除服务器

当服务器被移除时,只有少部分的键需要通过一致性哈希进行重新分配。在图5-9中,当 server 1 被移除时,只有 key1 必须被映射到 server 2。其余的键不受影响。

image-20230520221851239

基本方法中的两个问题

一致性哈希算法是由MIT的Karger等人提出的[1]。基本步骤如下:

  • 使用均匀分布的哈希函数将服务器和键映射到环上。
  • 要找出键映射到哪个服务器,从键位置开始顺时针方向找到环上的第一个服务器。

这种方法存在两个问题。首先,考虑到服务器可能会被添加或移除,不可能在环上为所有服务器保持相同大小的分区。分区是相邻服务器之间的哈希空间。每个服务器被分配到的环上的分区大小可能非常小或者相当大。在图5-10中,如果s1被移除,s2的分区(双向箭头高亮表示)就是s0s3分区的两倍大。

image-20230520221901282

第二,环上的键分布可能非均匀。例如,如果服务器映射到图5-11中列出的位置,大部分的键都存储在server 2上。然而,server 1server 3 没有任何数据。

image-20230520221911034

一种被称为虚拟节点或副本的技术被用来解决这些问题。

虚拟节点

虚拟节点是指实际节点,每个服务器在环上都由多个虚拟节点表示。在图5-12中,server 0server 1 都有3个虚拟节点。这个3是随意选择的;在实际系统中,虚拟节点的数量要多得多。我们不再使用 s0,而是使用 s0_0, s0_1s0_2 来在环上表示 server 0。同样,s1_0, s1_1s1_2 在环上表示 server 1。有了虚拟节点,每个服务器就负责多个分区。标签为 s0 的分区(边)由 server 0 管理。另一方面,标签为 s1 的分区由 server 1 管理。

image-20230520221923607

要找出一个键存储在哪个服务器上,我们从键的位置顺时针方向去找环上遇到的第一个虚拟节点。在图5-13中,要找出k0存储在哪个服务器上,我们从k0的位置顺时针方向找到虚拟节点s1_1,它指向server 1

image-20230520221943844

随着虚拟节点数量的增加,键的分布变得更加均衡。这是因为随着虚拟节点数量的增加,标准差变得更小,导致数据分布均衡。标准差衡量了数据的分散程度。在线研究的一项实验结果[2]表明,当有一百或两百个虚拟节点时,标准差在均值的5%(200个虚拟节点)到10%(100个虚拟节点)之间。当我们增加虚拟节点数量时,标准差会变小。然而,我们需要更多的空间来存储虚拟节点的数据。这是一个权衡,我们可以调整虚拟节点的数量以适应我们的系统需求。

找到受影响的键

当添加或移除一个服务器时,部分数据需要被重新分布。我们如何找到受影响的范围以重新分配键呢?

在图5-14中,server 4被添加到环中。受影响的范围从s4(新添加的节点)开始,逆时针移动到找到一个服务器(s3)。因此,位于s3s4之间的键需要被重新分配给s4

image-20230520221954742

当一个服务器(s1)如图5-15所示被移除时,受影响的范围从s1(被移除的节点)开始,逆时针绕环移动到找到一个服务器(s0)。因此,位于s0s1之间的键必须被重新分配给s2

image-20230520222004501

总结

在这一章,我们深入讨论了一致性哈希,包括为什么需要它以及它是如何工作的。一致性哈希的好处包括:

  • 当服务器被添加或移除时,最小化键的重新分布。
  • 因为数据更均匀地分布,所以易于横向扩展。
  • 缓解热点键问题。过度访问特定的分片可能导致服务器过载。想象一下,Katy Perry、Justin Bieber和Lady Gaga的数据全部都在同一个分片上。一致性哈希通过更均匀地分布数据来缓解这个问题。

一致性哈希在现实世界的系统中被广泛应用,包括一些著名的系统:

  • Amazon的Dynamo数据库的分区组件 [3]
  • Apache Cassandra中跨集群的数据分区 [4]
  • Discord聊天应用 [5]
  • Akamai内容分发网络 [6]
  • Maglev网络负载均衡器 [7]

恭喜你走到这一步!现在给自己一个赞。干得好!

AI不会取代你,使用AI的人会。欢迎关注我的公众号:更AI。以程序员的视角来看AI能带给我们什么~

参考资料

[1] 一致性哈希:https://en.wikipedia.org/wiki/Consistent_hashing

[2] 一致性哈希:

https://tom-e-white.com/2007/11/consistent-hashing.html

[3] Dynamo:亚马逊的高可用键值存储: https://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf

[4] Cassandra - 一个去中心化的结构化存储系统:

http://www.cs.cornell.edu/Projects/ladis2009/papers/Lakshman-ladis2009.PDF

[5] 如何将Discord Elixir扩展到500万并发用户: https://blog.discord.com/scaling-elixir-f9b8e1e7c29b

[6] CS168:现代算法工具箱第一课:简介和一致性哈希:http://theory.stanford.edu/~tim/s16/l/l1.pdf

[7] Maglev:一个快速可靠的软件网络负载均衡器: https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/44824.pdf

标签:环上,server,如何,哈希,一致性,服务器,节点
From: https://blog.51cto.com/u_16138421/6366002

相关文章

  • 如何使用chatgpt编写代码
    功能列举回答编程问题我想让你充当Stackoverflow的帖子。我将提出与编程有关的问题,你将回答答案是什么。我希望你只回答给定的答案,在没有足够的细节时写出解释。当我需要用英语告诉你一些事情时,我会把文字放在大括号里{XXXXXX}。写代码你现在是一个[程序语言]专家,请帮我用......
  • 【教程】手把手教你如何修改ChatGPT的密码
    申请OpenAI成功后,如何修改OpenAI的密码?OpenAI并没有内置账号安全管理的选项,因此它其实并没有绑定任何手机号的,手机号只是一道机器验证,邮箱也是。所以如果你用邮箱注册了OpenAI的话,后面是无法修改更换邮箱的。下面教你如何修改ChatGPT的密码,手机电脑端均可修改:第一步,打开OpenAI登陆......
  • hashmap怎么解决哈希冲突问题?红黑树和AVL树有何区别?
    链地址法hashmap是一种基于数组和链表(或红黑树)的数据结构,它可以通过hash函数将任意长度的键映射到一个固定长度的索引,从而实现快速的存取操作。但是,由于hash函数的结果是有限的,而键的数量是无限的,所以可能存在不同的键映射到同一个索引的情况,这就叫做哈希冲突。为了解决哈希冲突,has......
  • 新建T1,T2,T3线程,如何保证它们执行的顺序性
    在多线程中有多种方法让线程按特定顺序执行,可以用线程类的join()方法在一个线程中启动另一个线程,另外一个线程完成该线程继续执行。  ......
  • 转载-如何结合FT2232HL/CMSIS-DAP+Eclipse+OpenOCD软硬件工具使用SWD调试接口在Window
    原文链接:https://blog.csdn.net/zhuwade/article/details/121944736由于我们公司自己需要开发烧录工具,本人通过google搜相关文档和看ARM公司的技术文档,终于实现了这个功能。因为涉及的内容知识点比较多,对于玩嵌入式MCU的小白来说要普及的知识,逐个介绍篇幅会比较长,本文中只介绍......
  • 如何将豆瓣观影记录实时同步至博客中
    事情的起因是这样的,前几日在看idealclover大佬的博客,不经意间看到了他的豆瓣观影记录,他博客中关于豆瓣观影记录是实时同步的,很好奇是如何实现的,经过查看,他是爬取的豆瓣观影界面来实现的,其实关于豆瓣观影记录,网上也有很多的教程,恰巧自己所学的Go语言也可以做简单的爬虫实现其效......
  • php如何连接前端
    PHP可以通过多种方式连接前端,包括使用HTML表单、AJAX技术和HTTP请求等。下面是一个使用HTML表单连接前端的示例代码:<!DOCTYPEhtml><html><body><formaction="process.php"method="post"><labelfor="name">Name:</label><br><......
  • PS新手教程-如何使用PS把双人照变成单人照?
    如何使用PS把双人照变成单人照?给大家介绍如何使用PS把双人照变成单人照,一起来看看吧。1.打开PS,导入素材图片,用套索工具将合照其中一人圈起来。2.点击编辑-内容识别填充,把不被识别的人物擦去。3.按回车键即可,就从双人照变成单人照啦。以上就是如何使用PS把双人照变成单人照的全部内容......
  • 如何给以make工具构建的工程中加debug编译选项
    问题描述make可以像bash一样调用很多命令,debug选项属于编译器(以gcc为例),所以这个问题更准确的描述应该是:如何给make工程中gcc传递-g参数。之所以还用上面的名字,是因为最初的诉求冲到脑子的就是上面的样子。一个偷梁换柱的思路首先我们给gcc弄个wrapper程序gcc_wrapper,在这个wr......
  • BBP002面包板电源模块如何使用(A版)
    今天我们介绍一款比较好用的面包板电源模块BBP002,该款面包板电源模块具有升压稳压功能,只需一根type-c线就可以解决面包板不同电压输出的问题。该模块的型号为BBP002,某宝搜一下BBP002能找到。模块采用一输入三输出的模式,一输入指根据使用功率不同采用不同的输入方式,对于小功率......