布隆过滤器原理及实现

时间：2023-09-20 10:34:50浏览次数：56

大家好，我是蓝胖子，我一直相信编程是一门实践性的技术，其中算法也不例外，初学者可能往往对它可望而不可及，觉得很难，学了又忘，忘其实是由于没有真正搞懂算法的应用场景，所以我准备出一个系列，囊括我们在日常开发中常用的算法，并结合实际的应用场景，真正的感受算法的魅力。

今天，我们就来学习下布隆过滤器的原理以及作用。

代码已经上传到github

https://github.com/HobbyBear/codelearning/tree/master/bloomfilter

作用

通常我们在缓存层前面会添加一层布隆过滤器，它能够迅速的判断那些一定不在缓存中的数据，防止缓存击穿。

布隆过滤器返回false的数据一定不在缓存里，返回true的数据也可能不在缓存里。即使不能百分百判断数据是否一定存在于缓存中，它依然能够过滤大量的无效不在缓存中的数据，所以被广泛使用。

原理

为啥不能百分百的判断数据是否一定存在，这就需要来了解下布隆过滤器的原理。在构建布隆过滤器时，会创建一个bitmap，关于bitmap的讲解可以查看我之前的文章位图(bitmap)原理以及实现，使用布隆过滤器的步骤如下:

1，比如一个场景，我们添加缓存时，需要先将key添加到布隆过滤器中，需要将key用多个hash函数经过多次hash，比如三次，得到3个数字a,b,c 。

2，然后将a,b,c 对应在bitmap中的bit位设置1。

3，当要从缓存中读取数据时，也是先从布隆过滤器中读取，此时需要将要读取的缓存key也经过多个hash函数多次hash，判断hash得到的数字对应在bitmap中的bit位是否都是1，如果有一个不为1，说明这个缓存key肯定没有添加过缓存，就不用再去请求缓存服务器了。

这里要注意的是，因为是hash函数，所以有可能key1和key2最后hash的结果是一样的，这样布隆过滤器只添加key1时，还是会在读取key2时返回true，这样还是会去读缓存服务器，即使key2并不在缓存服务器中。

并且由于在bitmap中存储的是hash后的结果，所以布隆过滤器也不能删除数据，一个好的使用方式是定时重建布隆过滤器，让旧布隆过滤器过期。

实现

接着，我们来看下布隆过滤器的实现,我仿照java的Guava中的布隆过滤器实现写了一个golang的版本， hash函数用的murmur3 得到两个hash值，通过迭代k次hash值的效果代替了运行k次hash函数，然后将得到的结果设置到bitmap中。

需要注意的是hash.Sum128 返回的uint64，这个类型在转换成int64类型时可能会产生负数，所以我们需要将它同math.MaxInt64得到正数，然后与bitmap的大小进行取模，这样得到的数字永远是一个正数且不会超过bitmap的长度。

func (b *BloomFilter) Add(key string) {  
   bitSetSize := b.m  
   hashFunCount := b.k  
   hash := murmur3.New128()  
   hash.Write([]byte(key))  
   hash1, hash2 := hash.Sum128()  
   combinedHash := hash1  
   for i := 0; i < hashFunCount; i++ {  
      b.bitset.Set((uint64ToInt64(combinedHash) & math.MaxInt64) % bitSetSize)  
      combinedHash += hash2  
   }  
}  
  
func (b *BloomFilter) MightContain(key string) bool {  
   bitSetSize := b.m  
   hashFunCount := b.k  
   hash := murmur3.New128()  
   hash.Write([]byte(key))  
   hash1, hash2 := hash.Sum128()  
   combinedHash := hash1  
   for i := 0; i < hashFunCount; i++ {  
      if !b.bitset.Exits((uint64ToInt64(combinedHash) & math.MaxInt64) % bitSetSize) {  
         return false  
      }  
      combinedHash += hash2  
   }  
   return true  
}  
  
func uint64ToInt64(num uint64) int64 {  
   if num <= uint64(math.MaxInt64) {  
      return int64(num)  
   }  
   return int64(num - uint64(math.MaxInt64) + 1)  
}

标签：缓存,hash,布隆,bitmap,key,过滤器,原理
From： https://www.cnblogs.com/hobbybear/p/17716658.html

TTS背后的技术原理——前端和后端系统
就解锁了一个温柔又风趣的「女朋友」萨曼萨。不过，在现实生活中，和语音助手谈恋爱还是一件十分遥远的事情——刨去现阶段的语音助手们双商水平还有限，语音助手的语言表达能力还远远达不到我们理想状态。为啥你的机器人女友说话不像萨曼萨？本文中，RokidA-Lab语音合成算......
逻辑漏洞挖掘之XSS漏洞原理分析及实战演练
一、前言2月份的1.2亿条用户地址信息泄露再次给各大公司敲响了警钟，数据安全的重要性愈加凸显，这也更加坚定了我们推行安全测试常态化的决心。随着测试组安全测试常态化的推进，有更多的同事对逻辑漏洞产生了兴趣，本系列文章旨在揭秘逻辑漏洞的范围、原理及预防措施，逐步提升大家的安全......
IIS 部署的应用禁用HTTP TRACE / TRACK方法【原理扫描】
TRACE和TRACK是用于调试Web服务器连接的HTTP方法。直接在网站Web.config文件中进行如下操作：在Web.config中的<system.webServer>节点内添加以下配置即可：<security><requestFiltering><verbs><addverb="OPTIONS"allowed="false"/><addverb="Trace"......
Vue3 watch揭秘：基本用法与原理深度解析
Vue3中的watch函数用于监听数据的变化，当数据发生变化时，可以执行一些操作。watch函数的基本用法如下：import{ref,watch}from'vue';exportdefault{setup(){constcount=ref(0);watch(count,(newValue,oldValue)=>{console.log(`count的新值为：${......
详细解释一下redis的缓存击穿、缓存雪崩的原理，以及如何避免？
缓存击穿和缓存雪崩是两种常见的缓存问题，它们会对系统性能和可用性产生负面影响。以下是对这两个问题的详细解释以及如何避免它们的方法：缓存击穿（CacheMiss）原理：缓存击穿是指在高并发的情况下，多个请求同时访问缓存，但缓存中不存在所需数据。这些请求会穿透缓存，直接访问底层数据库......
位图(bitmap)原理以及实现
大家好，我是蓝胖子，我一直相信编程是一门实践性的技术，其中算法也不例外，初学者可能往往对它可望而不可及，觉得很难，学了又忘，忘其实是由于没有真正搞懂算法的应用场景，所以我准备出一个系列，囊括我们在日常开发中常用的算法，并结合实际的应用场景，真正的感受算法的魅力。今天，我们就来学习......
1. illumina测序原理
本人的生物水平只有高中且4年没碰的水平,如果涉及生物的笔记没写对请见谅.1.一个典型的生物信息分析我们在做生物信息分析时,常常是有一个目的,比如分析为什么某朵花是红色的.假设我们在做转录组数据分析,流程一般如下图所示: 得到数据后,我们会进行标准分析,得到一些......
【原创】DHCP工作原理(整理)
DHCP工作原理 dhcp(DynamicHostconfigureprotocol,动态主机配置协议),用于向网络中......
全网最详细的OSPF原理总结，看这篇就够了！
大家好，我的网工朋友。OSPF是一种基于链路状态的路由协议，也是专为IP开发的路由协议，直接运行在IP层上面。它从设计上保证了无路由环路。除此之外，IS-IS也是很常见的链路状态协议。为什么会出现OSPF？作为目前主流的IGP协议，OSPF主要是为了解决RIP的三大问题而出现的，比如：收敛很慢、容......
简述为什么通信原理中正数的相频是0
在通信原理中，正弦信号的相位通常用相位的相对变化来表示，而不是用绝对相位值。因此，对于正数频率的信号，其相位的相对变化为0，也就是相频为0。具体来说，对于一个正弦信号，其可以表示为：x(t)=Asin(ωt+φ)其中，A为振幅，ω为角频率，φ为初始相位。对于不同的频率成分，其相位是不同的。如果我们对......

布隆过滤器原理及实现

作用

原理

实现

相关文章

赞助商

阅读排行