正文

场景

在项目开发中,我们经常会遇到去重问题。比如:判断一个人有没有浏览过一篇文章,判断一个人当天是否登录过某个系统,判断一个ip是否发过一个请求,等等。

比较容易想到的是使用set来实现这个功能。但如果数据量较大,使用set会非常消耗内存,性能也不高。在前面的文章中,我们介绍了一种数据结构:BitMap来提高性能。但BitMap仍然比较消耗内存,尤其是在数据比较稀疏的情况下,使用BitMap并不划算。

实际上,对于“去重”问题,业界有另外一个更优秀的数据结构来解决这类问题,那就是——布隆过滤器(BloomFilter)。

原理

布隆过滤器与BitMap类似,底层也是一个位数组。1表示有,0表示无。但布隆过滤器比BitMap需要更少的内存,它是怎么办到的呢?答案是多个hash。

我们知道hash算法,是把一个数从较大范围的值,映射到较小范围值。比如我们有一个10位的数组,使用某个hash算法及其数组上的表示:

hash(“xy”) = 3;

hash(“技术圈”) = 5;

0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0

这样,我们使用这个hash算法就能快速的判断一个字符串是不是存在一个集合里面了。但众所周知,hash算法是有可能发生hash冲突的。比如可能有两个不同的字符串映射到同一个数:

hash(“xy”) = 3;

hash(“xy的技术圈”) = 3;

这种情况下,就不能准确得判断出某个字符串是不是存在于集合之中呢。

那怎么解决这个问题呢?答案是使用多个不同的hash算法。比如:

h1(“xy”) = 3, h2(“xy”) = 5, h3(“xy”) = 7;

h1(“技术圈”) = 5, h2(“技术圈”) = 6, h3(“技术圈”) = 7;

h1(“xy的技术圈”) = 3, h2(“xy的技术圈”) = 6, h3(“xy的技术圈”) = 9;

最开始,集合里没有元素,所有位都是0:

0, 0, 0, 0, 0, 0, 0, 0, 0, 0

然后,插入“xy”,利用多次hash,把每次hash的结果下标3, 5, 7都插入到相应的地方:

0, 0, 0, 1, 0, 1, 0, 1, 0, 0

然后,插入“技术圈”,利用多次hash,把每次hash的结果下标5, 6, 7都插入到相应的地方,已经是1的下标不变:

0, 0, 0, 1, 0, 1, 1, 1, 0, 0

这个时候,如果想要判断“xy”是否在集合中,只需要使用同样的3个hash算法,来计算出下标是3, 5, 7,发现这3个下标都为1,那么就认为“xy”这个字符串在集合中。而“xy的技术圈”计算出来的下标是3, 6, 9。发现这三个下标有不是1的地方,比如下标为9的地方是0,那就说明“xy的技术圈”这个字符串还不在集合中。

误差

从原理可以看得出来,布隆过滤器是有可能存在一定的误差的。尤其是当hash函数比较少的时候。布隆过滤器是根据多次hash计算下标后,数组的这些下标是否都为1来判断这个元素是否存在的。所以是存在一定的几率,要检查的元素实际上没有插入,但被其它元素插入影响,导致所有下标都为1。

所以布隆过滤器不能删除,因为一旦删除(即将相应的位置为0),就很大可能会影响其他元素。

如果使用布隆过滤器判断一个函数是否存在于一个集合,如果它返回true,则代表可能存在。如果它返回false,则代表一定不存在。

由此可见,布隆过滤器适合于一些需要去重,但不一定要完全精确的场景。比如:

  • 判断一个用户访问了一篇文章

  • 判断一个ip访问了本网站

  • 判断一个key是否被访问过

相应的,布隆过滤器不适合一些要求零误差的场景,比如:

  • 判断一个用户是否收藏了一篇文章

  • 判断一个用户是否订购了一个课程

使用技巧

这就是布隆过滤器的基本原理。由上面的例子可以看出来,如果空间越大,hash函数越多,结果就越精确,但空间效率和查询效率就会越低。

这里有一个测试数据:

后面4列中的数据就是发生误差的数量。可见,空间大小和集合大小不变的情况下,增加hash函数可以显著减小误差。但一旦集合大小达到空间大小的25%左右后,增加hash函数带来的提神效果并不明显。这个时候应该增加空间大小。

Redis中的布隆过滤器

Redis的布隆过滤器不是原生自带的,而是要通过module加载进去。Redis在4.0的版本中加入了module功能。具体使用可以直接看RedisBloom github的README:https://github.com/RedisBloom/RedisBloom。上面有docker一键启动命令,可以很方便地实验。也有几种主流语言的客户端库的链接,比如Java语言的JReBloom。有兴趣的朋友可以自行了解。

Redis的布隆过滤器主要有两个命令:

  • bf.add 添加元素到布隆过滤器中:bf.add strs xy

  • bf.exists 判断某个元素是否在过滤器中:bf.exists strs xy

Redis中有一个命令可以来设置布隆过滤器的准确率:

bf.reserve strs 0.01 100

三个参数的含义:

  • 第一个值是过滤器的名字。

  • 第二个值为error_rate的值:允许布隆过滤器的错误率。

  • 第三个值为initial_size的值:初始化位数组的大小。

扩展学习

Java实现的布隆过滤器

如果你的项目没有使用Redis,那可以使用一些开源库,基于代码实现,直接存放在内存。比如Google的guava包中提供了BloomFilter类,有兴趣的读者可以去了解一下,研究研究源码和使用。

布谷鸟过滤器

RedisBloom模块还实现了布谷鸟过滤器,它算是对布隆过滤器的增强版。解决了布隆过滤器的一些比较明显的缺点,比如:不能删除元素,不能计数等。除此之外,布谷鸟过滤器不用使用多个hash函数,所以查询性能更高。除此之外,在相同的误判率下,布谷鸟过滤器的空间利用率要明显高于布隆,空间上大概能节省40%多。

笔者个人觉得,对于大多数场景来说,布隆过滤器足以解决我们的问题。

掘金上有一篇深度分析布谷鸟过滤器的文章,有兴趣的读者可以去了解一下:https://juejin.im/post/5cfb9c74e51d455d6d5357db。

Redis布隆过滤器相关推荐

  1. Google布隆过滤器与Redis布隆过滤器详解

    一.什么是布隆过滤器? 布隆过滤器可以用来判断一个元素是否在一个集合中.它的优势是只需要占用很小的内存空间以及有着高效的查询效率.对于布隆过滤器而言,它的本质是一个位数组:位数组就是数组的每个元素都只 ...

  2. 布隆过滤器 - Redis 布隆过滤器,Guava 布隆过滤器 BloomFilter

    文章目录 布隆过滤器 - Redis 布隆过滤器,Guava 布隆过滤器 BloomFilter 1.布隆过滤器的起源,用途 2.布隆过滤器的概念 3.布隆过滤器的优缺点 1.优点 2.缺点 4.应用 ...

  3. 服务器环境部署:Redis布隆过滤器使用

    老早就想在项目中用起来这个优秀的东西.只是成熟的项目又有很多私有客户部署,redis版本可能存在差异,为避免不必要的版本兼容或迁移,就没有大幅度的在成熟项目上使用.现新项目刚好有相关使用需求,所以理所 ...

  4. ubuntu16.04安装,使用redis布隆过滤器示例

    简言 1. 环境:ubuntu16.04,redis版本:5.0.7,布隆过滤器实现版本:RedisBloom1.1.1 2. 默认情况,下载安装redis时是不带布隆过滤器功能的,它是以插件的形式提 ...

  5. redis布隆过滤器PHP,Redis 中的布隆过滤器

    什么是『布隆过滤器』 布隆过滤器是一个神奇的数据结构,可以用来判断一个元素是否在一个集合中.很常用的一个功能是用来去重.在爬虫中常见的一个需求:目标网站 URL 千千万,怎么判断某个 URL 爬虫是否 ...

  6. 深入详解Redis布隆过滤器

    前面学习HyperLogLog数据类型来进行估算,还是非常有意义的,能解决很多精度要求不高的统计问题. 但是对于某一个值是否存在于HyperLogLog结构里面,就变现的无能为力,因为它只提供了 pf ...

  7. Redis布隆过滤器与布谷鸟过滤器

    -     目录    - 大家都知道,在计算机中,IO一直是一个瓶颈,很多框架以及技术甚至硬件都是为了降低IO操作而生,今天聊一聊过滤器,先说一个场景: 我们业务后端涉及数据库,当请求消息查询某些信 ...

  8. 【342期】SpringBoot + Redis 布隆过滤器防恶意流量击穿缓存的正确姿势!

    什么是恶意流量穿透 假设我们的Redis里存有一组用户的注册email,以email作为Key存在,同时它对应着DB里的User表的部分字段. 一般来说,一个合理的请求过来我们会先在Redis里判断这 ...

  9. Redis 布隆过滤器

    什么是布隆过滤器 本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data structure),特点是高效地插入和查询,可以用来告诉你 "某样东西一定 ...

最新文章

  1. 108.什么是信道?109.信道分类 110.什么是模拟信号?什么是数字信号?
  2. 读债务危机0901:第三部分48个案例研究概要-核心术语表 1、国际收支差额:一个国家/货币区的个人或机构与世界其他地区之间进行的所有交易的余额。 2、国际收支危机:经济危机的一种,表现为一国的国际收
  3. 如何在 Linux 中使用 find
  4. PWN-COMPETITION-HGAME2022-Week4
  5. python 去除不可见字符\x00
  6. 项目已被os x使用 不能打开-黑苹果之路
  7. 崛起于Springboot2.X之Mysql读写分离(6)
  8. getOutputStream() has already been called for this response异常的原因和解决方法[转]
  9. go - struct
  10. 高数——多元函数的定义及极限
  11. 微信小程序样式padding理解
  12. java解析20万Excel
  13. 怎么使用quicktime
  14. RocketMQ 内存优化
  15. 使用Pyecharts进行全国水质TDS地图可视化全过程9:构建字典,批量生成所有省份地图
  16. 七夕送什么蓝牙耳机?时尚好用的蓝牙耳机推荐
  17. 2020年中国无人船艇行业发展政策分析,竞争格局相对分散「图」
  18. Linux C 函数参考(日期时间)
  19. 串口发送数据,只接收到00的原因之一
  20. nessus安装及使用

热门文章

  1. HDU - 6749 Mosquito(二分+状态压缩+最大流)
  2. Gym - 101986F Pizza Delivery(最短路+DAG必经边)
  3. SPOJ - GSS3 Can you answer these queries III(线段树+区间合并)
  4. linux停止python程序_python – Linux上的多处理进程终止失败
  5. Fibonacci数列的幂和
  6. NJUST1712(形成三角形面积为整数的个数)
  7. 主定理(master theorem)学习小记
  8. 一个DDOS病毒的分析(二)
  9. TCP/IP TIME_WAIT状态原理
  10. SQLLite (二) :sqlite3_open, sqlite3_exec, slite3_close