什么情况下需要布隆过滤器?

先来看几个比较常见的例子

字处理软件中,需要检查一个英语单词是否拼写正确

在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上

在网络爬虫里,一个网址是否被访问过

yahoo, gmail等邮箱垃圾邮件过滤功能

这几个例子有一个共同的特点:如何判断一个元素是否存在一个集合中?

常规思路

数组

链表

树、平衡二叉树、Trie

Map (红黑树)

哈希表

虽然上面描述的这几种数据结构配合常见的排序、二分搜索可以快速高效的处理绝大部分判断元素是否存在集合中的需求。但是当集合里面的元素数量足够大,如果有500万条记录甚至1亿条记录呢?这个时候常规的数据结构的问题就凸显出来了。数组、链表、树等数据结构会存储元素的内容,一旦数据量过大,消耗的内存也会呈现线性增长,最终达到瓶颈。有的同学可能会问,哈希表不是效率很高吗?查询效率可以达到O(1)。但是哈希表需要消耗的内存依然很高。使用哈希表存储一亿 个垃圾 email 地址的消耗?哈希表的做法:首先,哈希函数将一个email地址映射成8字节信息指纹;考虑到哈希表存储效率通常小于50%(哈希冲突);因此消耗的内存:8 * 2 * 1亿 字节 = 1.6G 内存,普通计算机是无法提供如此大的内存。这个时候,布隆过滤器(Bloom Filter)就应运而生。在继续介绍布隆过滤器的原理时,先讲解下关于哈希函数的预备知识。

哈希函数

哈希函数的概念是:将任意大小的数据转换成特定大小的数据的函数,转换后的数据称为哈希值或哈希编码。下面是一幅示意图:

布隆过滤器介绍

巴顿.布隆于一九七零年提出

一个很长的二进制向量 (位数组)

一系列随机函数 (哈希)

空间效率和查询效率高

有一定的误判率(哈希表是精确匹配)

布隆过滤器原理

布隆过滤器(Bloom Filter)的核心实现是一个超大的位数组和几个哈希函数。假设位数组的长度为m,哈希函数的个数为k

以上图为例,具体的操作流程:假设集合里面有3个元素{x, y, z},哈希函数的个数为3。首先将位数组进行初始化,将里面每个位都设置位0。对于集合里面的每一个元素,将元素依次通过3个哈希函数进行映射,每次映射都会产生一个哈希值,这个值对应位数组上面的一个点,然后将位数组对应的位置标记为1。查询W元素是否存在集合中的时候,同样的方法将W通过哈希映射到位数组上的3个点。如果3个点的其中有一个点不为1,则可以判断该元素一定不存在集合中。反之,如果3个点都为1,则该元素可能存在集合中。注意:此处不能判断该元素是否一定存在集合中,可能存在一定的误判率。可以从图中可以看到:假设某个元素通过映射对应下标为4,5,6这3个点。虽然这3个点都为1,但是很明显这3个点是不同元素经过哈希得到的位置,因此这种情况说明元素虽然不在集合中,也可能对应的都是1,这是误判率存在的原因。

布隆过滤器添加元素

将要添加的元素给k个哈希函数

得到对应于位数组上的k个位置

将这k个位置设为1

布隆过滤器查询元素

将要查询的元素给k个哈希函数

得到对应于位数组上的k个位置

如果k个位置有一个为0,则肯定不在集合中

如果k个位置全部为1,则可能在集合中

代码实现

在实际应用当中,我们不需要自己去实现BloomFilter。可以使用Guava提供的相关类库即可。

com.google.guava

guava

25.1-jre

判断一个元素是否在集合中

public class Test1 {

private static int size = 1000000;

private static BloomFilter bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size);

public static void main(String[] args) {

for (int i = 0; i < size; i++) {

bloomFilter.put(i);

}

long startTime = System.nanoTime(); // 获取开始时间

//判断这一百万个数中是否包含29999这个数

if (bloomFilter.mightContain(29999)) {

System.out.println("命中了");

}

long endTime = System.nanoTime(); // 获取结束时间

System.out.println("程序运行时间: " + (endTime - startTime) + "纳秒");

}

}

运行结果如下:

命中了

程序运行时间: 441616纳秒

public class Test3 {

private static int size = 1000000;

private static BloomFilter bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size, 0.01);

public static void main(String[] args) {

for (int i = 0; i < size; i++) {

bloomFilter.put(i);

}

List list = new ArrayList(1000);

// 故意取10000个不在过滤器里的值,看看有多少个会被认为在过滤器里

for (int i = size + 10000; i < size + 20000; i++) {

if (bloomFilter.mightContain(i)) {

list.add(i);

}

}

System.out.println("误判的数量:" + list.size());

}

}

运行结果如下:

误判的数量:94

对于缓存宕机的场景,使用白名单或者布隆过滤器都有可能会造成一定程度的误判。原因是除了Bloom Filter 本身有误判率,宕机之前的缓存不一定能覆盖到所有DB中的数据,当宕机后用户请求了一个以前从未请求的数据,这个时候就会产生误判。当然,缓存宕机时使用白名单/布隆过滤器作为应急的方式,这种情况应该也是可以忍受的。

mysql布隆过滤器源码_布隆过滤器(Bloom Filter)的原理和实现相关推荐

  1. mysql布隆过滤器源码_通过实例解析布隆过滤器工作原理及实例

    布隆过滤器 布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data structure),特点是高效地插入和查询,可以用来告诉你 "一定不存在或者可能存在& ...

  2. php+mysql案例含源码_【专注】Zabbix源码安装教程—步骤详解(1)安装前准备

    一.实验环境准备 Rhel 7.6 x86_64(server) 192.168.163.72 Rhel 6.5 x86_64(agent) 192.168.163.61 均已配置操作安装光盘为YUM ...

  3. mysql管理器源码_一个HelloWorld版的MySQL数据库管理器的设计与实现(源码)

    2011年,实习期间写了一个简单的数据库管理器. 今天,特意整理了下,分享给大家. 有兴趣的同学,可以下载源码,瞧瞧. 源码只有4个类:LoginGUI,DatabaseGUI,Record,MySQ ...

  4. mysql php apache源码_源码安装apache+mysql+php

    源码安装apache+mysql+php #!/bin/sh #byliangz at 2010-08-14 #环境: #     1. CentOS5.5或RHEL5.4,配置好IP地址,主机名等信 ...

  5. mysql查询优化器源码_源码下载网浅析MySQL 查询优化器

    源码下载网浅析MySQL 查询优化器 时间:2019-01-18 17:45作者:网友投稿 优化器(The Optimizer) 这篇描述MySQL查询优化器的工作原理.MySQL查询优化器主要为执行 ...

  6. php mysql婚纱摄影网站源码_织梦大气婚纱影楼摄影企业网站模板源码 v5.7

    织梦大气婚纱影楼摄影企业网站模板源码安装教程: 1.将下载的织梦源码全部传到空间根目录,由于有很多人反应安装后首页样式都乱的,(强烈要求安装到根目录,如:127.0.0.1 / www.xxx.com ...

  7. php+mysql案例含源码_[源码和文档分享]基于PHP和MYSQL数据库实现的失物招领系统...

    一.功能描述 1.1 系统实现的目的和意义 目的:在新校区为大家提供一个失物招领的平台. 意义:现在新校区面积较大,同学们丢失物品后,只通过线下途径进行效率低下且失主与拾物者联系不便,所以想通过这个系 ...

  8. mysql php apache源码_配置php结合Apache

    二.php的安装.以module方式,将php与apache结合使你的网站服务器支持php服务器脚本程序 将下载的php压缩文件解压缩到"D:\php",或者其他位置.查看解压缩后 ...

  9. mysql数据库查询源码_超简单php mysql数据库查询类

    本文章为你免费提供一款漂亮的超简单php mysql数据库查询类哦 */ class Config{ private $host; //主机名称:一般是localhost private $root; ...

最新文章

  1. m_Orchestrate learning system---六、善用组件插件的好处是什么
  2. This is very likely to create a memory leak.
  3. RIPv2与EIGRP的自动汇总区别
  4. 常用决策树集成模型Random Forest、Adaboost、GBDT详解
  5. CentOS 5.5 使用 EPEL 和 RPMForge 软件库
  6. 华为交换机做qos案例_华为技术:Qos典型配置,配置交换机接口限速示例
  7. 02-监督学习应用.梯度下降
  8. 10部程序员必看的纪录片
  9. [Azure - SLA] 在微软云中的服务级别协议SLA
  10. windows、ubuntu双系统安装教程
  11. opencore 引导 近完美 黑苹果EFI(技嘉H310/I5-9400F/RX560D)
  12. 在HTML中怎么表示空格
  13. Spring实现依赖注入的几种方式
  14. Mathematica 13.0.1 Linux版安装教程
  15. 非库安装问题而报错Expected Ptr<cv::UMat> for argument ‘src‘
  16. java番茄钟_个人用的简单番茄时钟
  17. ImmutableMap
  18. IPC摄像头增值服务详解,探寻新的增长点
  19. 小白学python系列————【Day15】垃圾回收机制及字符编码简史
  20. HDU2570 贪心

热门文章

  1. Spring事务管理3----声明式事务管理(1)
  2. 背水一战 Windows 10 (65) - 控件(WebView): 对 WebView 中的内容截图, 通过 Share Contract 分享 WebView 中的被选中的内容...
  3. Ubuntu 64bit 安装 ulipad4.1
  4. Linux Crontab 定时任务 命令详解
  5. 做事范围是多么多么重要
  6. 【×××系列八】Dynamic Multipoint *** for IPv6 详解
  7. 爱情,真的那么奢侈吗?
  8. SharePoint 2010 新体验5 - Office Web Applications
  9. DB2 XQuery学习笔记
  10. 简要叙述matlab的含义,1,简述MATLAB组成部分? 2,说明使用M文件编辑/调试器的方法和优点? 3,存储在工作空间中的数组能编辑吗...