布隆过滤器有着广泛的应用,对于大量数据的“存不存在”的问题在空间上有明显优势,但是在判断存不存在是有一定的错误率(false positive),也就是说,有可能把不属于这个集合的元素误认为属于这个集合(False Positive),但不会把属于这个集合的元素误认为不属于这个集合(False Negative)。

布隆过滤器由来

布隆在1970年提出了布隆过滤器(Bloom Filter),是一个很长的二进制向量(可以想象成一个序列)和一系列随机映射函数(hash function)。可用于判断一个元素是否在一个集合中,查询效率很高(1-N,最优能逼近于1)。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。

特点

  • 优点: 占用空间小,查询快

  • 缺点: 有误判,删除困难

几个专业术语

这里有必要介绍一下False Positive和False Negative的概念:

  • False Positive: 中文可以理解

大数据处理 - Bitmap Bloom Filter相关推荐

  1. 大数据处理算法--Bloom Filter布隆过滤

    1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出.它可以用于检索一个元素是否在一个集合中. Bloom Filter(BF)是一种空间效率很 ...

  2. 海量数据处理之Bloom Filter详解

    前言 本博客内曾已经整理过十道海量数据处理面试题与十个方法大总结.接下来,本博客内会重点分析那些海量数据处理的方法,并重写十道海量数据处理的面试题.如果有任何问题,欢迎不吝指正.谢谢. 一.什么是Bl ...

  3. 海量数据处理算法—Bloom Filter

    1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出.它可以用于检索一个元素是否在一个集合中. Bloom Filter(BF)是一种空间效率很 ...

  4. 大数据处理的基本思路

    转载自:http://blog.csdn.net/v_july_v/article/details/7382693 前言 一般而言,标题含有"秒杀","99%" ...

  5. 大数据量下的集合过滤—Bloom Filter

    算法背景 如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定.链表.树.散列表(又叫哈希表,Hash table)等等数据结构都是这种思路,存储位置要么是磁盘 ...

  6. Bloom Filter 大规模数据处理利器

    2019独角兽企业重金招聘Python工程师标准>>> 最近工作中涉及到bloom Filter,真是一把科研利器呀,大数据.网络.云等等都可以用到! Bloom Filter是由B ...

  7. 【guava】大数据量下的集合过滤—Bloom Filter

    1.概述 转载防丢失,请看原文 算法背景 相似文章:Bing搜索核心技术BitFunnel原理 如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定.链表.树. ...

  8. 大数据处理算法一:BitMap算法

     腾讯面试题:给20亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中并且所耗内存尽可能的少?  解析:bitmap算法就好办多了 所谓b ...

  9. 海量大数据处理最新面试题-1

    徐海蛟 教学用途 何谓海量大数据处理? 所谓海量大数据处理,无非就是基于海量大数据上的存储.处理.操作.何谓海量,就是数据量大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装 ...

最新文章

  1. 核逼近(Kernel Approximation)
  2. Cloud Foundry平台中国唯一云供应商,阿里云持续链接Cloud Foundry/Kubernetes生态
  3. 基于MATLAB的Okumura-Hata模型的仿真
  4. ethtool编译与内核实现介绍
  5. locustfile中的User类和HttpUser类
  6. linux oracle显示乱码,Linux下oracle显示乱码解决
  7. 关闭Visual Studio 实时调试器
  8. win32 disk imager使用后u盘容量恢复
  9. 利用Pin分析程序的动态行为特征
  10. 321. 拼接最大数
  11. Atitit 软件与互联网理论 attilax总结
  12. anaconda moviepy_Anaconda使用之安装篇(Windows)
  13. U盘安装EXSi6.7出错menu.c32文件
  14. Oracle Instant Client
  15. centos误删除恢复
  16. 系统集成考前冲刺口诀
  17. 从0到1CTFer成长之路环境搭建详细教程
  18. 如何将docx文件制作为ftl模板
  19. Desmos-可能是迄今为止最好用的免费Web端数学图像绘制工具
  20. Unity3D常用的生命周期函数

热门文章

  1. echarts 去掉最外部边框
  2. c语言高斯定理图片,大学物理上册所有公式-20210516063148.docx-原创力文档
  3. 2022 最新 Android 基础教程,从开发入门到项目实战【b站动脑学院】学习笔记——实战二:简易登录+找回密码
  4. 自考计算机数据库建立过程,上海自考 计算机 数据库 笔记.doc
  5. 抖音Vlog必备PR短视频剪辑调色LUT预设 Premiere转场过渡预设包V3
  6. 为什么要使用零知识证明来开发跨链协议
  7. 交换机hybrid接口配置【华为eNSP模拟器】
  8. 曲率流的计算机应用,科学网—清华笔记:计算共形几何讲义 (23)离散曲面曲率流 (Discrete Surface Ricci Flow)V - 顾险峰的博文...
  9. 预装win8重装激活失败
  10. CG-34 浊度传感器 简单说明