bloom filter 的Java 版

属于转贴,原文地址：

http://www.cnblogs.com/hitwtx/archive/2011/08/24/2152180.html

一、 Bloom-Filter算法简介。
Bloom-Filter，即布隆过滤器，1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中，其优点是空间效率和查询时间都远远超过其他算法，其不足在于Bloom- Filter存在着误判。

二、 Bloom-Filter的基本思想。
Bloom-Filter算法的核心思想就是利用多个不同的Hash函数来解决“冲突”。计算某元素x是否在一个集合中，首先能想到的方法就是将所有的已知元素保存起来构成一个集合R，然后用元素x跟这些R中的元素一一比较来判断是否存在于集合R中；我们可以采用链表等数据结构来实现。但是，随着集合R中元素的增加，其占用的内存将越来越大。试想，如果有几千万个不同网页需要下载，所需的内存将足以占用掉整个进程的内存地址空间。即使用MD5，UUID这些方法将URL转成固定的短小的字符串，内存占用也是相当巨大的.

日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上；在网络爬虫里，一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中，遇到一个新元素时，将它和集合中的元素直接比较即可。

一般来讲，计算机中的集合是用哈希表（hash table）来存储的。它的好处是快速准确，缺点是费存储空间。当集合比较小时，这个问题不显著，但是当集合巨大时，哈希表存储效率低的问题就显现出来了。

三、 Bloom-Filter的应用。
Bloom-Filter一般用于在大数据量的集合中判定某元素是否存在。例如邮件服务器中的垃圾邮件过滤器。在搜索引擎领域，Bloom-Filter最常用于网络蜘蛛(Spider)的URL过滤，网络蜘蛛通常有一个 URL列表，保存着将要下载和已经下载的网页的URL，网络蜘蛛下载了一个网页，从网页中提取到新的URL后，需要判断该URL是否已经存在于列表中。此时，Bloom-Filter算法是最好的选择。
比如说，一个象 Yahoo,Hotmail 和 Gmai 那样的公众电子邮件（email）提供商，总是需要过滤来自发送垃圾邮件的人（spamer）的垃圾邮件。一个办法就是记录下那些发垃圾邮件的 email 地址。由于那些发送者不停地在注册新的地址，全世界少说也有几十亿个发垃圾邮件的地址，将他们都存起来则需要大量的网络服务器。

布隆过滤器是由巴顿.布隆于一九七零年提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。我们通过上面的例子来说明起工作原理。

假定我们存储一亿个电子邮件地址，我们先建立一个十六亿二进制（比特），即两亿字节的向量，然后将这十六亿个二进制位全部设置为零。对于每一个电子邮件地址 X，我们用八个不同的随机数产生器（F1,F2, ...,F8）产生八个信息指纹（f1, f2, ..., f8）。再用一个随机数产生器 G 把这八个信息指纹映射到 1 到十六亿中的八个自然数 g1, g2, ...,g8。现在我们把这八个位置的二进制位全部设置为一。当我们对这一亿个 email 地址都进行这样的处理后。一个针对这些 email 地址的布隆过滤器就建成了。（见下图）   现在，让我们看看如何用布隆过滤器来检测一个可疑的电子邮件地址 Y 是否在黑名单中。我们用相同的八个随机数产生器（F1, F2, ..., F8）对这个地址产生八个信息指纹 s1,s2,...,s8，然后将这八个指纹对应到布隆过滤器的八个二进制位，分别是 t1,t2,...,t8。如果 Y 在黑名单中，显然，t1,t2,..,t8 对应的八个二进制一定是一。这样在遇到任何在黑名单中的电子邮件地址，我们都能准确地发现。
      布隆过滤器决不会漏掉任何一个在黑名单中的可疑地址。但是，它有一条不足之处。也就是它有极小的可能将一个不在黑名单中的电子邮件地址判定为在黑名单中，因为有可能某个好的邮件地址正巧对应八个都被设置成一的二进制位。好在这种可能性很小。我们把它称为误识概率。在上面的例子中，误识概率在万分之一以下。
      布隆过滤器的好处在于快速，省空间。但是有一定的误识别率。常见的补救办法是在建立一个小的白名单，存储那些可能别误判的邮件地址。

1. 使用Java 自带的

private BitSet bits = new BitSet(defaultSize);

import java.util.BitSet;public class bloomFilter {private int defaultSize = 5000 << 10000;private int basic = defaultSize -1;private String key = null;private BitSet bits = new BitSet(defaultSize);public bloomFilter(String key){this.key = key;}private int[] lrandom(){int[] randomsum = new int[8];int random1 = hashCode(key,1);int random2 = hashCode(key,2);int random3 = hashCode(key,3);int random4 = hashCode(key,4);int random5 = hashCode(key,5);int random6 = hashCode(key,6);int random7 = hashCode(key,7);int random8 = hashCode(key,8);randomsum[0] = random1;randomsum[1] = random2;randomsum[2] = random3;randomsum[3] = random4;randomsum[4] = random5;randomsum[5] = random6;randomsum[6] = random7;randomsum[7] = random8;return randomsum;}private int[] sameLrandom(){int[] randomsum = new int[8];int random1 = hashCode(key,1);int random2 = hashCode(key,1);int random3 = hashCode(key,1);int random4 = hashCode(key,1);int random5 = hashCode(key,1);int random6 = hashCode(key,1);int random7 = hashCode(key,1);int random8 = hashCode(key,1);randomsum[0] = random1;randomsum[1] = random2;randomsum[2] = random3;randomsum[3] = random4;randomsum[4] = random5;randomsum[5] = random6;randomsum[6] = random7;randomsum[7] = random8;return randomsum;}private void add(){if(exist()){System.out.println("已经包含("+key+")");return;}int keyCode[] = lrandom();bits.set(keyCode[0]);bits.set(keyCode[1]);bits.set(keyCode[2]); bits.set(keyCode[3]); bits.set(keyCode[4]); bits.set(keyCode[5]); bits.set(keyCode[6]); bits.set(keyCode[7]);}private boolean exist(){int keyCode[] = lrandom();if(bits.get(keyCode[0])&&bits.get(keyCode[1])&&bits.get(keyCode[2])&&bits.get(keyCode[3])&&bits.get(keyCode[4])&&bits.get(keyCode[5])&&bits.get(keyCode[6])&&bits.get(keyCode[7])){return true; }return false;}private boolean set0(){if(exist()){int keyCode[] = lrandom();bits.clear(keyCode[0]);bits.clear(keyCode[1]);bits.clear(keyCode[2]);bits.clear(keyCode[3]);bits.clear(keyCode[4]);bits.clear(keyCode[5]);bits.clear(keyCode[6]);bits.clear(keyCode[7]);return true;}return false;}private int hashCode(String key,int Q){int h = 0;int off = 0;char val[] = key.toCharArray();int len = key.length();for (int i = 0; i < len; i++) {h = (30 + Q) * h + val[off++];}return changeInteger(h);}private int changeInteger(int h) {return basic & h;}public static void main(String[] args) {// TODO Auto-generated method stub
        bloomFilter f = new bloomFilter("http://www.agrilink.cn/");System.out.println(f.defaultSize);f.add();System.out.println(f.exist());f.set0();System.out.println(f.exist());}}

　　2. 还有一个java 版的，也是使用 bitset

import java.util.BitSet;
public class  SimpleBloomFilter {private static final  int  DEFAULT_SIZE  =2 << 24 ;private static final  int [] seeds =new  int []{5,7, 11 , 13 , 31 , 37 , 61};private  BitSet bits= new  BitSet(DEFAULT_SIZE);private  SimpleHash[]  func=new  SimpleHash[seeds.length];public  SimpleBloomFilter() {for( int  i= 0 ; i< seeds.length; i ++ ) {func[i]=new  SimpleHash(DEFAULT_SIZE, seeds[i]);}}public void  add(String value) {for(SimpleHash f : func) {bits.set(f.hash(value),  true );}}public boolean  contains(String value) {if(value ==null ) {return false ;}boolean  ret  = true ;for(SimpleHash f : func) {ret=ret&& bits.get(f.hash(value));}return  ret;}//内部类，simpleHash
     public static class SimpleHash {private int  cap;private int  seed;public  SimpleHash( int cap, int seed) {this.cap= cap;this.seed =seed;}public int hash(String value) {int  result=0 ;int  len= value.length();for  (int i= 0 ; i< len; i ++ ) {result =seed* result + value.charAt(i);}return (cap - 1 ) & result;}}public static void  main(String[] args) {String value  = "stone2083@yahoo.cn" ;SimpleBloomFilter filter=new  SimpleBloomFilter();System.out.println(filter.contains(value));filter.add(value);System.out.println(filter.contains(value));}}

bloom filter 的Java 版相关推荐

Bloom Filter：海量数据的HashSet
Bloom Filter一般用于数据的去重计算,近似于HashSet的功能:但是不同于Bitmap(用于精确计算),其为一种估算的数据结构,存在误判(false positive)的情况. 1. 基本 ...
Bloom Filter 大规模数据处理利器
2019独角兽企业重金招聘Python工程师标准>>> 最近工作中涉及到bloom Filter,真是一把科研利器呀,大数据.网络.云等等都可以用到! Bloom Filter是由B ...
java jfm入门_image Java版*图像过滤入门示例及源码模拟绿坝过滤机制 - 下载 - 搜珍网...
Java版*图像过滤入门示例及源码-0.1.0 (模拟绿坝过滤机制)/image/dy.jpg Java版*图像过滤入门示例及源码-0.1.0 (模拟绿坝过滤机制)/image/dymh.jpg Ja ...
java 布隆过滤器_什么是布隆过滤器（Bloom Filter）？
在日常工作中,有一个比较常见的需求,就是需要判断一个元素是否在集合中. 例如以下场景: 给定一个IP黑名单库,检查指定IP是否在黑名单中? 在接收邮件的时候,判断一个邮箱地址是否为垃圾邮件? 在文字处 ...
java bloomfilter_爬虫技术之——bloom filter（含java代码）
在爬虫系统中,在内存中维护着两个关于URL的队列,ToDo队列和Visited队列,ToDo队列存放的是爬虫从已经爬取的网页中解析出来的即将爬取的URL,但是网页是互联的,很可能解析出来的URL是已经 ...
java实现bloom filter_实现Bloom Filter必读
转载自: 众所周知的原因,帮大家把这篇文章转载过来,写的很好. It seems like Bloom filters are all the rage these days. Three years ...
布隆过滤器(Bloom Filter)原理及优缺点剖析
直观的说,bloom算法类似一个hash set,用来判断某个元素(key)是否在某个集合中. 和一般的hash set不同的是,这个算法无需存储key的值,对于每个key,只需要k个比特位,每个存储 ...
Hbase 高级特性Bloom filter
Bloom filter 简单而言就是对hash 表的创新,用在 Hbase 中可以有有效减少磁盘IO次数. 图片来源:hbase 权威指南 **使用场景总结: 当用户定期更新所有行时不适合使用B ...
布隆过滤器(Bloom Filter)的原理和实现
布隆过滤器使用场景之前在<数学之美>里面看到过布隆过滤器的介绍.那么什么场景下面需要使用布隆过滤器呢? 看下下面几个问题字处理软件中,需要检查一个英语单词是否拼写正确在 FBI,一个 ...

bloom filter 的Java 版

bloom filter 的Java 版相关推荐

最新文章

热门文章