BitMap的原理和实现
相关概念
基础类型
在java中:
byte -> 8 bits -->1字节 char -> 16 bit -->2字节 short -> 16 bits -->2字节 int -> 32 bits -->4字节 float -> 32 bits -->4字节 long -> 64 bits -->8字节
位运算符
在java中,int数据底层以补码形式存储。int型变量使用32bit存储数据,其中最高位是符号位,0表示正数,1表示负数,可通过Integer.toBinaryString()
转换为bit字符串,
// 若最高的几位为0则不输出这几位,从为1的那一位开始输出 System.out.println(Integer.toBinaryString(10)); System.out.println(Integer.toBinaryString(-10)); // 会输出(手工排版过,以下的输出均会被手工排版):1010 11111111111111111111111111110110
左移<<
例如:5 << 2 = 20
首先会将5转为2进制表示形式: 0000 0000 0000 0000 0000 0000 0000 0101 然后左移2位后,低位补0: 0000 0000 0000 0000 0000 0000 0001 0100 换算成10进制为20
右移>>
例如: 5 >> 2 = 1
还是先将5转为2进制表示形式: 0000 0000 0000 0000 0000 0000 0000 0101 然后右移2位,高位补0: 0000 0000 0000 0000 0000 0000 0000 0001 换算成十进制后是1
无符号右移>>>
5 >>> 3
我们知道在Java中int类型占32位,可以表示一个正数,也可以表示一个负数。正数换算成二进制后的最高位为0,负数的二进制最高为为1。对于2进制补码的加法运算,和平常的计算一样,而且符号位也参与运算,不过最后只保留32位
-5换算成二进制: 1111 1111 1111 1111 1111 1111 1111 1011 -5右移3位: 1111 1111 1111 1111 1111 1111 1111 1111 // (用1进行补位,结果为-1) -5无符号右移3位: 0001 1111 1111 1111 1111 1111 1111 1111 // (用0进行补位,结果536870911 )
位与&
第一个操作数的的第n位于第二个操作数的第n位如果都是1,那么结果的第n为也为1,否则为0
5转换为二进制:0000 0000 0000 0000 0000 0000 0000 0101 3转换为二进制:0000 0000 0000 0000 0000 0000 0000 0011 ------------------------------------------------------------ 1转换为二进制:0000 0000 0000 0000 0000 0000 0000 0001
位或|
第一个操作数的的第n位于第二个操作数的第n位只要有一个为1则为1,否则为0
5转换为二进制:0000 0000 0000 0000 0000 0000 0000 0101 3转换为二进制:0000 0000 0000 0000 0000 0000 0000 0011 ------------------------------------------------------------------------------------- 6转换为二进制:0000 0000 0000 0000 0000 0000 0000 0111
对于移位运算,例如将x左移/右移n位,如果x是byte、short、char、int,n会先模32(即n=n%32),然后再进行移位操作。可以这样解释:int类型为32位,移动32位(或以上)没有意义。
同理若x是long,n=n%64。
左移和右移代替乘除
a=a*4; b=b/4;
可以改为
a=a<<2; b=b>>2;
说明: 除2 = 右移1位 乘2 = 左移1位 除4 = 右移2位 乘4 = 左移2位 除8 = 右移3位 乘8 = 左移3位 … …
类比十进制中的满十进一,向左移动小数点后,数字就会缩小十倍,在二进制中满二进一,进行右移一次相当于缩小了2两倍,右移两位相当于缩小了4倍,右移三位相当于缩小了8倍。通常如果需要乘以或除以2的n次方,都可以用移位的方法代替。
实际上,只要是乘以或除以一个整数,均可以用移位的方法得到结果如:
a=a*9
分析a9可以拆分成a(8+1)即a8+a1, 因此可以改为: a=(a<<3)+a
a=a*7
分析a7可以拆分成a(8-1)即a8-a1, 因此可以改为: a=(a<<3)-a
关于除法读者可以类推, 此略。
【注意】由于+/-运算符优先级比移位运算符高,所以在写公式时候一定要记得添加括号,不可以 a = a*12 等价于 a = a<<3 +a <<2; 要写成a = (a<<3)+(a <<2 )。
与运算代替取余
31转换为二进制:011111,0,31 32转换为二进制:100010 与31取交集的结果是:10转换为十进制为2 31转换为二进制:100001 与31取交集的结果是:01转换为十进制为1 30转换为二进制:011110 与31取交集的结果是:11110转换为十进制为30 29转换为二进制:011101 与31取交集的结果是:11101转换为十进制为29 33转换为二进制:100001 与31取交集的结果是:1转换为十进制为1
31转换为二进制后,低位值全部为1,高位全为0。所以和其进行与运算,高位和0与,结果是0,相当于将高位全部截取,截取后的结果肯定小于等于31,地位全部为1,与1与值为其本身,所以相当于对数进行了取余操作。
进制转换
0x
开头表示16进制,例如:0x2表示:2,0x2f表示480
开头表示8进制,例如:02表示:2,010表示:8
Integer.toHexString(int i) // 十进制转成十六进制 Integer.toOctalString(int i) // 十进制转成八进制 Integer.toBinaryString(int i)// 十进制转成二进制 Integer.valueOf(m,n).toString() // 把n进制的m转换为10进制
BitMap实现原理
在java中,一个int类型占32个字节,我们用一个int数组来表示时未new int[32],总计占用内存32*32bit,现假如我们用int字节码的每一位表示一个数字的话,那么32个数字只需要一个int类型所占内存空间大小就够了,这样在大数据量的情况下会节省很多内存。
具体思路:
1个int占4字节即4*8=32位,那么我们只需要申请一个int数组长度为 int tmp[1+N/32]即可存储完这些数据,其中N代表要进行查找的总数,tmp中的每个元素在内存在占32位可以对应表示十进制数0~31,所以可得到BitMap表:
tmp[0]:可表示0~31
tmp[1]:可表示32~63
tmp[2]可表示64~95
.......
那么接下来就看看十进制数如何转换为对应的bit位:
假设这40亿int数据为:6,3,8,32,36,......,那么具体的BitMap表示为:
如何判断int数字在tmp数组的哪个下标,这个其实可以通过直接除以32取整数部分,例如:整数8除以32取整等于0,那么8就在tmp[0]上。另外,我们如何知道了8在tmp[0]中的32个位中的哪个位,这种情况直接mod上32就ok,又如整数8,在tmp[0]中的第8 mod上32等于8,那么整数8就在tmp[0]中的第八个bit位(从右边数起)。
BitMap源码
private long length;private static int[] bitsMap;private static final int[] BIT_VALUE = {0x00000001, 0x00000002, 0x00000004, 0x00000008, 0x00000010, 0x00000020,0x00000040, 0x00000080, 0x00000100, 0x00000200, 0x00000400, 0x00000800, 0x00001000, 0x00002000, 0x00004000,0x00008000, 0x00010000, 0x00020000, 0x00040000, 0x00080000, 0x00100000, 0x00200000, 0x00400000, 0x00800000,0x01000000, 0x02000000, 0x04000000, 0x08000000, 0x10000000, 0x20000000, 0x40000000, 0x80000000};public BitMap2(long length) {this.length = length;/*** 根据长度算出,所需数组大小* 当 length%32=0 时大小等于* = length/32* 当 length%32>0 时大小等于* = length/32+l*/bitsMap = new int[(int) (length >> 5) + ((length & 31) > 0 ? 1 : 0)];}/*** @param n 要被设置的值为n*/public void setN(long n) {if (n < 0 || n > length) {throw new IllegalArgumentException("length value "+n+" is illegal!");}// 求出该n所在bitMap的下标,等价于"n/5"int index = (int) n>>5;// 求出该值的偏移量(求余),等价于"n%31"int offset = (int) n & 31;/*** 等价于* int bits = bitsMap[index];* bitsMap[index]=bits| BIT_VALUE[offset];* 例如,n=3时,设置byte第4个位置为1 (从0开始计数,bitsMap[0]可代表的数为:0~31,从左到右每一个bit位表示一位数)* bitsMap[0]=00000000 00000000 00000000 00000000 | 00000000 00000000 00000000 00001000=00000000 00000000 00000000 00000000 00001000* 即: bitsMap[0]= 0 | 0x00000008 = 3** 例如,n=4时,设置byte第5个位置为1* bitsMap[0]=00000000 00000000 00000000 00001000 | 00000000 00000000 00000000 00010000=00000000 00000000 00000000 00000000 00011000* 即: bitsMap[0]=3 | 0x00000010 = 12*/bitsMap[index] |= BIT_VALUE[offset];}/*** 获取值N是否存在* @return 1:存在,0:不存在*/public int isExist(long n) {if (n < 0 || n > length) {throw new IllegalArgumentException("length value illegal!");}int index = (int) n>>5;int offset = (int) n & 31;int bits = (int) bitsMap[index];// System.out.println("n="+n+",index="+index+",offset="+offset+",bits="+Integer.toBinaryString(bitsMap[index]));return ((bits & BIT_VALUE[offset])) >>> offset;}
BitMap应用
1:看个小场景 > 在3亿个整数中找出不重复的整数,限制内存不足以容纳3亿个整数。
对于这种场景我可以采用2-BitMap来解决,即为每个整数分配2bit,用不同的0、1组合来标识特殊意思,如00表示此整数没有出现过,01表示出现一次,11表示出现过多次,就可以找出重复的整数了,其需要的内存空间是正常BitMap的2倍,为:3亿*2/8/1024/1024=71.5MB。
具体的过程如下:
扫描着3亿个整数,组BitMap,先查看BitMap中的对应位置,如果00则变成01,是01则变成11,是11则保持不变,当将3亿个整数扫描完之后也就是说整个BitMap已经组装完毕。最后查看BitMap将对应位为11的整数输出即可。
2:已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码的个数。
8位最多99 999 999,大概需要99m个bit,大概10几m字节的内存即可。 (可以理解为从0-99 999 999的数字,每个数字对应一个Bit位,所以只需要99M个Bit==1.2MBytes,这样,就用了小小的1.2M左右的内存表示了所有的8位数的电话)
BitMap问题
BitMap 的思想在面试的时候还是可以用来解决不少问题的,然后在很多系统中也都会用到,算是一种不错的解决问题的思路。
但是 BitMap 也有一些局限,因此会有其它一些基于 BitMap 的算法出现来解决这些问题。
- 数据碰撞。比如将字符串映射到 BitMap 的时候会有碰撞的问题,那就可以考虑用 Bloom Filter 来解决,Bloom Filter 使用多个 Hash 函数来减少冲突的概率。
- 数据稀疏。又比如要存入(10,8887983,93452134)这三个数据,我们需要建立一个 99999999 长度的 BitMap ,但是实际上只存了3个数据,这时候就有很大的空间浪费,碰到这种问题的话,可以通过引入 Roaring BitMap 来解决。
另一种方式分析BitMap
一、问题引入
如果用BitMap思想来解决的话,就好很多,解决方案如下:
一个byte是占8个bit,如果每一个bit的值就是有或者没有,也就是二进制的0或者1,如果用bit的位置代表数组值有还是没有, 那么0代表该数值没有出现过,1代表该数组值出现过。不也能描述数据了吗?具体如下图:
bitMap结构.p
是不是很神奇,那么现在假如10亿的数据所需的空间就是3.72G/32了吧,一个占用32bit的数据现在只占用了1bit,节省了不少的空间,排序就更不用说了,一切显得那么顺利。这样的数据之间没有关联性,要是读取的,你可以用多线程的方式去读取。时间复杂度方面也是O(Max/n),其中Max为byte[]数组的大小,n为线程大小。
三、应用与代码
如果BitMap仅仅是这个特点,我觉得还不是它的优雅的地方,接下来继续欣赏它的魅力所在。下面的计算思想其实就是针对bit的逻辑运算得到,类似这种逻辑运算的应用场景可以用于权限计算之中。
再看代码之前,我们先搞清楚一个问题,一个数怎么快速定位它的索引号,也就是说搞清楚byte[index]的index是多少,position是哪一位。举个例子吧,例如add(14)。14已经超出byte[0]的映射范围,在byte[1]范围之类。那么怎么快速定位它的索引呢。如果找到它的索引号,又怎么定位它的位置呢。Index(N)代表N的索引号,Position(N)代表N的所在的位置号。
Index(N) = N/8 = N >> 3;
Position(N) = N%8 = N & 0x07;
(1) add(int num)
你要向bitmap里add数据该怎么办呢,不用担心,很简单,也很神奇。
上面已经分析了,add的目的是为了将所在的位置从0变成1.其他位置不变.
代码:
public void add(int num){// num/8得到byte[]的indexint arrayIndex = num >> 3; // num%8得到在byte[index]的位置int position = num & 0x07; //将1左移position后,那个位置自然就是1,然后和以前的数据做|,这样,那个位置就替换成1了。bits[arrayIndex] |= 1 << position; }
(2) clear(int num)
对1进行左移,然后取反,最后与byte[index]作与操作。
实例代码:
public void clear(int num){// num/8得到byte[]的indexint arrayIndex = num >> 3; // num%8得到在byte[index]的位置int position = num & 0x07; //将1左移position后,那个位置自然就是1,然后对取反,再与当前值做&,即可清除当前的位置了.bits[arrayIndex] &= ~(1 << position); }
(3) contain(int num)
public boolean contain(int num){ // num/8得到byte[]的indexint arrayIndex = num >> 3; // num%8得到在byte[index]的位置int position = num & 0x07; //将1左移position后,那个位置自然就是1,然后和以前的数据做&,判断是否为0即可return (bits[arrayIndex] & (1 << position)) !=0; }
全部代码:
public class BitMap {//保存数据的private byte[] bits;//能够存储多少数据private int capacity;public BitMap(int capacity){this.capacity = capacity;//1bit能存储8个数据,那么capacity数据需要多少个bit呢,capacity/8+1,右移3位相当于除以8bits = new byte[(capacity >>3 )+1];}public void add(int num){// num/8得到byte[]的indexint arrayIndex = num >> 3; // num%8得到在byte[index]的位置int position = num & 0x07; //将1左移position后,那个位置自然就是1,然后和以前的数据做|,这样,那个位置就替换成1了。bits[arrayIndex] |= 1 << position; }public boolean contain(int num){// num/8得到byte[]的indexint arrayIndex = num >> 3; // num%8得到在byte[index]的位置int position = num & 0x07; //将1左移position后,那个位置自然就是1,然后和以前的数据做&,判断是否为0即可return (bits[arrayIndex] & (1 << position)) !=0; }public void clear(int num){// num/8得到byte[]的indexint arrayIndex = num >> 3; // num%8得到在byte[index]的位置int position = num & 0x07; //将1左移position后,那个位置自然就是1,然后对取反,再与当前值做&,即可清除当前的位置了.bits[arrayIndex] &= ~(1 << position); }public static void main(String[] args) {BitMap bitmap = new BitMap(100);bitmap.add(7);System.out.println("插入7成功");boolean isexsit = bitmap.contain(7);System.out.println("7是否存在:"+isexsit);bitmap.clear(7);isexsit = bitmap.contain(7);System.out.println("7是否存在:"+isexsit);} }
出处: https://my.oschina.net/freelili/blog/2885263
http://www.cnblogs.com/wuhuangdi/p/4126752.html#3074215
转载于:https://www.cnblogs.com/myseries/p/10880641.html
BitMap的原理和实现相关推荐
- BitMap的原理以及运用
位图(Bitmap),即位(Bit)的集合,是一种数据结构,可用于记录大量的0-1状态,在很多地方都会用到,比如Linux内核(如inode,磁盘块).Bloom Filter算法等,其优势是可以在一 ...
- Redis 中 bitmap 的原理和使用
原理 先声明一下:Redis 有5种数据类型,而 BitMap 在 Redis 中并不是一个新的数据类型,其底层是 Redis 实现. 通常情况下,我们在 redis 中存储一个字符串,如:" ...
- BitMap的原理介绍与实现
BitMap 位图(bitmap)是一种非常常用的结构,在索引,数据压缩等方面有广泛应用.位图是通过将数组下标与应用中的一些值关联映射,数组中该下标所指定的位置上的元素可以用来标识应用中值的情况(是否 ...
- Python中bitmap数据结构的构造和使用
文章目录 起因 解决方案1:构造bitmap 解决方案2:集合 题外话 起因 我想用bitmap的原因是因为我写了一个B站用户的爬虫,是通过关系网进行爬取的,所以我需要确定一个ID是否已经被爬取过.B ...
- 十六、Redis三种特殊类型之三Bitmap
一.BitMap是什么 通过一个bit位来表示某个元素对应的值或者状态,其中的key就是对应元素本身,value对应0或1,我们知道8个bit可以组成一个Byte,所以bitmap本身会极大的节省储存 ...
- 教你用BitMap排序、查找和存储大量数据
Bit-map的基本思想就是用一个bit位来标记某个元素对应的Value,而Key即是该元素.由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省. Bit-map概述 假设现在有这样一 ...
- oracle 分组排序后取第一条_关于oracle中位图索引的探讨:概念、原理、优缺点...
概述 oracle索引主要分为以下几种: 1. b-tree索引 Oracle数据库中最常见的索引类型是b-tree索引,也就是B-树索引,以其同名的计算科学结构命名.CREATE INDEX语句时, ...
- bitmap 转byte[]后读取_闲谈redis的bitmap
bitmap的原理 bitmap就是通过最小的单位bit(8bit = 1b = 0.001kb)来进行0或者1的设置,表示某个元素对应的值或者状态.一个bit的值,或者是0,或者是1:也就是说一个b ...
- c语言 字符串map,C语言实现BitMap
BitMap的原理不用多说了. 主要说下位操作. 我们假设每个基础存储单元为char,则BYTESIZE = 8,如果为int则16 or 32. 当设置i时,首先ptr+=i/BYTESIZE,到达 ...
最新文章
- C++实现大数的减法
- CentOS如何查看端口是被哪个应用/进程占用
- https ssl 非对称加密
- Silverlight 导入数据时读取txt文件乱码
- win10系统winsxs文件夹该如何删除
- c语言数据结构插入算法说明,C语言数据结构插入算法
- ElmentUI Select 有个坑要注意下
- [读书笔记]Ajax的通信方式 (一)
- SpringBoot Environment读取配置文件乱码
- android 进度gif,Android NumberProgressBar:动态移动显示百分比进度的进度条
- 2021-CVPR-Inpainting论文导读
- 河北省高中会考计算机试题及答案,河北省高中信息技术会考题.doc
- PointNet解读
- JavaScript验证邮箱格式是否正确
- 存储服务器2012R2系统怎么搞文件共享,server2012r2文件共享局域网权限设置的方法...
- 【斯坦福公开课-机器学习】1.机器学习的动机和应用(吴恩达 Andrew Ng)
- centos安装mysql_centos如何安装mysql
- 智能运维监控管理平台技术方案
- linux nginx rpm 安装配置,Centos下安装nginx rpm包
- 获取DataTable中的某一列及增加一行数据
热门文章
- SpringBoot中通过自定义缓存注解(AOP切面拦截)实现数据库数据缓存到Redis
- Angular中使用axios实现get请求数据
- IDEA 2019.2版本下载安装与PJ教程
- 使用 Flutter 制作一个简单的笑话生成器应用程序
- 89c52单片机c语言延时程序计算 脉冲,stc89c52单片机的程序 求翻译
- php 更新页面代码,php – 自动更新页面的代码大纲
- 中原银行签约神策数据 数据驱动构建智能服务体系
- 算法学习--买卖股票的最佳时机
- 初涉.....编码__列表__字典
- spring boot实现软删除