我们先来看个简单的问题。

假如给你20亿个非负数的int型整数,然后再给你一个非负数的int型整数t,让你判断t是否存在于这20亿数种,你会怎么做呢?

有人可能会用一个int数组,然后把20亿个数给存进去,然后再循环遍历以下就可以了。

想一下,这样的话,时间复杂度是O(n),所需要的内存空间

4byte * 20亿,一共需要80亿个字节。

大概需要8GB的内存空间,显然有些计算机的内存一次是加载不了这么多的数据的。

初步优化

按照上面的做法,时间复杂度是O(n),内存是8GB,实际上我们是可以把时间复杂度降低到O(1)的。

例如我们可以这样来存数据,把一个int非负整数n作为数组下标,如果n存在,则对应的值为1,如果不存在,对应的值为0,例如数组arr[n]=1,表示n存在,arr[n]=0表示n不存在。

那么,我们就可以把20亿个数作为下标来存,之后直接判断arr[t]的值,如果arr[t]=1,则代表存在,如果arr[t]=0,则代表不存在。这样,我们就可以把时间复杂度降低到O(1)。不过空间复杂度我们并没有降低。还稍微大了点。

由于int非负整数一共有2^31个,所以数组的大小需要2^31这么大。

这里可能有人说也可以用HashSet来存啊,时间复杂度也是近似O(1)。不过这里需要说明的是,HashSet里面存的必须是对象,也就是说需要把int包装成Integer,显然一个对象的话是更花销内存的,需要对象头啊什么的…..

再次优化

大家想一个问题,对于一个数,实际上我们只需要两种状态,就是这个数存在不存在这两种可能。上面我们用1代表存在,用0代表不存在。

也就是说,我们是可以不用int型的数组来存储的,一个int型占用4个字节,即32个二进制位,一共可以表示40亿多个状态。用int型的来存两个状态,多浪费。

所以我们可以考虑用boolean型的来存的,boolean貌似就占用一个字节(java中的boolena貌似是占用一个字节)。而一个boolean有true和false两种状态,所以也是成立的。这样子的话占用的内存就是2GB的内存了。

这样,就可以降低到之前的四分之1内存了。

最终优化:bitmap

大家再想一个问题,虽然boolean是表示两种状态,但是boolean实际上占用了8bit啊,按道理8bit是可以表示128种状态的。而被我们拿来表示两个状态,是否也有点浪费了呢?

我们都知道,一个二进制位,有0和1两种状态,所以说,其实我们是可以用一个二进制位来代表一个int型的数是否存在的。例如对于1,3,5,7这四个数,如果存在的话,则可以这样表示:

1代表这个数存在,0代表不存在。例如表中01010101代表1,3,5,7存在,0,2,4,6不存在。

那如果8,10,14也存在怎么存呢?如图,8,10,14我们可以存在第二个字节里

以此类推。这样子,我们又可以把内存降低到之前的8分之一了。

这种采用一个二进制位来存储数据的方法,我们也叫做bitmap算法

可能有人会问,假如我要添加一个数n,我知道它要存在第n个位那里,把第n个二进制改为1,可是我要怎么操作呢?

这个对于bitmap算法是如何存储的,如何进行增删操作的,我会在之后的文章里讲,这篇就大概介绍下bitmap算法。

Java中有自带的bitmap实现,今天我们就用Java中自带的bitmap来做道题练练手。我们换道类似题目吧,不知道你一眼是否就能想到用bitmap算法来做。

题目描述:

现在有五十亿个int类型的正整数,要从中找出重复的数并返回。

判断50亿个数有哪些是重复和刚才上面那个判断是否存在,其实是一样的。我们采用bitmap算法来做。不过这里50亿个数,别人肯定是以文件流的形式给你的。这样我们为了方便,我们就假设这些数是以存在int型数组的形式给我们的

代码如下:

public class Test {//为了方便,假设数据是以数组的形式给我们的public static Set<Integer> test(int[] arr) {int j = 0;//用来把重复的数返回,存在Set里,这样避免返回重复的数。Set<Integer> output = new HashSet<>();BitSet bitSet = new BitSet(Integer.MAX_VALUE);int i = 0;While(i < arr.length) {int value = arr[i];//判断该数是否存在bitSet里if (bitSet.get(value)) {output.add(value);} else {bitSet.set(value, true);}i++;}return output;}//测试public static void main(String[] args) {int[] t = {1,2,3,4,5,6,7,8,3,4};Set<Integer> t2 = test(t);System.out.println(t2);}
}

打印结果:

[3,4]

当然,bitmap算法的应用不仅仅是节省内存,它还有很多其他的优点。之后有机会就拿一些其他的应用来写篇文章。

本次讲解到此结束。如果喜欢,可以分享给更多的小伙伴哦。

参考链接:

https://mp.weixin.qq.com/s?__biz=MzUxNzg0MDc1Mg==&mid=2247484151&idx=1&sn=259faf3159b7ad3ca221dc3685b116de&chksm=f99348e8cee4c1fe591fde5ee6df0f771eff4a4c1e88bfb861eb6b6aff9d1aff20e9f8d563bd&scene=21#wechat_redirect

《算法与数据结构专场》BitMap算法介绍相关推荐

  1. 【算法与数据结构专场】BitMap算法基本操作代码实现

    上篇我们讲了BitMap是如何对数据进行存储的,没看过的可以看一下[算法与数据结构专场]BitMap算法介绍 这篇我们来讲一下BitMap这个数据结构的代码实现. 回顾下数据的存储原理 一个二进制位对 ...

  2. python算法与数据结构-希尔排序算法

    希尔排序(shell sort)是插入排序的一种,也称缩小增量排序,与普通的插入算法的区别就是gap步长. 希尔排序内层循环逻辑如下所示: 上面的可以分为4组,一个一个的按照插入算法来做,第一组有54 ...

  3. 数据结构与算法专题——第一题 Bitmap算法

    在所有具有性能优化的数据结构中,我想大家使用最多的就是hash表,是的,在定位查找场景上具有O(1)的常量时间,多么的简洁优美, 但是在特定的场合下: ①:对10亿个不重复的整数进行排序. ②:找出1 ...

  4. 算法与数据结构——位图BitMap

    一.介绍 1.1 什么是位图 在Java中有四种整数类型:byte.short.int.long. 1 byte(字节) = 8 bit(位) 1 int = 4 byte = 32 bit 所以我们 ...

  5. python算法与数据结构-希尔排序算法(35)

    阅读目录 一.希尔排序的介绍 二.希尔排序的原理 三.希尔排序的图解 四.希尔排序的python代码实现 五.希尔排序的C语言实现 六.希尔排序的时间复杂度 七.希尔排序的稳定性 一.希尔排序的介绍 ...

  6. python算法与数据结构-选择排序算法(33)

    阅读目录 一.选择排序的介绍 二.选择排序的原理 三.选择排序的图解 四.选择排序总结 五.选择排序的python代码实现 六.选择排序的C语言代码实现 七.选择排序的时间复杂度 八.选择排序的稳定性 ...

  7. 算法与数据结构(排序算法概述)

    排序算法 Sort Algorithm 排序算法是将一系列数据根据指定的顺序进行排列的过程 排序算法的分类: 内部排序:指将需要处理的所有数据都加载到内存中进行排序 插入排序 直接插入排序 希尔排序 ...

  8. java的 交换排序 快速排序算法_数据结构之排序算法Java实现(4)—— 交换类排序之快速排序算法...

    快速排序算法属于"交换类"的排序,它的效率主要跟数据分布是否对称有关. 升序排序: /** * 快速排序 * 升序排序 */ @Override public > void ...

  9. java 线性的排序算法_数据结构之排序算法Java实现(9)—— 线性排序之 基数排序算法...

    基数排序算法是计数排序的延伸,计数排序会造成很大的空间浪费,但基数排序法是对位数进行排序,适合于位数之间相差较大的情况,废话不多说,直接上代码: 升序排序法: /** * 基数排序法 * 升序排列 * ...

最新文章

  1. java类接口实验_实验3_Java类的继承和接口的定义和使用
  2. SqlServer在附加数据库时提示:无法打开物理文件**.mdf 操作系统错误拒绝访问
  3. php 机数,PHP实现自动刷数和“灌水”机
  4. 织梦ajax表单提交参数错误,【织梦二次开发】织梦jquery+ajax方式提交自定义表单...
  5. 信奥中的数学:母函数
  6. Microsoft Office SharePoint Server 2007介绍
  7. Oracle数据库中文乱码问题
  8. Liststring绑定到DataGridView控件
  9. Java基础-异常-throws Exception-抛声明
  10. Scipy 基础 —— 稀疏矩阵
  11. linux tcp文件分包_畅谈linux下TCP(下)
  12. 桥接模式 适配器模式 装饰模式
  13. 网站压力测试工具Webbench介绍
  14. 【甄选靶场】Vulnhub百个项目渗透——项目四十八:HACKNOS:OS-BYTESEC(压缩包爆破,无线爆破,环境变量挟持提权)
  15. JAVA面向对象编程---学生管理系统
  16. 国医眼科大师-唐由之-干眼症熏方
  17. Conflicting order. Following module has been added:
  18. python 马赛克拼图_使用 python 做到马赛克拼图
  19. javascript成神之路(1):如何编写高质量的js代码
  20. 简单几步搞定Mac电脑快速返回桌面的操作!

热门文章

  1. Effective Java之静态工厂代替构造器(一)
  2. C/C++数组指针和指针数组
  3. 【详细解析】1033 To Fill or Not to Fill (25 分)
  4. 1001 A+B Format (20分)——12行代码AC
  5. 数据库原理与应用(SQL Server)笔记 第十一章 游标
  6. Win7 路由上网DNS服务器ping不通的解决方法
  7. yolov3权重_目标检测之 YOLOv3 (Pytorch实现)
  8. mongoclient php扩展,lnmp安装mongo扩展后,在实例化mongoClient()时出错
  9. python3.5安装pip_pip和pip3 – 都指向python3.5?
  10. 使计算机系统使用方便和_______是操作系统的两个主要设计目标,操作系统练习.doc...