有一道流传广泛的面试题:

给你一台 4G 内存的机器,一组 20 亿个无序正整数,如何快速地判断一个正整数 N 是否在这组数字中?或者如何快速地对这组数据排重后排序?

让我们先算算 20 亿个整数会占用多大的内存空间,Java 的 int 类型占用 4 个字节,那么 20 亿 * 4 再换算成 G 大约是 7.5G,大于题目中 4G 内存的限制,无法一次性地放到内存中;

这时候有些伙伴会说:“把数据放到磁盘上,然后分批将数据读取到内存中就行查询”,但是这种方法会导致多次磁盘 IO,而且只能解决第一个查找的问题,排序就没有办法做到了。

01

BitMap 的概念

BitMap 能够很好地解决这个问题;它是用一个 Bit 位来标记某个元素对应的 Value, 而 Key 即是该元素,比如我们初始化一个类型为 bit、长度为 8 的数组,数组下标 0-7,数组中的内容 1 表示存在,0 表示不存在,那么:

00000001 下标为 0 的位置,对应值是1,那么表示 0;同理:

00000010 表示 1;

00000100 表示 2;

00001000 表示 3;

...

10000000 表示 7;

如果一组数据 {2,3,4,7} 放到同一个数组中的话,就是 10011100:

如果按照 int 数组存储,{2,3,4,7} 需要 4 * 4 * 8 个 bit 才能存储的数据,但是现在 BitMap 只需要 8 个 bit 就可以存储,很大地节省了存储空间,并且排重后的排序也变的非常简单了;如果用 byte 实现的话,只需要 1 个 byte 就可以(1 byte = 8 bits)。

如果增加了一个数字 10 呢,那么 1 个 byte 就不够了:

02

数据结构及初始化

我们可以得知,BitMap 的容量大小取决于最大的那个数值,比如要存储 {2,3,4,7,10}:

如果用 bit 数组实现(假如有的话),那么需要 10 + 1 个长度;

如果是用 byte 数组实现,那么需要 10/8 + 1 个长度;

如果是用 int 数组实现,那么就需要 10/32 + 1 个长度(1 个 int 等于 4 个 bytes,等于 32 个 bits);

明白了这点之后,一个简单的 BitMap 数据结构也就可以确定了:

public class BitMap {    //数据    private byte[] bits;     //最大值    private int max_value;    //容量    private int capacity;     /**     * 初始化     * @param capacity     */    public BitMap(int max_value){        this.max_value = max_value;        //1bit存储8个数据,存储最大值为 max_value 的数组需要 max_value/8+1 个 byte,除以8就是右移3位        this.capacity = (max_value >> 3 ) + 1;        bits = new byte[capacity];    }}

03

添加数据

添加数据,需要快速地定位到这个元素要存到整个数组中的哪个位置,这里有两个概念:

索引号 index:数据保存在整个数组的哪个下标中;

位置号 position:数据在这个下标元素的哪个位置;

比如 10 保存在 index = 1,position = 2(从 0 开始) 这个位置中,经推算可得:

index = N / 8position = N % 8

知道了 10 保存的位置之后,怎么把对应位置的数据更改成 1 呢?可以用“位或”运算。将 10 添加到 BitMap 中的完整步骤如下:

计算 index = 10/8 = 1 ;

计算 position = 10%8 = 2 ;

将 byte[1] 的数据与 0000100 做“位或”运算,其中 0000100 是通过对 1 左移 2 得到。

完整的代码如下:

public void add(int num){    //数据保存在整个数组的哪个下标中    int index = num / 8;    //数据在这个下标元素的哪个位置    int position = num % 8;     bits[index] |= 1<

04

判断数字是否存在

知道了如何判断数字的索引号和位置号之后,判断数字是否存在也就容易了,直接使用“位与”运算,代码如下:

public boolean contains(int num){  if(num > max_value){    return false;  }  //数据保存在整个数组的哪个下标中  int index = num / 8;  //数据在这个下标元素的哪个位置  int position = num % 8;  return (bits[index] & 1<

4g数据需要排序计算机内存,20 亿个数字在 4G 内存中如何去重排序:快来试一试 BitMap...相关推荐

  1. 20 亿个数字在 4G 内存中如何去重排序:快来试一试 BitMap

    作者 l 会点代码的大叔(CodeDaShu) 有一道流传广泛的面试题: 给你一台 4G 内存的机器,一组 20 亿个无序正整数,如何快速地判断一个正整数 N 是否在这组数字中?或者如何快速地对这组数 ...

  2. 【编程题目】输入一个已经按升序排序过的数组和一个数字,在数组中查找两个数,使得它们的和正好是输入的那个数字。...

    第 14 题(数组): 题目:输入一个已经按升序排序过的数组和一个数字, 在数组中查找两个数,使得它们的和正好是输入的那个数字. 要求时间复杂度是 O(n).如果有多对数字的和等于输入的数字,输出任意 ...

  3. 输入一个已经按升序排序过的数组和一个数字, 在数组中查找两个数,使得它们的和正好是输入的那个数字。

    原文转自:http://blog.csdn.net/u013322907/article/details/38300711 题目:输入一个已经按升序排序过的数组和一个数字,在数组中查找两个数,使得它们 ...

  4. Java快速生成20亿数字_20 亿个数字在 4G 内存中如何去重排序:快来试一试 BitMap...

    有一道流传广泛的面试题: 给你一台 4G 内存的机器,一组 20 亿个无序正整数,如何快速地判断一个正整数 N 是否在这组数字中?或者如何快速地对这组数据排重后排序? 让我们先算算 20 亿个整数会占 ...

  5. 对10亿个数据去重java_20 亿个数字在 4G 内存中如何去重排序:快来试一试 BitMap...

    有一道流传广泛的面试题: 给你一台 4G 内存的机器,一组 20 亿个无序正整数,如何快速地判断一个正整数 N 是否在这组数字中?或者如何快速地对这组数据排重后排序? 让我们先算算 20 亿个整数会占 ...

  6. 计算机排位函数升序是0还是1,Excel中Rank函数排序的方法,包含相同数字按顺序排位和分段排序-excel排序...

    在 Excel 中,Rank函数用于实现一个数字在指定数字列表中的排位,并且可以通过拖动的办法实现对整个数字列表的自动排序.Rank函数共有三个参数,前两个为必选项,后一个为可选项:如果省略可选项,将 ...

  7. python中排序英文单词怎么写_Python实现对文件进行单词划分并去重排序操作示例...

    本文实例讲述了Python实现对文件进行单词划分并去重排序操作.,具体如下: 文件名:test1.txt 文件内容: But soft what light through yonder window ...

  8. excel表格内数据为何无法计算机,excel表格怎么设置数字下拉数值不变不递增

    我们在表格中需要填写序号,但是一个一个的写太累了,下面我们就来介绍Excel下拉数字递增怎么设置. 工具/材料 电脑. 填充区域 01先选中表格需要填充的区域. 02在上方输入你想接下来都不变化的那个 ...

  9. 目前我国家庭计算机用户接入因特网的下述,目前我国家庭计算机用户接入因特网的下述几种方法中,速度最快的是_ _ 。...

    唐朝科举考试重视明经,目前有三十老进士,五十少明经一说. 根据"五过之疵",家庭计算机用受人请托属于? 户接马锡五审判方式体现了下列中华法文化的哪一个特点? 战国末期的秦国,入因担 ...

  10. mysql 自然排序_如何在mysql中实现自然排序

    背景 熟悉mysql的同学应该清楚,mysql在对字符串做order by排序时是按照字典序进行排序的,但是如果字符串中包含数字的话(我们称这种类型的字符串为alphanumeric),仅按照字典序的 ...

最新文章

  1. KinectFusion基于深度的实时稠密三维重建TSDF开山之作
  2. Git_Eclipse:[3]Git初始化工程
  3. mapreduce 算法
  4. Granular Computing(粒计算)
  5. 图像的存储格式转化(python实现)
  6. 工业机器人工具中心点标定的意义_一种利用平面标定板的机器人工具中心点标定方法_2015108676182_说明书_专利查询_专利网_钻瓜专利网...
  7. 大学计算机基础实训excel,大学计算机基础实训指导书
  8. mysql执行计划中的temp_MYSQL语句调优:GROUP BY ORDER BY语句中出现USING TEMPATORY
  9. 在ASP.NET MVC中实现Select多选
  10. .net remoting 技术
  11. 不同vlan之间如何ping通_如何利用交换机实现不同VLAN、不同网段之间互访?
  12. mysql handler socket_mysql-handlersocket
  13. Excel2003和Excel2007的区别
  14. python查找csv中某个数据_使用Python从CSV文件中查找中值
  15. Qt-Arm交叉编译以及调用虚拟键盘(中英)
  16. 计算机技术教学方法,浅谈计算机软件技术教学方法
  17. 广汉计算机哪个学校学最好,计算机专业四川省的广汉市哪个专业学院比较不错...
  18. 阿里quickbi、观远报表平台以及tableau的使用
  19. Java:自动类型转换和强制类型转换的规则
  20. 我所首席执行主任律师王杰接受《电脑报》记者采访就sp发展发表观点

热门文章

  1. spark ml pipelines
  2. linux cpu占用分析,Linux下CPU占用率高分析方法
  3. hosts—20111010
  4. spring boot+thymeleaf+layui实现后台管理系统界面
  5. 怎样免费下载知网、万方数据库等文献库的文献?
  6. Unity 通过代码修改材质球属性
  7. mysql slave_pending_jobs_size_max_3分钟解决MySQL 1864 主从错误
  8. iOS_Pass iOS10适配:权限访问、MiPush小米推送(更新中)
  9. 文华财经期货K线多周期画线技术,多重短线技术共振通道线指标公式——多周期主图自动画线
  10. python 网格交易源码_文华财经网格交易源码