这几天小秋去面试了,不过最近小秋学习了不少和位算法相关文章,例如

【面试现场】如何判断一个数是否在40亿个整数中?

【算法技巧】位运算装逼指南

对于算法题还是有点信心的,,,,于是,发现了如下对话。

20亿级别

面试官:如果我给你 2GB 的内存,并且给你 20 亿个 int 型整数,让你来找出次数出现最多的数,你会怎么做?

小秋:(嗯?怎么感觉和之前的那道判断一个数是否出现在这 40 亿个整数中有点一样?可是,如果还是采用 bitmap 算法的话,好像无法统计一个数出现的次数,只能判断一个数是否存在),我可以采用哈希表来统计,把这个数作为 key,把这个数出现的次数作为 value,之后我再遍历哈希表哪个数出现最多的次数最多就可以了。

面试官:你可以算下你这个方法需要花费多少内存吗?

小秋:key 和 value 都是 int 型整数,一个 int 型占用 4B 的内存,所以哈希表的一条记录需要占用 8B,最坏的情况下,这 20 亿个数都是不同的数,大概会占用 16GB 的内存。

面试官:你的分析是对的,然而我给你的只有 2GB 内存。

小秋:(感觉这道题有点相似,不过不知为啥,没啥思路,这下凉凉),目前没有更好的方法。

面试官:按照你那个方法的话,最多只能记录大概 2 亿多条不同的记录,2 亿多条不同的记录,大概是 1.6GB 的内存。

小秋:(嗯?面试官说这话是在提示我?)我有点思路了,我可以把这 20 亿个数存放在不同的文件,然后再来筛选。

面试题:可以具体说说吗?

小秋:刚才你说,我的那个方法,最多只能记录大概 2 亿多条的不同记录,那么我可以把这 20 亿个数映射到不同的文件中去,例如,数值在 0 至 2亿之间的存放在文件1中,数值在2亿至4亿之间的存放在文件2中…,由于 int 型整数大概有 42 亿个不同的数,所以我可以把他们映射到 21 个文件中去,如图

显然,相同的数一定会在同一个文件中,我们这个时候就可以用我的那个方法,统计每个文件中出现次数最多的数,然后再从这些数中再次选出最多的数,就可以了。

面试官:嗯,这个方法确实不错,不过,如果我给的这 20 亿个数数值比较集中的话,例如都处于 1~20000000 之间,那么你都会把他们全部映射到同一个文件中,你有优化思路吗?

小秋:那我可以先把每个数先做哈希函数映射,根据哈希函数得到的哈希值,再把他们存放到对应的文件中,如果哈希函数设计到好的话,那么这些数就会分布的比较平均。(关于哈希函数的设计,我就不说了,我这只是提供一种思路)

40亿级别

面试官:那如果我把 20 亿个数加到 40 亿个数呢?

小秋:(这还不简单,映射到42个文件呗)那我可以加大文件的数量啊。

面试官:那如果我给的这 40 亿个数中数值都是一样的,那么你的哈希表中,某个 key 的 value 存放的数值就会是 40 亿,然而 int 的最大数值是 21 亿左右,那么就会出现溢出,你该怎么办?

小秋:(那我把 int 改为 long 不就得了,虽然会占用更多的内存,那我可以把文件分多几份呗,不过,这应该不是面试官想要的答案),我可以把 value 初始值赋值为 负21亿,这样,如果 value 的数值是 21 亿的话,就代表某个 key 出现了 42 亿次了。

这里说明下,文件还是 21 个就够了,因为 21 个文件就可以把每个文件的数值种类控制在 2亿种了,也就是说,哈希表存放的记录还是不会超过 2 亿中。

80亿级别

面试官:反应挺快哈,那我如果把 40 亿增加到 80 亿呢?

小秋:(我靠,这变本加厉啊)…我知道了,我可以一边遍历一遍判断啊,如果我在统计的过程中,发现某个 key 出现的次数超过了 40 亿次,那么,就不可能再有另外一个 key 出现的次数比它多了,那我直接把这个 key 返回就搞定了。

面试官:行,此次面试到此结束,回去等通知吧。

总结

今天这篇文章主要讲了大数据处理相关的一些问题,后面可能还会给大家找一些类似,但处理方式不同的题勒,大家如果觉得不错,不妨:

老铁,要不点个赞再走可好?么么哒

1、给俺点个赞呗,可以让更多的人看到这篇文章,顺便激励下我,嘻嘻。

2、老铁们,关注我的原创微信公众号「帅地玩编程」,专注于写算法 + 计算机基础知识(计算机网络+ 操作系统+数据库+Linux)。

保存让你看完有所收获,不信你打我。后台回复『电子书』送你一份精选电子书大礼包,包含各类技能的优质电子书。

作者简洁

作者:大家好,我是帅地,从大学、校招一路走来,深知算法计算机基础知识的重要性,所以申请了一个微星公众号『帅地玩编程』,专业于写这些底层知识,提升我们的内功,帅地期待你的关注,和我一起学习。 转载说明:未获得授权,禁止转载

最后,给大家推荐一个珍藏已久的 github,看我保证你爱上

地址在这里:点击前往Github

【面试被虐】如何只用2GB内存从20亿,40亿,80亿个整数中找到出现次数最多的数?相关推荐

  1. 只用2GB的内存找出20亿个整数中找到出现次数最多的数

    要求有一个包含20亿个32位整数的文件,从中找到出现次数最多的数. 首先先分析一下,32位int类型的数占4B,20亿个4B 约为 8GB,只用2GB肯定不够.所以我们肯定需要将这20亿个数哈希到不同 ...

  2. 只有2GB内存在20亿个整数中找到出现次数最多的数

    题目:有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数 要求:内存限制2GB 解决办法:把包含20亿个数的大文件用哈希函数分成16个小文件,根据哈希函数的性质,同一种数不可能被散列 ...

  3. 【面试被虐】如何只用2GB内存从20亿,40亿,80亿个整数中找到出现次数最多的数?...

    这几天小秋去面试了,不过最近小秋学习了不少和位算法相关文章,例如 [面试现场]如何判断一个数是否在40亿个整数中? [算法技巧]位运算装逼指南 对于算法题还是有点信心的,,,,于是,发现了如下对话. ...

  4. 如何只用2GB内存从20/40/80亿个整数中找到出现次数最多的数

    来源:公众号[苦逼的码农] 这几天小秋去面试了,不过最近小秋学习了不少和位算法相关文章,例如: [算法技巧]位运算装逼指南 对于算法题还是有点信心的,,,,于是,发现了如下对话. 20亿级别 面试官: ...

  5. 挑战程序员同学,如何只用2GB内存从20/40/80亿个整数中找到出现次数最多的数?

    按位比较,比如先遍历一遍数字,判断第一位是0还是1多,然后便利多的那一位的数字,判断第二位是0还是1多,依次判断到第32位,就是出现次数最多的数字了 好吧,这个算法不对 我感觉这个题目是不是考的排序算 ...

  6. 【漫画+图解】面试官让我用 2GB 内存给 20亿个整数(需要8GB内存)排序,我该咋整??

    排序的时候我们可以选择快速排序或归并排序等算法.为了方便,我们把排序好的2G有序数据称之为有序子串吧.接着我们可以把两个小的有序子串合并成一个大的有序子串. 注意:读取的时候是每次读取一个int数,通 ...

  7. 设一组初始记录关键字序列为(25,50,15,35,80,85,20,40,36,70)进行一趟归并后的结果为

    设一组初始记录关键字序列为(25,50,15,35,80,85,20,40,36,70),其中含有5个长度为2的有序子表,则用归并排序的方法对该记录关键字序列进行一趟归并后的结果为(   ). 15, ...

  8. 【你好面试官】008 Java内存模型指volatile底层原理详解、多处理器原子操作实现原理

    微信公众号:你好面试官 这里没有碎片化的知识,只有完整的知识体系. 专注于系统全面的知识点讲解,面试题目解析; 如果你觉得文章对你有帮助,欢迎关注.分享.赞赏. ###前言 二蛋几天没有收到面试通知, ...

  9. 树莓派4开机黑屏_树莓派4降价啦,2Gb内存的树莓派4降至35美元

    树莓派已经发布8年了.为了庆祝树莓派的8周年生日,树莓派首席执行官在博客中宣布,2Gb内存的树莓派现在降价至35美元(约合人民币244元). 1Gb内存版本的树莓派4不再销售,但工业和商业客户仍可使用 ...

最新文章

  1. 重新认识HBase,Cassandra列存储——本质是还是行存储,只是可以动态改变列(每行对应的数据字段)数量而已,当心不是parquet...
  2. 吃自助餐怎么样一个顺序吃法才合算?
  3. 大话设计模式(六 关于Flex的争论)
  4. PHP 和 ASP.NET的优势和弱点
  5. 通过网络使用其他计算机串口,串口如何连接两台电脑?两台电脑不能通过网线,仅能通过串口或者并口连接...
  6. 搭建网站随笔(WordPress)
  7. 卸载mysql数据库命令,值得推荐!
  8. java抓取动态生成的网页
  9. 利用RSM和RSFC配置VLAN间路由
  10. 在防御方面应如何选择服务器?
  11. 异常体系执行顺序的 注意事项
  12. 【解决有些jar包依赖就是下载不下来】
  13. 学科03:工程学重要模型
  14. java publish_java – 如何正确使用SwingWorker上的publish()和process()方法?
  15. 5元的小乌龟吃什么_小乌龟吃什么?小乌龟怎么养经验详解
  16. USACO-Subset Sums
  17. 删除文件过一会又回来_手机文件误删除如何恢复?教你实用的找回方法!
  18. 奔驰采用鸿蒙系统,华为10分钟秒充190公里模块出口奥地利,奔驰使用鸿蒙系统!...
  19. OJ(网络测试平台)的正确打开方式(C/C++)
  20. 设计模式学习之工厂模式(附demo)

热门文章

  1. 山石岩读丨一文读懂区块链安全:区块链会带来哪些冲击?
  2. bat批处理静默自动安装证书
  3. cad计算机快捷键设置,小U讲解完整版电脑CAD快捷键大全
  4. 深度学习计算模型中门函数的作用
  5. 猿创征文|瑞吉外卖——移动端_地址管理
  6. 大学英语Ⅳ(MOOC)
  7. FreeRTOS+STM32L+ESP8266+MQTT协议传输温湿度数据,控制继电器到阿里云物联网平台
  8. 福利:学生免费注册使用JB全家桶
  9. Burg法求解AR(p)模型参数(一)自回归模型
  10. phpmywind 手机站多语言版本