来源:公众号【苦逼的码农】

这几天小秋去面试了,不过最近小秋学习了不少和位算法相关文章,例如:

【算法技巧】位运算装逼指南

对于算法题还是有点信心的,,,,于是,发现了如下对话。

20亿级别

面试官:如果我给你 2GB 的内存,并且给你 20 亿个 int 型整数,让你来找出次数出现最多的数,你会怎么做?

小秋:(嗯?怎么感觉和之前的那道判断一个数是否出现在这 40 亿个整数中有点一样?可是,如果还是采用 bitmap 算法的话,好像无法统计一个数出现的次数,只能判断一个数是否存在),我可以采用哈希表来统计,把这个数作为 key,把这个数出现的次数作为 value,之后我再遍历哈希表哪个数出现最多的次数最多就可以了。

面试官:你可以算下你这个方法需要花费多少内存吗?

小秋:key 和 value 都是 int 型整数,一个 int 型占用 4B 的内存,所以哈希表的一条记录需要占用 8B,最坏的情况下,这 20 亿个数都是不同的数,大概会占用 16GB 的内存。

面试官:你的分析是对的,然而我给你的只有 2GB 内存。

小秋:(感觉这道题有点相似,不过不知为啥,没啥思路,这下凉凉),目前没有更好的方法。

面试官:按照你那个方法的话,最多只能记录大概 2 亿多条不同的记录,2 亿多条不同的记录,大概是 1.6GB 的内存。

小秋:(嗯?面试官说这话是在提示我?)我有点思路了,我可以把这 20 亿个数存放在不同的文件,然后再来筛选。

面试题:可以具体说说吗?

小秋:刚才你说,我的那个方法,最多只能记录大概 2 亿多条的不同记录,那么我可以把这 20 亿个数映射到不同的文件中去,例如,数值在 0 至 2亿之间的存放在文件1中,数值在2亿至4亿之间的存放在文件2中….,由于 int 型整数大概有 42 亿个不同的数,所以我可以把他们映射到 21 个文件中去,如图

显然,相同的数一定会在同一个文件中,我们这个时候就可以用我的那个方法,统计每个文件中出现次数最多的数,然后再从这些数中再次选出最多的数,就可以了。

面试官:嗯,这个方法确实不错,不过,如果我给的这 20 亿个数数值比较集中的话,例如都处于 1~20000000 之间,那么你都会把他们全部映射到同一个文件中,你有优化思路吗?

小秋:那我可以先把每个数先做哈希函数映射,根据哈希函数得到的哈希值,再把他们存放到对应的文件中,如果哈希函数设计到好的话,那么这些数就会分布的比较平均。(关于哈希函数的设计,我就不说了,我这只是提供一种思路)

40亿级别

面试官:那如果我把 20 亿个数加到 40 亿个数呢?

小秋:(这还不简单,映射到42个文件呗)那我可以加大文件的数量啊。

面试官:那如果我给的这 40 亿个数中数值都是一样的,那么你的哈希表中,某个 key 的 value 存放的数值就会是 40 亿,然而 int 的最大数值是 21 亿左右,那么就会出现溢出,你该怎么办?

小秋:(那我把 int 改为 long 不就得了,虽然会占用更多的内存,那我可以把文件分多几份呗,不过,这应该不是面试官想要的答案),我可以把 value 初始值赋值为 负21亿,这样,如果 value 的数值是 21 亿的话,就代表某个 key 出现了 42 亿次了。

80亿级别

面试官:反应挺快哈,那我如果把 40 亿增加到 80 亿呢?

小秋:(我靠,这变本加厉啊)………我知道了,我可以一边遍历一遍判断啊,如果我在统计的过程中,发现某个 key 出现的次数超过了 40 亿次,那么,就不可能再有另外一个 key 出现的次数比它多了,那我直接把这个 key 返回就搞定了。

面试官:行,此次面试到此结束,回去等通知吧。

总结

今天这篇文章主要讲了大数据处理相关的一些问题,后面可能还会给大家找一些类似,但处理方式不同的题勒,当然,阅读量很差的话,就会没动力写了,所以,如果觉得不错,或许可以转发一波,,,阅读量一好,熬夜也要撸,嘿嘿。对了,后面的那些拓展问题是我自己想的,我也不知道我对应的思路是否是最优解,大家有更好思路的可以底部留言提供哈。

如何只用2GB内存从20/40/80亿个整数中找到出现次数最多的数相关推荐

  1. 挑战程序员同学,如何只用2GB内存从20/40/80亿个整数中找到出现次数最多的数?

    按位比较,比如先遍历一遍数字,判断第一位是0还是1多,然后便利多的那一位的数字,判断第二位是0还是1多,依次判断到第32位,就是出现次数最多的数字了 好吧,这个算法不对 我感觉这个题目是不是考的排序算 ...

  2. 【面试被虐】如何只用2GB内存从20亿,40亿,80亿个整数中找到出现次数最多的数?...

    这几天小秋去面试了,不过最近小秋学习了不少和位算法相关文章,例如 [面试现场]如何判断一个数是否在40亿个整数中? [算法技巧]位运算装逼指南 对于算法题还是有点信心的,,,,于是,发现了如下对话. ...

  3. 【面试被虐】如何只用2GB内存从20亿,40亿,80亿个整数中找到出现次数最多的数?

    这几天小秋去面试了,不过最近小秋学习了不少和位算法相关文章,例如 [面试现场]如何判断一个数是否在40亿个整数中? [算法技巧]位运算装逼指南 对于算法题还是有点信心的,,,,于是,发现了如下对话. ...

  4. 只用2GB的内存找出20亿个整数中找到出现次数最多的数

    要求有一个包含20亿个32位整数的文件,从中找到出现次数最多的数. 首先先分析一下,32位int类型的数占4B,20亿个4B 约为 8GB,只用2GB肯定不够.所以我们肯定需要将这20亿个数哈希到不同 ...

  5. 只有2GB内存在20亿个整数中找到出现次数最多的数

    题目:有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数 要求:内存限制2GB 解决办法:把包含20亿个数的大文件用哈希函数分成16个小文件,根据哈希函数的性质,同一种数不可能被散列 ...

  6. 漫画:如何判断一个数是否在40亿个整数中?

    文章来源于:https://wwww.iamshuaidi.com,一个专注于校招,面试,面经的编程网站 题目:我有40亿个整数,再给一个新的整数,我需要判断新的整数是否在40亿个整数中,你会怎么做? ...

  7. 利剑无意之如何判断一个数在40亿个整数中

    如何判断一个数在40亿个整数中 首先思路:用一个set存储就好了,整数32位,一个整数4个字节,40亿个整数,应该是160亿个字节,大概16GB. 此刻问题又来了,我的机器只有2GB内存,但是需要尽可 ...

  8. 如何判断一个数是否在40亿个整数中?

    来自:互联网侦察 小史是一个应届生,虽然学的是电子专业,但是自己业余时间看了很多互联网与编程方面的书,一心想进BAT. 今天他就去BAT中的一家面试了. 简单的自我介绍后,面试官给了小史一个问题. [ ...

  9. 「BAT面试现场」如何判断一个数是否在40亿个整数中?

    https://www.toutiao.com/a6699639753467232771/ 作者:channingbreeze 来自:公众号互联网侦察 小史是一个应届生,虽然学的是电子专业,但是自己业 ...

最新文章

  1. 机器学习类别/标称(categorical)数据处理:目标编码(target encoding)
  2. 人工智能vs人类智能小传
  3. 块格式化上下文(Block formatting contexts)
  4. 万字长文 | 如何做好TO B产品?
  5. Data-Mediator专题之属性回调
  6. Python Web框架Tornado的异步处理代码演示样例
  7. IIS7 经典模式和集成模式的区别分析(转载)
  8. python消费kafka逻辑处理导致cpu升高_爬虫架构|利用Kafka处理数据推送问题(1)
  9. java应用程序字体太小_为什么在任何java应用程序中字体看起来都很糟糕?
  10. VBM法MRI图像处理——记第一次使用cat12
  11. ADAS倒车雷达超声波传感器elmos524.03驱动
  12. 30行代码实现微信自动回复机器人
  13. 多任务学习 Pytorch实现
  14. 数据库之Mac下Mysql命令全集
  15. 二维隐式查分方程的计算机程序,地下水流动问题数值方法
  16. 微信小程序_16,组件的生命周期
  17. 任正非在荣耀送别会上的讲话(泪奔)
  18. Pedometer_forAndroid
  19. tlm::tlm_analysis_port tlm::tlm_analysis_if
  20. (转)Unity3D手游开发实践

热门文章

  1. 《分布式操作系统》知识点(1~7)一
  2. 【OpenCV3】基于双目视觉的三维重建
  3. (十五)java B2B2C 多级Springboot多租户电子商城系统 Springboot整合RabbitMQ
  4. POJ 3922 A simple stone game(K倍减法游戏)
  5. 排序的概念(选择排序1)
  6. 【Java数据结构】线性表
  7. JS获取用户控件中的子控件Id
  8. linux DNS服务器配置
  9. VC++中进程间相互通信的十一种方法
  10. oracle ssl发送邮件,使用javax.mail发送带有ssl的电子邮件