排序的时候我们可以选择快速排序或归并排序等算法。为了方便,我们把排序好的2G有序数据称之为有序子串吧。接着我们可以把两个小的有序子串合并成一个大的有序子串。

注意:读取的时候是每次读取一个int数,通过比较之后在输出。

按照这个方法来回合并,总共经过三次合并之后就可以得到8G的有序子串。



接下来把12个数据分成4份,然后排序成有序子串

然后把子串进行两两合并

输出哪个元素,就在那个元素所在的有序子串再次读入一个元素

继续

重复直到合并成一个包含6个int的有序子串

再把两个包含6个int的有序子串合并成一个包含12个int数据的最终有序子串

优化策略

解释下:例如对于数据2,我们把无序的12个数据分成有序的4个子串需要读写各一次,把2份3个有序子串合并成6个有序子串读写各一次;把2份6个有序子串合并从12个有序子串读写各一次,一共需要读写各3次。



多路归并

为了方便讲解,我们假设内存一共可以装4个int型数据。







置换选择








例如我们可以从12个数据读取3个存到内存中,然后从内存中选出最小的那个数放进子串p1里;

之后再从在从剩余的9个数据读取一个放到内存中,然后再从内存中选出一个数放进子串p1里,这个数必须满足比p1中的其他数大,且在内存中尽量小

这样一直重复,直到内存中的数都比p1中的数小,这时p1子串存放结束,继续来p2子串的存放。例如(这时假设内存只能存放3个int型数据):

12个无序的int数据

读入3个到内存中,且选出一个最小的到子串p1

从内存中再次读取一个元素86

从内存中再次读取一个元素3

从内存中再次读取一个元素24

从内存中再次读取一个元素8

这个时候,已经没有符合要求的数了,且内存已满,进而用p2子串来存放,以此类推。

通过这种方法,p1子串存放了4个数据,而原来的那种方法p1子串只能存放3个数据。

不知道堆排序的可以看下我之前写的文章 : 堆排序是什么鬼?

从12个数据中读取3个数据,构建成一个最小堆,然后从堆顶选择一个数写入到p1中。

之后再从剩余的9个数中读取一个数,如果这个数比刚才那个写入到p1中的数大,则把这个数插入到最小堆中,重新调整最小堆结构,然后在堆顶选一个数写入到p1中。

否则,把这个数暂放在一边,暂时不处理。之后一样需要调整堆结构,从堆顶选择一个数写入到p1中。

这里说明一下,那个被放在一边的数是不能再放入p1中的了,因为它一定比p1中的数都要小,所以它会放在下一个子串中

看这些文字会让人头大,我画图解释下吧。

从12数据读取3个数据

构建最小堆,且选出目标数

读入下一个数86

读入下一个数3,比70小,暂放一边,不加入堆结构中

读入下一个数据24,比81小,不加入堆结构

读入下一个数据8,比86小,不加入堆结构。此时p1已经完成了,把那些刚才暂放一边的数重新构成一个堆,继续p2的存放。

以此类推…
最后生成的p2如下:





这种方法适合要排序的数据太多,以至于内存一次性装载不下。只能通过把数据分几次的方式来排序,我们也把这种方法称之为外部排序

另外,帅地把公众号的精华文章整理成了一本电子书,共 630页!目录如下

现在免费送给大家,在我的公众号帅地玩编程回复程序员内功修炼即可获取。

兄dei,如果觉得我写的不错,不妨帮个忙

1、关注我的原创微信公众号「帅地玩编程」,每天准时推送干货技术文章,专注于写算法 + 计算机基础知识(计算机网络+ 操作系统+数据库+Linux),听说关注了的不优秀也会变得优秀哦。

2、给俺点个赞呗,可以让更多的人看到这篇文章,顺便激励下我,嘻嘻。

作者简洁

作者:大家好,我是帅地,从大学、自学一路走来,深知算法计算机基础知识的重要性,所以申请了一个微星公众号『帅地玩编程』,专业于写这些底层知识,提升我们的内功,帅地期待你的关注,和我一起学习。 转载说明:未获得授权,禁止转载

【漫画+图解】面试官让我用 2GB 内存给 20亿个整数(需要8GB内存)排序,我该咋整??相关推荐

  1. 只有2GB内存在20亿个整数中找到出现次数最多的数

    题目:有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数 要求:内存限制2GB 解决办法:把包含20亿个数的大文件用哈希函数分成16个小文件,根据哈希函数的性质,同一种数不可能被散列 ...

  2. 30 张图解 | 面试官问我高并发服务模型哪家强?

    面试中经常会被问到高性能服务模型选择对比,以及如何提高服务性能和处理能力,这其中涉及操作系统软件和计算机硬件知识,其实都是在考察候选人的基础知识掌握程度,但如果没准备的话容易一头雾水,这次带大家从头到 ...

  3. 【面试被虐】如何只用2GB内存从20亿,40亿,80亿个整数中找到出现次数最多的数?...

    这几天小秋去面试了,不过最近小秋学习了不少和位算法相关文章,例如 [面试现场]如何判断一个数是否在40亿个整数中? [算法技巧]位运算装逼指南 对于算法题还是有点信心的,,,,于是,发现了如下对话. ...

  4. 【面试被虐】如何只用2GB内存从20亿,40亿,80亿个整数中找到出现次数最多的数?

    这几天小秋去面试了,不过最近小秋学习了不少和位算法相关文章,例如 [面试现场]如何判断一个数是否在40亿个整数中? [算法技巧]位运算装逼指南 对于算法题还是有点信心的,,,,于是,发现了如下对话. ...

  5. 【Redis系列】面试官:Redis中的数据已经过期,为什么还占用这内存?

    如果有面试官问Redis中的数据已经过期为什么还占用这内存? 它是因为Redis本身的过期策略和缓存淘汰机制所导致的. 说说Redis的过期策略和缓存淘汰机制 先来说说Redis的过期策略,Redis ...

  6. 32g内存 java开发,阿里面试官:小伙子,你给我说一下JVM对象创建与内存分配机制吧...

    内存分配机制 逐步分析 类加载检查: 虚拟机遇到一条new指令(new关键字.对象的克隆.对象的序列化等)时,会先去检查这个指令的参数在常量池中定位到一个类的符号引用,并且这个符号引用代表的类是否应被 ...

  7. 只用2GB的内存找出20亿个整数中找到出现次数最多的数

    要求有一个包含20亿个32位整数的文件,从中找到出现次数最多的数. 首先先分析一下,32位int类型的数占4B,20亿个4B 约为 8GB,只用2GB肯定不够.所以我们肯定需要将这20亿个数哈希到不同 ...

  8. 漫画:面试官考我图形推理题,我该怎么办?

    -----  第二天  ----- ------------ 在面试的过程中,你们遇到过类似这样的非技术题目吗?这样的题目是否能判断出候选人的潜力呢?恐怕答案见仁见智了.不过,小灰从学生时代就很喜欢这 ...

  9. 修改表名_面试官:如何批量修改mysql表字段、表、数据库字符集和排序规则

    概述 目前数据库字符集统一用的utf8,由于项目需要,引进了表情,但是utf8mb5才支持表情字符,所以需统一修改数据库字符集,下面介绍批量修改数据库字符集的办法. 修正顺序是字段级别>表级别& ...

最新文章

  1. DHCP以及DHCP的优点
  2. docker 删除所有容器和镜像的命令
  3. android权限询问,Android:检查是否必须询问运行时权限
  4. 【四重优化,速看】剑指 Offer 13. 机器人的运动范围
  5. 你的数据可也可以发三篇NAR的文章
  6. 370万开发者,14万家企业!飞桨中国行落地深圳 激发AI软硬件创新发展新动能...
  7. android studio butterknife配置,!!!!在AndroidStudio中添加butterknife插件
  8. note同步不及时 one_Win10上OneNote 2016同步老出问题?解决方法送上
  9. 我的docker随笔35:jenkins服务部署
  10. fcm脑图像分割matlab,MATLAB程序:用FCM分割脑图像
  11. Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network 论文阅读
  12. 注意程序的[error]log
  13. c语言程序设计答案 第五版 谭浩强
  14. Thumbnails 压缩图片到指定kb
  15. Android应用瘦身
  16. 批量生成图片的数据增强常用的脚本
  17. LaTex学习教程——插入较复杂的表格(合并、换行以及加标题)
  18. 基于STM32F103C8T6与ESP8266的物联网智能温度采集与蓝牙OLED数字钟的设计与实现
  19. java面试高频知识点汇总 2021-02-24
  20. 小谈 - web模仿手机打电话与正则表达式

热门文章

  1. 一曲罢已,愁若梨花,乱红释怀,浮躁尽然。。。。。。
  2. 【验证码逆向专栏】某片滑块、点选验证码逆向分析
  3. 2024年上海美博会-上海浦东美博会(上海CBE)
  4. 重写yolo数据加载模块
  5. 轻松玩转自动机器学习AutoML:H2O Flow
  6. NVM(NonVolatile Memory)(非易失性内存)
  7. 齐齐哈尔鹤城计算机学校,齐齐哈尔阳光学校
  8. win10 格式化 linux u盘,Win10怎么格式化u盘 Win10中对U盘格式化的两种常用方法
  9. jira是干什么_Jira 概述 | 产品、项目和托管 | Atlassian
  10. CE修改器入门:精确数值扫描