思路1:利用堆排序实现
(1)取前m个元素(例如m=100),建立一个小顶堆。保持一个小顶堆得性质的步骤,运行时间为O(lgm);建立一个小顶堆运行时间为m*O(lgm)=O(m lgm);
(2)顺序读取后续元素,直到结束。每次读取一个元素,如果该元素比堆顶元素小,直接丢弃。如果大于堆顶元素,则用该元素替换堆顶元素,然后保持最小堆性质。最坏情况是每次都需要替换掉堆顶的最小元素,因此需要维护堆的代价为(N-m)*O(lgm);最后这个堆中的元素就是10亿个数据中最大的100个。时间复杂度为O(N lgm)。

public class HeapSelect {public static void main(String[] args) {// 假设数组arrs中存储10亿个数字,(这里用100个数代替)int[] arrs = new int[100];for (int i = 0; i < arrs.length; i++) {arrs[i] = (int) (Math.random() * 1000);}// 先取出10个数字,构建最小堆int[] arr = new int[10];for (int i = 0; i < arr.length; i++) {arr[i] = arrs[i];}HeapSelect heapSelect = new HeapSelect();heapSelect.heapSort(arr, arr.length - 1);for (int i = 10; i < arrs.length; i++) {if (arrs[i] > arr[0]) {arr[0] = arrs[i];heapSelect.heapSort(arr, arr.length - 1);}}}public void heapSort(int[] arrays, int e) {if (e > 0) {initSort(arrays, e);// 初始化堆,找出最大的放在堆顶// snp(arrays);arrays[0] = arrays[e] + arrays[0];arrays[e] = arrays[0] - arrays[e];arrays[0] = arrays[0] - arrays[e];// snp(arrays);heapSort(arrays, e - 1);} else {// snp(arrays);}}public void initSort(int[] arrays, int e) {int m = (e + 1) / 2;for (int i = 0; i < m; i++) {boolean flag = buildHeap(arrays, e, i);// 如果孩子之间有交换,就要重新开始if (flag) {i = -1;}}}// 返回一个标记,如果有根与孩子交换就要重新从顶根开始查找不满足最大堆树结构public boolean buildHeap(int arrays[], int e, int i) {int l_child = 2 * i + 1;// 左孩子int r_child = 2 * i + 2;// 右孩子if (r_child > e) { // 判断是否有右孩子,没有右孩子的话直接比较左孩子,小于左孩子则交换if (arrays[i] < arrays[l_child]) {arrays[i] = arrays[i] + arrays[l_child];arrays[l_child] = arrays[i] - arrays[l_child];arrays[i] = arrays[i] - arrays[l_child];return true;} else {return false;}}// 在根与两个孩子之间找出最大的那个值进行交换if (arrays[i] < arrays[l_child]) {if (arrays[l_child] > arrays[r_child]) {// 交换根与左孩子的值arrays[i] = arrays[i] + arrays[l_child];arrays[l_child] = arrays[i] - arrays[l_child];arrays[i] = arrays[i] - arrays[l_child];return true;} else {// 交换根与右孩子的值arrays[i] = arrays[i] + arrays[r_child];arrays[r_child] = arrays[i] - arrays[r_child];arrays[i] = arrays[i] - arrays[r_child];return true;}} else if (arrays[i] < arrays[r_child]) {// 交换根与右孩子的值arrays[i] = arrays[i] + arrays[r_child];arrays[r_child] = arrays[i] - arrays[r_child];arrays[i] = arrays[i] - arrays[r_child];return true;}return false;}// buildHeap}

思路2:根据快速排序划分的思想
(1)递归对所有数据分成[a,b)b(b,d]两个区间,(b,d]区间内的数都是大于[a,b)区间内的数
(2)对(b,d]重复(1)操作,直到最右边的区间个数小于100个。注意[a,b)区间不用划分
(3)返回上一个区间,并返回此区间的数字数目。接着方法仍然是对上一区间的左边进行划分,分为[a2,b2)b2(b2,d2]两个区间,取(b2,d2]区间。如果个数不够,继续(3)操作,如果个数超过100的就重复1操作,直到最后右边只有100个数为止。

基于该思想,下面的例子中我们将尝试在100个数里面找出10个最大的数

public class QuickSelect {public static void main(String[] args) {int[] array = new int[100];for (int i = 0; i < array.length; i++) {array[i] = (int) (Math.random() * 1000);}quickSort(array, 0, array.length - 1);for (int i = array.length-10; i < array.length; i++) {// 数组后10位数既是最大的10位数System.out.print(array[i] + " ");}}private static int len = 10;/*** 多次调用快排,将数组中最大的10位数移动至最右边。* * @param array* @param left* @param right*/public static void quickSort(int[] array, int left, int right) {int pivot;if (left < right) {pivot = partition(array, left, right);//取出枢轴if (right - pivot + 1 > len) {//如果pivot右边的数大于10个,再次重复操作(1)quickSort(array, pivot + 1, right);} else if (right - pivot + 1 < len) {//pivot右边的数小于10个,执行操作(2)len = len - (right - pivot + 1);quickSort(array, left, pivot - 1);}// 对左右数组递归调用快速排序,直到顺序完全正确}}/*** pivotValue作为枢轴,较之小的元素排序后在其左,较之大的元素排序后在其右* * @param array* @param left* @param right* @return*/public static int partition(int[] array, int left, int right) {int pivot = array[left];while (left < right) {while (left < right && array[right] >= pivot) {--right;}// 将比枢轴小的元素移到低端,此时right位相当于空,等待低位比pivot大的数补上array[left] = array[right];while (left < right && array[left] <= pivot) {++left;}// 将比枢轴大的元素移到高端,此时left位相当于空,等待高位比pivot小的数补上array[right] = array[left];}// 当left == right,完成一趟快速排序,此时left位相当于空,等待pivotkey补上array[left] = pivot;return left;}
}

思路3:分块查找
先把10亿个数分成100份,每份1000w个数,然后在1000w个数中分别找出最大的100个数,最后在100*100个数中找出最大的100个。这里我想可以用分布式的处理,多台主机才会更快。

10亿数据中取最大的100个数据相关推荐

  1. 经典算法应用之七----10亿数据中取最大的100个数据

    给出三种思路,仅供参考.. 1.思路一:根据快速排序划分的思想,每次分割之后只考虑比轴大的一部分,知道比轴大的一部分在比100多的时候,采用传统排序算法排序,取前100个. step1:递归对所有数据 ...

  2. 海量数据处理 - 10亿个数中找出最大的10000个数(top K)

    海量数据处理 - 10亿个数中找出最大的10000个数(top K问题) 版权声明:本文为博主原创文章,未经博主允许不得转载 前两天面试3面学长问我的这个问题(想说TEG的3个面试学长都是好和蔼,希望 ...

  3. 10亿个数中找出最大的10000个数

    转载自  海量数据处理 - 10亿个数中找出最大的10000个数(top K问题) 前两天面试3面学长问我的这个问题(想说TEG的3个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅 ...

  4. 10亿个数中找出最大的10000个数(top K问题)

    原博链接: https://blog.csdn.net/cbjcry/article/details/84917432 问题引入:10亿个数中找出最大的10000个数(top K问题) top K问题 ...

  5. 【面试现场】如何在10亿数中找出前1000大的数

    小史是一个应届生,虽然学的是电子专业,但是自己业余时间看了很多互联网与编程方面的书,一心想进BAT互联网公司. 之前小史在BAT三家的面试中已经挂了两家,今天小史去了BAT中的最后一家面试了. 简单的 ...

  6. 如何在 10 亿数中找出前 1000 大的数?

    作者 | channingbreeze 责编 | 胡巍巍 小史是一个应届生,虽然学的是电子专业,但是自己业余时间看了很多互联网与编程方面的书,一心想进BAT互联网公司. 之前小史在BAT三家的面试中已 ...

  7. mysql数据表中取几列_MySQL查询数据表中数据记录(包括多表查询)

    MySQL查询数据表中数据记录(包括多表查询) 转自:http://www.baike369.com/content/?id=5355 在MySQL中创建数据库的目的是为了使用其中的数据. 使用sel ...

  8. 在10亿个数中找出前1000个最大的

    在10亿个数中找出前1000个最大的 假设现在有一个文件,里面存放了10亿个整数,需要找出前1000个最大的. 方法: 1.普通排序,部分排序:几乎不可取. 2.分治法:随机选一个数t,然后对整个数组 ...

  9. 谈从10亿个数中找出前10万个最大的

    谈从10亿个数中找出前10万个最大的 期的实验显示10亿个浮点数大概占据3G左右的空间,因此全部一次性读入内存目前在个人PC上是不太现实的.本次讨论不考虑内存等等,只考虑算法. 如果一次性比较排序,然 ...

最新文章

  1. VBS编程基础教程 (第2篇)
  2. 1分钟快速生成用于网页内容提取的xslt
  3. Android Gradle查询器
  4. windows 下win+r无效
  5. 赋能网安生态通信服务器操作系统,紫光展锐打造操作系统生态,赋能万物互联智能时代...
  6. redis 集群配置(centos)
  7. Docker初级选手(一)
  8. 将not exists更改为外连接
  9. Golang教程:(十五)指针
  10. 从 Web 图标演进历史看最佳实践
  11. spark-dataframe与rdd的区别
  12. SQL Server高级查询之常见数据库对象(视图)第五章节
  13. C语言精要总结-内存地址对齐与struct大小判断篇
  14. Yii 2.0.3 Advanced版控制器不能包含大写字母的Bug
  15. 疯狂!电动汽车科技领域的投资正爆发式增长 | 数据报告
  16. 如何静下心做些事情呢
  17. 【伪大数据】对QQ空间指定好友2017年说说数据的分析
  18. 系统调用recvfrom和recv区别
  19. 使用python简单实现K核苷酸频率(KNF,k-nucleotide frequencies)或K-mer频率
  20. 江苏省公务员计算机类130分,江苏公务员考试平均130分进面,我慌了...

热门文章

  1. Linux中的定时自动执行功能(at,crontab)
  2. python爬取新闻数据
  3. 升级coda_Coda:从我们周围的结构中学习
  4. php网页采集 修改版
  5. 目标检测论文解读复现之十八:基于注意力机制的光线昏暗条件下口罩佩戴检测
  6. 关于缓存一致性的一些介绍
  7. 电子火折子的电路原理
  8. 幼儿园语言活动包括哪几类_幼儿园健康活动分为哪几类,幼儿园教育活动包括...
  9. 一百行代码实现微信朋友圈九宫格图片显示
  10. 亚马逊16条领导力原则