最坏情况为线性时间的选择算法

  • 参考:【算法】算法导论:https://www.bilibili.com/video/BV1Tb411M7FA?p=6

提出问题:从一个数组中找到第K个最大数字,即TOPK问题,这个题目在面试和研究中经常遇到,那么,这个题目应该怎么解决呢?

  • 理所当然的我们会想到排序,我们可以使用排序算法将数组变得有顺序,然后直接选取,使用快速排序,归并排序,或者是堆排序,都可以使得时间复杂度是 O(nlgn)
  • 建堆,取出前K个数字,当k 接近于 0,或者是数组长度的时间,其时间复杂度几乎是线性的,但是如果当K 趋于中位数的时候,复杂度会变为 nlgn

今天我们要介绍的一种算法,使得选取TOPK的时间复杂度是O(n),即最坏情况为线性时间的选择算法(算法导论,YYDS)

1:详解算法

  • 将数组划分为若干个数组,每个子数组中包含5个元素。由于数组的长度不一定是5的整数倍,所以允许最后一个数组的长度 小于5
  • 找到每个子数组的中位数,放在每个子数组的二号位置上,即所有的中位数排列成一条直线
  • 将获得的中位数递归的调用select,找到中位数的中位数,即一条直线上的中位数
  • 将原来的数组使用类似快拍的方法,分成两个部分。让K比划分的低区的元素的数目多一个,因此X 是第K小的元素,并且有 n - k 个元素在划分的高区。
  • 如果 i = k,则说明我们找到了
    • 如果 i < k,则在低区递归的调用来找到第 i 小的元素。
    • 如果 i > k,则在高区递归的调用查找第 i - k小的元素(k个最小的我们已经去掉了,故在后面的数组中查找第 i - k 小的元素)

2:代码实现

#include <stdlib.h>
#include <stdio.h>
#define swap(a,b) (a)^=(b);(b)^=(a);(a)^=(b)
#define MAX 1000void sort(int* input, int size){printf ( "sort arry size = %d\n", size );int i,j;for(i = 0; i< size ; i++){for(j = 0; j<size-i-1;j++){if(input[j]<input[j+1]){swap(input[j],input[j+1]);}}}
}
void output(int * input, int size){for(;size>0 && *input;size--,input++){printf("%d ", *input);}printf("\n");}int partion(int *input, int size, int key){printf ( "--------------Step4---------------\n" );printf("key = %d \n", input[key]);int *head, *tail;head = input;tail = head + size - 1;swap(*head, input[key]);int *k = head;while(head<tail){while(*tail && *k >= *tail){tail--;}if(tail<=head) break;swap(*k,*tail);k = tail;while(*head && *k < *head)head++;if(head>=tail) break;swap(*k,*head);k = head;}output(input, size);printf ( "--------------Step4 done--------------\n" );return k-input+1;
}int kselect(int *input, int size, int k){printf ( "start element : %d \n", *input );if(size<=5){sort(input, size);return input[k-1];}int mid[MAX] = {0};int midvalue[MAX] = {0};int groups = size/5;int i;printf ( "-----------------step 1, 2--------------\n" );for(i = 0; i<groups;i++){sort(input+i*5, (i*5+5 > size) ? (size-1):5);printf ( "sorted group %d:\n", i );output(input+i*5, 5);mid[i] = i*5 + 2;midvalue[i] = input[i*5 + 2];}printf ( "-----------------step 1, 2 done--------------\n" );printf ( "---------step3-------------\n" );sort(midvalue, groups);printf ( "---------step3 done-------\n" );int m = -1;for(i = 0; i<5;i++){if(input[mid[i]] == midvalue[groups/2]){m = partion(input, size, mid[i]);}}if(m == k){return input[m-1];}if(k<m){return kselect(input,m,k);}else{return kselect(input+m, size - m, k-m);}return 0xffff;
}int main(){int input[] = {1,3,2,10,5,11, 12, 8 ,6, 7};     /*输出第7大的元素.*/int r = kselect(input,sizeof(input)/sizeof(int), 7);printf("result %d \n", r);return 0;
}

3:关于作者

  • 这个算法是由Blum,Floyd,Pratt,Rivest,Tarjan设计的。我刚开始看到这个,只认识Floyd。我丝毫没有意识到这里面的水有多深

    • Floyd,唯一熟悉的一个人。学习过Floyd算法,该算法可以计算出图中任意两个定点的距离,权重可以为负数,效率高于dijkstra算法。1978年Turing
    • Blum,在整数分解中,Blum Blum Shub加密算法中的第二个Blum就是他。 1995年Turing
    • Pratt,KMP算法中的P就是他!嗯?KMP怎么写来着?
    • Rivest,RSA加密算法的发现者。RSA是对称加密还是非对称加密?他由此2002年获得了Turing award
    • Tarjan,图论的研究专家,发明了LCA(最近公共祖先),强连通分量算法。并且也发明了斐波拉契堆和splay数据结构。并且他分析了并查集,在1986年获得了Turing
  • 几乎全员Turing,每一个人都对计算机科学的发展做出了相当杰出的贡献!其中Tarjan是Floyd 和knuth的学生。Knuth是The Art of Computer Programming的作者,tex的发明者。36岁获得Turing。

4:小思考

  • 该算法把数组分成长度为5的小数组,为什么是5呢?

    • 3可以吗?
    • 7可以吗?

最坏情况为线性时间的选择算法相关推荐

  1. 最坏情况为线性时间的选择算法(SELECT)

    该文章参考(代码参考进行修改已经验证)--来源作者博客 算法思想 1.将数组的 n 个元素划分为 [n/5](向下取整)组,每一组5个元素,且至多只有一组由剩下的 n mod 5 个元素组成 2.寻找 ...

  2. 算法设计与分析——顺序统计量:期望为线性时间的选择算法

    分类目录:<算法设计与分析>总目录 相关文章: · 顺序统计量:最大值与最小值 · 顺序统计量:期望为线性时间的选择算法 · 顺序统计量:最坏情况为线性时间的选择算法 选择算法指的是在一个 ...

  3. 约束优化:低维线性时间线性规划算法(Seidel算法)、低维线性时间严格凸二次规划算法

    文章目录 约束优化:低维线性时间线性规划算法(Seidel算法).低维线性时间严格凸二次规划算法 带约束优化问题的定义 带约束优化问题的分类及时间复杂度 低维线性规划问题 定义 Seidel线性规划算 ...

  4. 找出数组中第i小元素(时间复杂度Θ(n)--最坏情况为线性的选择算法

    找出数组中第i小元素 期望时间复杂度:Θ(n) 最坏情况的时间复杂度Θ(n^2) int randomized_select(int *array,int start,int end,int inde ...

  5. Leapfrog Triejoin:最坏情况下的最优连接算法

    介绍 leapfrog triejoin是商业数据记录系统 LogicBlox® 采用的一种新颖的连接算法,在不同的基准测试中表现出色.leapfrog triejoin论文的写作者认为这个算法,即使 ...

  6. 算法练习——在有序序列(r1,r2,...,rn)中,存在序号i(1<=i<=n),使得ri=i。请设计一个分治算法找到这个元素。 要求算法在最坏情况下的时间性能为O(logn))

    算法练习 题目 答案 注意 题目 答案 #include<iostream> using namespace std; int find(int a[],int left,int righ ...

  7. 线性时间冰山查询算法(Linear-time Iceberg Query Algorithm )

    一.从面试题开始 在进入到枯燥的正文之前,先来看一道据说在很多面试过程中都会问到的题目: 已知一个长度为n的数组,求出现半数以上的元素. 这道题目看似简单,其实得到完美的答案并不容易.首先,不难想到, ...

  8. 线性时间查找固定频率的元素

    转自:http://blog.ibread.net/467/linear-time-iceberg-query-algorithm/ 一.从面试题开始 在进入到枯燥的正文之前,先来看一道据说在很多面试 ...

  9. 非确定性算法_使用最坏情况提高基于MPC的避障算法对参数不确定性的鲁棒性

    编者按:避障问题是AGV行驶过程中的一个重点,尤其是在未知和非结构化的环境中,没有关于环境的先验知识以及准确的车辆模型参数,难以充分发挥车辆的性能.作者在以前工作中,提出了在未知和非结构化环境中基于非 ...

最新文章

  1. MPB:地大郭东毅等-一种针对重金属污染土壤的高效DNA提取方法
  2. (实用)Ubuntu Linux静态IP网络配置
  3. 西南民大oj(矩阵快速幂)
  4. 【控制】《自动控制原理》胡寿松老师-第2章-控制系统的数学模型
  5. Oracle任务调度的高级选项
  6. MySQL锁机制,行锁jingran加在索引上
  7. c语言 鼠标指针图标,WIN7系统鼠标图案DIY!自己动手,美不胜收!-win7鼠标指针...
  8. 计算机更新过后cad,升级windows10系统后cad无法打开的两种解决方法
  9. Navicat Premium 12 破解
  10. Visual Tracking via Adaptive Structural Local Sparse Appearance Model
  11. 项目管理知识体系九大知识领域简介
  12. 疫情又又又来了,看我爬取京东6000款口罩,来看看那一款最适合你
  13. LiveRTMP推送RTSP视频源进行RTMP直播
  14. 基于 Node.js + Koa 构建完整的 Web API (配置 ESLint 和使用 Airbnb 编码规范)
  15. 信捷plc modbus通信
  16. mysql 与sqlserver对比?哪个更好用?
  17. 道达天际首次亮相军博会,“天网融合”引爆全场
  18. 服务器里那个文件是地图的爆率,关于普通图爆率研究
  19. JS三种等号的区别(=、==、===)
  20. SpringSecurity整合springBoot、redis——实现登录互踢

热门文章

  1. 一个Java程序猿眼中的前后端分离以及Vue.js入门
  2. socket编程实现文件传输功能
  3. MFC子窗口和父窗口(SetParent,SetOwner)
  4. python怎么读取pdf为文本_python怎么读取pdf文本内容
  5. 在Linux下编写并运行C文件
  6. Debug system:无法显示数据
  7. vb.net2019-上传文件
  8. 应届生是这辈子最大的一次优势,也是最后一次!
  9. 手把手教你如何在阿里云ECS搭建Python TensorFlow Jupyter
  10. vue输入框联想词功能