一个n个元素组成的集合中,第K个顺序统计量(Order Statistic)指的是该集合中第K小的元素,我们要讨论的是如何在线性时间(linear time)里找出一个数组的第K个顺序统计量。

一、问题描述

问题:给定一个含有n个元素的无序数组,找出第k小的元素。

  • k = 1 :最小值
  • k = n :最大值
  • k = ⌊(n+1)/2⌋ or ⌈(n+1)/2⌉ :中位数

找最大值或最小值很简单,只需要遍历一次数组并记录下最大值或最小值就可以了。我们在这里要解决的问题是一般性的选择问题。

一种原始的解决方案是,用堆排序或归并排序将输入数据进行排序,然后返回第k个元素。这样在Θ(nlgn)时间内一定可以解决。但是我们希望有更好的方案,最好是线性时间。

二、期望线性时间的解决方案

为了在线性时间内解决这个选择问题,我们使用一个随机的分治算法,即RANDOMIZED-SELECT算法。此算法是使用随机化的快速排序中的随机划分子程序,对输入数组进行随机划分操作,然后判断第k小元素在划分后的哪个区域,对所在区域进行递归划分,最后找到第k小元素。

伪代码

RANDOMIZED-SELECT(A,p,q,i)  // i-th smallest in A[p..q]if p = qthen return A[p]r = RANDOMIZED-PARTITION(A, p, q)k = r-p+1   // A[r] is k-th smallestif i=kthen return A[r]if i<kthen return RANDOMIZED-SELECT(A, p, r-1, i)elsethen return RANDOMIZED-SELECT(A, r+1, q, i-k)

这里的RANDOMIZED-PARTITION()是随机版的划分操作( 快速排序的分析与优化),可见本算法是一个随机算法,它的 期望时间是Θ(n)(假设元素的值是不同的)。

1、Lucky-Case:最好的情况是在正中划分,划分的右边和右边的元素数量相等,但是1/10和9/10的划分也几乎一样好。可以这么说,任何常数比例的划分都和1/2:1/2的划分一样好。这里以1/10和9/10的划分为例,算法运行时间递归式为T(n) <= T(9n/10) + Θ(n),根据主定理得到T(n) <= Θ(n)

2、Unlucky-Case:虽然主元的选取是随机的,但是如果你运气足够差,每次都得到0:n-1的划分,这就是最坏的情况。此时递归式为T(n) = T(n-1) + Θ(n),则时间复杂度为T(n) = Θ(n^2)

3、Expected-Time:期望运行时间为Θ(n),即线性时间。这里就不证明了,证明需要用到指示器随机变量。

C++代码

/*************************************************************************> File Name: RandomizedSelect.cpp> Author: SongLee> E-mail: lisong.shine@qq.com> Created Time: 2014年06月22日 星期日 20时20分08秒> Personal Blog: http://songlee24.github.com************************************************************************/
#include<iostream>
#include<cstdlib>  // srand rand
using namespace std;void swap(int &a, int &b)
{int tmp = a;a = b;b = tmp;
}int Partition(int A[], int low, int high)
{int pivot = A[low];int i = low;for(int j=low+1; j<=high; ++j){if(A[j] <= pivot){++i;swap(A[i], A[j]);}}swap(A[i], A[low]);return i;
}int Randomized_Partition(int A[], int low, int high)
{srand(time(NULL));int i = rand() % (high+1);swap(A[low], A[i]);return Partition(A, low, high);
}int Randomized_Select(int A[], int p, int q, int i)
{if(p == q)return A[p];int r = Randomized_Partition(A, p, q);int k = r-p+1;if(i == k)return A[r];if(i < k)return Randomized_Select(A, p, r-1, i);elsereturn Randomized_Select(A, r+1, q, i-k);
}/* 测试 */
int main()
{int A[] = {6,10,13,5,8,3,2,11};int i = 7;int result = Randomized_Select(A, 0, 7, i);cout << "The " << i << "th smallest element is " << result << endl;return 0;
}

三、最坏情况线性时间的解决方案

虽然最坏情况Θ(n2)出现的概率非常非常小,但是不代表它不会出现。这里就介绍一个非同一般的算法,以保证在最坏情况下也能达到线性时间。

这个SELECT算法的基本思想就是要保证对数组的划分是一个好的划分,它通过自己的方法选取主元(pivot),然后将pivot作为参数传递给快速排序的确定性划分操作PARTITION。

基本步骤:

  1. 将输入数组的n个元素划分为n/5(上取整)组,每组5个元素,且至多只有一个组有剩下的n%5个元素组成。

  2. 寻找每个组织中中位数。首先对每组中的元素(至多为5个)进行插入排序,然后从排序后的序列中选择出中位数。

  3. 对第2步中找出的n/5(上取整)个中位数,递归调用SELECT以找出其中位数x。(如果是偶数取下中位数)

  4. 调用PARTITION过程,按照中位数x对输入数组进行划分。确定中位数x的位置k。

  5. 如果i=k,则返回x。否则,如果i < k,则在地区间递归调用SELECT以找出第i小的元素,若干i > k,则在高区找第(i-k)个最小元素。

总结:RANDOMIZED-SELECT和SELECT算法是基于比较的。我们知道,在比较模型中,排序时间不会优于Ω(nlgn)。之所以这里的选择算法达到了线性时间,是因为它们没有使用排序就解决了选择问题。另外,我们没有使用线性时间排序算法(计数排序/桶排序/基数排序),是因为它们要达到线性时间对输入有很高的要求,而这里不需要关于输入的任何假设。

第K顺序统计量的求解相关推荐

  1. 浅谈K短路算法(KSP)之一(A*算法求解)

    对于具有n个顶点和m条边且边的权值非负的简单图(无重边和环),K短路,是指的起点s到终点t的最短路径中第k个最小的.K短路分为有限制的K短路和无限制的K短路,有限制的K短路是指求得的路径中不含有回路( ...

  2. 密码学——Hill体制密码中已知明文M和密文C求解密钥矩阵K的两种方法之逆矩阵求解法和待定系数求解法

    本文主要解决古典密码中的Hill体制密码在已知明文M和密文C的情况下求解密钥矩阵K的两种方法:①求逆矩阵②待定系数法. 如若不懂Hill体制的古典密码可以参照我上一篇文章密码学--几种典型的古典密码体 ...

  3. ansys_lsdyna输出.k文件lsprepost输出部件加速度

    1.solidworks建模输出.x_t文件 2.ansys选择lsdyna模块导入集合模型 3.前处理 1)添加材料 2)添加约束与几何接触关系 3)添加初始边界条件 4)划分网格 5)设置求解对象 ...

  4. 动态规划求解多段图问题

    动态规划求解多段图问题(非递归) 问题描述 求解思路 动态规划逆序解法 逆序实现代码 动态规划逆序解法 顺序实现代码 问题描述 如图所示,在A处有一水库,现需要从A点铺设一条管道到E点,边上的数字表示 ...

  5. 356 次小生成树(求解最近公共祖先优化)

    1. 问题描述: 给定一张 N 个点 M 条边的无向图,求无向图的严格次小生成树.设最小生成树的边权之和为 sum,严格次小生成树就是指边权之和大于 sum 的生成树中最小的一个. 输入格式 第一行包 ...

  6. 简单迭代法、牛顿法、弦割法、布洛依登法求解方程或方程组【Matlab】

    利用迭代法求解定非线性方程及方程组,使得误差不超过10^(-8).同时应用迭代加速技术,提交迭代运算效率. 此题需要用到的MATLAB代码及附录: 附录6 二分法作根的隔离 % 附录6 二分法作根的隔 ...

  7. 材料力学求解器-刚架与桁架杆系的计算机求解(附matlab代码)

    材料力学求解器-刚架与桁架杆系的计算机求解(附matlab代码) 1 刚架的计算机求解 1.1位移法与刚度矩阵 1.2 matlab程序 2 桁架的计算机求解 材料力学是一门非常成熟的学科,里面有大量 ...

  8. 【Python机器学习】多项式回归、K近邻KNN回归的讲解及实战(图文解释 附源码)

    需要源码请点赞关注收藏后评论区留言私信~~~ 多项式回归 非线性回归是用一条曲线或者曲面去逼近原始样本在空间中的分布,它"贴近"原始分布的能力一般较线性回归更强. 多项式是由称为不 ...

  9. 回溯法解决N皇后问题——递归与非递归求解

    回溯法其实也是一种搜索算法,它可以方便的搜索解空间.  回溯法解题通常可以从以下三步入手:  1.针对问题,定义解空间  2.确定易于搜索的解空间结构  3.以深度优先的方式搜索解空间,并在搜索的过程 ...

  10. 求解三次样条插值函数的函数,matlab实现

    最近在做数值分析的实验,刚好做到了这个,就写一下文章记录一下代码,至于原理就不多哔哔了. 三次样条插值函数的求解主要有以下几个步骤: 计算hi{{h}_{i}}hi​,λi{{\lambda }_{i ...

最新文章

  1. 前端分离的前端开发工具_使我成为前端开发人员工作的工具和资源
  2. 创建存储器_Microchip推出首款低功耗数模转换器,集成非易失性存储器,简化手持设备设计...
  3. 初探性能优化--2个月到4小时的性能提升!
  4. CMD命令操作MySql数据库详解
  5. android textview 文字居中_Android布局优化,看这3点就够了
  6. SQL Server in Docker - 还原数据库
  7. log4j 禁止类输出日志_SpringBoot统一日志处理原理
  8. mysql数据库序列作用_MySQL 序列使用
  9. 小孩天天不愿意去幼儿园怎么办?
  10. Flutter实战一Flutter聊天应用(九)
  11. 正则表达式 蛮全的!
  12. C++析构函数为什么要为虚函数?
  13. PRINCE2与PMP含金量对比
  14. GTK-sopcast 0.2.8
  15. shell笔记(C语言中文网)
  16. java实现sug,Elasticsearch搜索Suggest功能优化
  17. [023] Matlab的各种图像滤波降噪处理
  18. TinkerBoard-S 上手体验
  19. 边云协同的优点_云边协同的现实意义
  20. 华为交换机用命令更改已有admin账户开启SSH

热门文章

  1. UltraCompare破解流程
  2. 【高效工作】Sublime Text 3 美化
  3. 自定义ViewGroup
  4. 宏病毒实验讲解(含共享文件夹建立)
  5. 标书怎么做?标书制作教程附标书制作思维导图
  6. JQuery图片跟随鼠标移动
  7. Java项目:博客系统西瓜社区(springboot+mybatis-plus+thymeleaf)
  8. 在线考试小程序版手机微信考试软件,微信小程序考试系统出考试题小程序,考试答题微信小程序
  9. 知乎2019新知青年大会:用问题改变世界的方向
  10. __raw_writel, writel_relaxed 和 writel的区别