前言

快速排序,正如它的名字所体现,是在实践中已知的最快的排序算法,平均运行时间为O(NlogN),最坏的运行时间为O(N^2)。算法的基本思想很简单,然而想要写出一个高效的快速排序算法并不是那么简单。基准的选择,元素的分割等都至关重要,如果你不清楚如何优化快速排序算法,本文你不该错过。

作者介绍:守望,一名好文学,好技术的开发者。在个人公众号【编程珠玑(ID:shouwangxiansheng)】坚持分享原创技术文章,期待一起交流学习。

阅读字数:7297 | 大约15~19分钟阅读

算法思想

快速排序利用了分治的策略。而分治的基本基本思想是:将原问题划分为若干与原问题类似子问题,解决这些子问题,将子问题的解组成原问题的解。

那么如何利用分治的思想对数据进行排序呢?假如有一个元素集合A:

  • 选择A中的任意一个元素pivot,该元素作为基准

  • 将小于基准的元素移到左边,大于基准的元素移到右边(分区操作)

  • A被pivot分为两部分,继续对剩下的两部分做同样的处理

  • 直到所有子集元素不再需要进行上述步骤

可以看到算法思想比较简单,然而上述步骤实际又该如何处理呢?

如何选择基准

实际上无论怎么选择基准,都不会影响排序结果,但是不同的选择却可能影响整体排序时间,因为基准选择不同,会导致分割的两个集合大小不同,如果分割之后,两个集合大小是几乎相等的,那么我们整体分割的次数显然也会减少,这样整体耗费的时间也相应降低。我们来看一下有哪些可选择策略。

选择第一个或者最后一个

如果待排序数是随机的,那么选择第一个或者最后一个作基准是没有什么问题的,这也是我们最常见到的选择方案。但如果待排序数据已经排好序的,就会产生一个很糟糕的分割。几乎所有的数据都被分割到一个集合中,而另一个集合没有数据。这样的情况下,时间花费了,却没有做太多实事。而它的时间复杂度就是最差的情况O(N^2)。因此这种策略是绝对不推荐的

随机选择

随机选择基准是一种比较安全的做法。因为它不会总是产生劣质的分割。

C语言实现参考:

ElementType randomPivot(ElementType A[],int start,int end){

选择三数中值

从前面的描述我们知道,如果能够选择到数据的中值,那是最好的,因为它能够将集合近乎等分为二。但是很多时候很难算出中值,并且会耗费计算时间。因此我们随机选取三个元素,并用它们的中值作为整个数据中值的估计值。在这里,我们选择最左端,最右端和中间位置的三个元素的中值作为基准。

假如有以下数组:

1 9 10 3 8 7 6 2 4

左端元素为1,位置为0,右端元素为4,位置为8,则中间位置为[0+8]/2=4,中间元素为8。那么三数中值就为4(1,4,8的中值)。

如何将元素移动到基准两侧

选好基准之后,如何将元素移动到基准两侧呢?通常的做法如下:

  • 将基准元素与最后的元素交换,使得基准元素不在被分割的数据范围

  • i和j分别从第一个元素和倒数第二个元素开始。i在j的左边时,将i右移,直到发现大于等于基准的元素,然后将j左移,直到发现小于等于基准的元素。i和j停止时,元素互换。这样就把大于等于基准的移到了右边,小于等于基准的移到了左边

  • 重复上面的步骤,直到i和j交错

  • 将基准元素与i所指向的元素交换,使得基准元素将整个元素集合分割为小于基准和大于基准的元素集合

在们采用三数中值得方法选择基准的情况下,既然基准是中值,实际上只要保证左端,右端,中间值是从小到大即可。还是以前面提到的数组为例,我们找到三者后,对三者进行排序如下:

排序前

排序后

如果是这样的情况,那么实际上不需要把基准元素和最后一个元素交换,而只需要和倒数第二个元素交换即可,因为最后一个元素肯定大于基准,这样可以减少交换次数

如果前面的描述还不清楚,我们看一看实际中一趟完整的流程是什么样的。

第一步,将左端,右端和中间值排序,中值作为基准:

第二步,将中值与倒数第二个数交换位置:

第三步,i向右移动,直到发现大于等于基准的元素9:

第四步,j向左移动,直到发现小于等于基准的元素2:

第五步,交换i和j:

第六步,重复上述步骤,i右移,j左移:

第七步,交换i和j指向的值:

第八步,重复上述步骤,i右移,j左移,此时i和j已经交错:

第九步,i和j已经交错,因此最后将基准元素与i所指元素交换:

如何对子集进行排序到这一步的时候,我们发现i的左边都是小于i指向的元素,而右边都是大于i的元素。最后在对子集进行同样的操作即可。

递归法

最常见的便是递归法了。递归的好处是代码简洁易懂,但是不可忽略的是,当递归嵌套过深时,它的效率问题以及栈溢出的风险可能会迫使你选择非递归法。在前面对整个集合一分为二之后,对剩下的两个集合递归调用,直到完成排序。简单描述如下(非可运行代码):

void Qsort(int A[],int left,int right){/*分区操作*/int i = partition(A,left,right);/*对子集递归调用*/    Qsort(A,left,i-1);    Qsort(A,i+1,right);}

递归最需要注意的便是递归结束调用,否则会产生无限递归,从而发生栈溢出。

后面我们会看到,递归法的代码非常简洁。(相关阅读《面试官问你斐波那契数列的时候不要高兴得太早》)

尾递归

在递归版本中,Qsort分别递归调用计算左右两个子集合,而第二个递归其实并非必须,完全可以用循环来替代,以下代码模拟实现了尾递归,(并非是真的尾递归):

void Qsort(ElementType A[],int left,int right){

非递归法

那么有没有方法可以不用递归呢?既然递归每次都进行压栈操作,那么我们能不能分区后仅仅将区间信息存储到栈里,然后从栈中取出区间再继续分区呢?显然是可以的。实际上我们每次分区时,只需要知道区间即可,那么将这些区间信息存储起来,就可以不用递归了,按照分好的区间不断分区即可。

例如对于前面提到的数组,首先对区间[0,8]进行分区操作,之后得到两个新的分区,1,2,3和9,7,6,10,8,假设两个区间仍然可以使用快速排序,那么需要将区间[0,2]和[5,8]的其中一个压栈,另一个继续分区操作。

按照这种思路,代码简单描述如下(非可运行代码):

void Qsort(A,left,right){    

当然这里面没有体现分区终止条件。我们需要在数据量小于一定值的时候,就不再继续进行分区操作了,而是选择插入排序(为什么?)。

那么问题来了,如何选择栈的大小呢?查看qsort.c的源码发现,它选择了如下的值:

#define STACK_SIZE (8* sizeof(unsigned long int));

为什么会是这个值呢?设想一下,假设待排序数组长度使用unsigned long int来表示,并且假设每次都将集合分为二等分。那么即便数组长度达到最大值,实际上最多只需要分割8 *(sizeof(unsigned long  int))次,也就将它分割完了。然而由于以下几个原因,需要存储在栈中的区间信息很难超出栈空间,因为:

  • 数组长度不会接近unsigned long int,否则内存也撑不住了

  • 区间足够小时,不采用快速排序

  • 每做一个分区,只会增加一个区间PUSH到栈中,增长速度慢

注意事项

至此,快速排序所有的主要步骤已经介绍完毕。但是有以下注意事项:

  • 有大量重复元素时避免产生糟糕分区,因此在发现大于等于基准或者小于等于基准时,便停止扫描。

  • 通常会将基准一开始移动到最后位置或倒数第二个位置,避免基准在待分区区间。

  • 对于很小的数组(N<=20),插入排序要比快速排序更好。因为快速排序有递归开销,并且插入排序是稳定排序。

  • 如果函数本身的局部变量很少,那么递归带来的开销也就越小;如果递归发生栈溢出了,首先需要排除代码设计问题。因此如果你设计的非递归版本效率低于递归版本,也不要惊讶。

注:假定在待排序的记录序列中,存在多个具有相同的关键字的记录,若经过排序,这些记录的相对次序保持不变,即在原序列中,r[i]=r[j],且r[i]在r[j]之前,而在排序后的序列中,r[i]仍在r[j]之前,则称这种排序算法是稳定的;否则称为不稳定的。--来自百科

递归版代码实现

C语言代码实现如下:

#include 

尾递归版代码实现

非递归版代码实现

非递归版与递归版大部分代码相同,Qsort函数有所不同,并且增加栈相关内容定义:

/*存储区间信息*/typedef struct stack_node_t{int lo;int hi;}struct_node;/*最大栈长度*/#define STACK_SIZE 8 * sizeof(unsigned int)

/*入栈,出栈*/#define STACK_PUSH( low, hig )    ( (top->lo = low), (top->hi = hig), top++)#define STACK_POP( low, hig )    (top--, (low = top->lo), (hig = top->hi) )

/*快速排序*/void Qsort( ElementType A[], int left, int right ){if(NULL == A)return;/*使用寄存器指针*/register ElementType *arr = A;if ( right - left >= MAX_THRESH )    {        struct_node    stack[STACK_SIZE]   = { { 0 } };register struct_node    *top            = stack;

/*最大区间压栈*/int lo = left;int hi = right;        STACK_PUSH( 0, 0);int mid = 0;while ( stack < top )        {/*出栈,取出一个区间进行分区操作*/

            mid = partition( arr, lo, hi );

/*分情况处理,左边小于阈值*/if ( (mid - 1 - lo) <= MAX_THRESH)            {/* 左右两个数据段的元素都小于阈值,取出栈中数据段进行划分*/if ( (hi - (mid+1)) <= MAX_THRESH)/* 都小于阈值,从栈中取出数据段 */                    STACK_POP (lo, hi);else/* 只有右边大于阈值,右边继续分区*/                    lo =  mid -1 ;            }/*右边小于阈值,继续计算左边*/else if ((hi - (mid+1)) <= MAX_THRESH)                hi = mid - 1;/*左右两边都大于阈值,且左边大于右边,左边入栈,右边继续分区*/else if ((mid -1 - lo) > (hi - (mid + 1)))            {                STACK_PUSH (lo, mid - 1);                lo = mid + 1;            }/*左右两边都大于阈值,且右边大于左边,右边入栈,左边继续分区*/else            {                STACK_PUSH (mid + 1, hi);                hi = mid  -1;            }        }

    }

/*最后再使用插入排序,对于接近有序状态的数据,插入排序速度很快*/    insertSort(arr,right-left+1);

}

运行结果

我们随机产生1亿个整数,并对其进行排序:

$ gcc -o qsort qsort.c$ time ./qsort 100000000

递归版运行结果:

sort 

非递归版结果:

sort 

可以看到,实际上两种方法的效率差距并不是很大。至于原因,前面我们已经说过了。

总结

本文所写的示例实现与glibc的实现相比,还有很多可优化的地方,例如,本文实现仅对int类型实现了排序或交换值,如果待排序内容是其他类型,就显得力不从心,读者可参考《高级指针话题函数指针》思考如何实现对任意数据类型进行排序,。但快速排序的优化主要从以下几个方面考虑:

  • 优化基准选择

  • 优化小数组排序效率

  • 优化交换次数

  • 优化递归

  • 优化最差情况,避免糟糕分区

  • 元素聚合

有兴趣地也可以进一步阅读qsort源码,了解更多优化细节。

问题思考

  • 为什么要在遇到相同元素时就进行扫描?

  • 插入排序最好的情况时间复杂度是多少,在什么情况下出现?

  • 文中实现的代码还有哪些可以优化的地方?

欢迎你在评论区留下你的答案!

 IT大咖说  |  关于版权 

由“IT大咖说(ID:itdakashuo)”原创的文章,转载时请注明作者、出处及微信公众号。投稿、约稿、转载请加微信:ITDKS10(备注:投稿),茉莉小姐姐会及时与您联系!

感谢您对IT大咖说的热心支持!

文章推荐

推荐文章

  • iOS开发者的出路在哪里?从Swift到机器学习

  • 哪些是数据库智能化运维必踩的坑?

  • Apache顶级开源项目——机器学习库MADlib简介与应用实例

最近活动

  • 这就是为什么你不应该打扰程序员的原因

点击【阅读原文】更多IT技术圈干货等你挖掘

快速排序算法_大佬的快速排序算法,果然不一样相关推荐

  1. mysql区间算法_「五大常用算法」一文图解分治算法和思想

    前言 分治算法(divide and conquer)是五大常用算法(分治算法.动态规划算法.贪心算法.回溯法.分治界限法)之一,很多人在平时学习中可能只是知道分治算法,但是可能并没有系统的学习分治算 ...

  2. mysql 编程算法_十大编程算法助程序员走上高手之路

    算法一:快速排序算法 快 速排序是由东尼·霍尔所发展的一种排序算法.在平均状况下,排序 n 个项目要Ο(n log n)次比较.在最坏状况下则需要Ο(n2)次比较,但这种 状况并不常见.事实上,快速排 ...

  3. JAVA 判断简单密码算法_十道简单算法题二【Java实现】

    前言 清明不小心就拖了两天没更了-- 这是十道算法题的第二篇了-上一篇回顾:十道简单算法题 最近在回顾以前使用C写过的数据结构和算法的东西,发现自己的算法和数据结构是真的薄弱,现在用Java改写一下, ...

  4. 机器学习算法_机器学习之EM算法和概率图模型

    [晓白]今天我准备更新Machine Learning系列文章希望对机器学习复习和准备面试的同学有帮助!之前更新了感知机和SVM,决策树&代码实战,关注我的专栏可以的文章哦!今天继续更新EM算 ...

  5. 人工智能算法_人工智能的灵魂——算法

    人工智能有三驾马车:数据.算法.算力.本文重点介绍算法相关的知识. 本文将介绍算法在人工智能里的概念,算法的4个特征.6个通用方法.以及在选择算法时需要注意的3个点. 什么是算法? 简单的说,算法就是 ...

  6. hash算法_数据库中间件分片算法之hash

    前言 夜深人静的时候,打开云音乐,点上一曲攀登,带上真无线蓝牙耳机,瞬间燃到爆,键盘打字如飞倦意全无. 分片规则 这几天有人问我,dble和MyCat到底有什么不同.其实dble作为MyCAT的同门, ...

  7. kmeans算法_实战 | KMeans 聚类算法

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,常见的机器学习算法: 监督学习算法:逻辑回归,线性回归,决策树,朴素贝叶斯,K近邻,支持向量机,集成算法Ad ...

  8. java 哈希一致算法_一致哈希算法Java实现

    一致哈希算法(Consistent Hashing Algorithms)是一个分布式系统中常用的算法.传统的Hash算法当槽位(Slot)增减时,面临所有数据重新部署的问题,而一致哈希算法确可以保证 ...

  9. 麻雀优化算法_多种智能优化算法应用案例分享-附代码

    1.智能优化算法应用:基于灰狼算法的Otsu图像多阈值分割 智能优化算法应用:基于灰狼算法的Otsu图像多阈值分割-附代码_Jack旭的博客-CSDN博客​blog.csdn.net 2.智能优化算法 ...

  10. 文本聚类分析算法_常用的聚类分析算法综述

    聚类分析定义 所谓聚类就是按照事物的某些属性,把事物聚集成类,使类间的相似性尽可能小,类内相似性尽可能大.聚类是一个无监督的学习过程,它同分类的根本区别在于分类是需要事先知道所依据的数据特征,而聚类是 ...

最新文章

  1. 二值化网络如何训练?这篇ICML 2021论文给你答案
  2. linux图形化卡在开机界面,linux怎么在开机时进入图形界面
  3. 计算机表格计算总积分,Excel函数教程: 根据条件计算成绩表-excel技巧-电脑技巧收藏家...
  4. 在线提交信息 程序 php,在线短消息收发的程序,不用数据库_php基础_脚本
  5. python发明者叫什么-python是谁发明的
  6. leetcode 475. Heaters | 475. 供暖器(找最后一个不大于target的值/第一个不小于target的值)
  7. Java中的线程本地存储
  8. python 写入json数据到数据库
  9. jquery-本地存储-cookie插件
  10. 有关DataVisualization类组件的研究——Silverlight学习笔记[43]
  11. WebFlux响应式编程基础之 5 webflux服务端开发讲解
  12. matlab实验4图形的绘制,MATLAB编程与应用实验报告(三维图形绘制)
  13. Centos7下搭建FastDFS+Nginx
  14. Shell(一) 入门到复杂 自己做的各种脚本实例与解释
  15. LDA算法原理及matlab实现
  16. 硬件编解码与软件编解码的区别
  17. 8.4 单片机按键介绍
  18. 使用MapReduce实现k-means算法
  19. C4.5(决策树预测)算法
  20. 07SpringCloud-Elasticsearch

热门文章

  1. opencv图像分析与处理(4)- 频率域滤波的基础概念
  2. 图像增强处理之:同态滤波与Retinex算法(二)McCann Retinex和McCann99 Retinex迭代算法
  3. 深度学习笔记(一)——损失函数
  4. 综述|重邮高新波等最新《少样本目标检测算法》
  5. 关于Fragment 不响应onActivityResult的情况分析
  6. bzoj 1604 奶牛的邻居
  7. iptables数据包、连接标记模块MARK/CONNMARK的使用(打标签)
  8. JDBC03 利用JDBC实现事务提交与回滚【调用Connection中的方法实现事务管理】
  9. 职业程序员的知识体系
  10. 在 UIWebView 中如何准确获得页面加载完成的事件