转载自:lotabout.me

正文

跳表(skip list) 对标的是平衡树(AVL Tree),是一种 插入/删除/搜索 都是 O(log n) 的数据结构。跳跃表和二叉查找它最大的优势是原理简单、容易实现、方便扩展、效率更高。因此在一些热门的项目里用来替代平衡树,如 redis, leveldb 等。

跳表的基本思想

首先,跳表处理的是有序的链表(一般是双向链表,下图未表示双向),如下:
这个链表中,如果要搜索一个数,需要从头到尾比较每个元素是否匹配,直到找到匹配的数为止,即时间复杂度是 O(n)。同理,插入一个数并保持链表有序,需要先找到合适的插入位置,再执行插入,总计也是 O(n) 的时间。

那么如何提高搜索的速度呢?很简单,做个索引:

如上图,我们新创建一个链表,它包含的元素为前一个链表的偶数个元素。这样在搜索一个元素时,我们先在上层链表进行搜索,当元素未找到时再到下层链表中搜索。例如搜索数字 19 时的路径如下图:

先在上层中搜索,到达节点 17 时发现下一个节点为 21,已经大于 19,于是转到下一层搜索,找到的目标数字 19。

我们知道上层的节点数目为 n/2,因此,有了这层索引,我们搜索的时间复杂度降为了:O(n/2)。同理,我们可以不断地增加层数,来减少搜索的时间:

在上面的 4 层链表中搜索 25,在最上层搜索时就可以直接跳过 21 之前的所有节点,因此十分高效。

更一般地,如果有 k 层,我们需要的搜索次数会小于 ⌈ n 2 k \frac{n}{2^k} 2kn​⌉+ k k k,这样当层数 k 增加到 ⌈ l o g 2 n log_2n log2​n⌉ 时,搜索的时间复杂度就变成了 l o g n logn logn。其实这背后的原理和二叉搜索树或二分查找很类似,通过索引来跳过大量的节点,从而提高搜索效率。

跳表

上节的结构是“静态”的,即我们先拥有了一个链表,再在之上建了多层的索引。但是在实际使用中,我们的链表是通过多次插入/删除形成的,换句话说是“动态”的。上节的结构要求上层相邻节点与对应下层节点间的个数比是 1:2,随意插入/删除一个节点,这个要求就被被破坏了。

因此跳表(skip list)表示,我们就不强制要求 1:2 了,一个节点要不要被索引,建几层的索引,都在节点插入时由抛硬币决定。当然,虽然索引的节点、索引的层数是随机的,为了保证搜索的效率,要大致保证每层的节点数目与上节的结构相当。下面是一个随机生成的跳表:

可以看到它每层的节点数还和上节的结构差不多,但是上下层的节点的对应关系已经完全被打破了。

现在假设节点 17 是最后插入的,在插入之前,我们需要搜索得到插入的位置:

接着,抛硬币决定要建立几层的索引,伪代码如下:

randomLevel()lvl := 1-- random() that returns a random value in [0...1)while random() < p and lvl < MaxLevel dolvl := lvl + 1return lvl

上面的伪代码相当于抛硬币,如果是正面(random() < p)则层数加一,直到抛出反面为止。其中的 MaxLevel 是防止如果运气太好,层数就会太高,而太高的层数往往并不会提供额外的性能,一般 MaxLevel= log ⁡ 1 / p n \log_{1/p} {n} log1/p​n。现在假设 randomLevel 返回的结果是 2,那么就得到下面的结果。

如果要删除节点,则把节点和对应的所有索引节点全部删除即可。当然,要删除节点时需要先搜索得到该节点,搜索过程中可以把路径记录下来,这样删除索引层节点的时候就不需要多次搜索了。

显然,在最坏的情况下,所有节点都没有创建索引,时间复杂度为O(n),但在平均情况下,搜索的时间复杂度却是 O(logn),为什么呢?

简单的性能分析

一些严格的证明会涉及到比较复杂的概率统计学知识,所以这里只是简单地说明。

每层的节点数目

上面我们提到 MaxLevel,原版论文 中用 L(n) 来表示,要求 L(n) 层有 1/p 个节点,在搜索时可以不理会比 L(n) 更高的层数,直接从 L(n) 层开始搜索,这样效率最高。

直观上看1,第 l 层的节点中在第 l+1 层也有索引的个数是 n l + 1 n_{l+1} nl+1​= n l n_l nl​P 因此第 l 层的节点个数为:

n l = n p l − 1 n_l=np^{l−1} nl​=npl−1

于是代入 n L ( n ) n_{L(n)} nL(n)​=1/p 得到 L ( n ) L(n) L(n)= log ⁡ 1 / p n \log_{1/p} {n} log1/p​n。

最高的层数

上面推导到每层的节点数目,直观上看,如果某一层的节点数目小于等于 1,则可以认为它是最高层了,代入n p l − 1 p^{l−1} pl−1 =1 得到层数 L m a x L_{max} Lmax​= log ⁡ 1 / p n \log_{1/p} {n} log1/p​n+1= L ( n ) L(n) L(n)+1=O( l o g n log_n logn​)。

实际上这个问题并没有直接的解析解,我们能知道的是,当 n 足够大时,最大能达到的层数为 O(logn),详情可以参见我的另一篇博客最高楼层问题。

搜索的时间复杂度

为了计算搜索的时间复杂度,我们可以将查找的过程倒过来,从搜索最后的节点开始,一直向左或向上,直到最顶层。如下图,在路径上的每一点,都可能有两种情况:

  1. 节点有上一层的节点,向上。这种情况出现的概率是 p。
  2. 节点没有上一层的节点,向左。出现的概率是 1-p。

于是,设 C ( k ) C(k) C(k) 为反向搜索爬到第 k 层的平均路径长度,则有:

C(0) = 0
C(k) = p * (情况1) + (1-p) * (情况2)

将两种情况也用 C C C 代入,有:

C(k) = p*(1 + C(k–1)) + (1–p)*(1 + C(k))
C(k) = C(k–1) + 1/p
C(k) = k/p

上式表明,搜索时,平均在每层上需要搜索的路径长度为 1/p,从平均的角度上和我们第一小节构造的“静态”结构相同(p 取 1/2)。

又注意到,上小节我们知道跳表的最大层数为 O( l o g n logn logn),因此,搜索的复杂度
O( l o g n logn logn) /p =O( l o g n logn logn)。

P.S. 这里我们用到的是最大层数,原论文证明时用到的是 L ( n ) L(n) L(n),然后再考虑从 L ( n ) L(n) L(n)层到最高层的平均节点个数。这里为了理解方便不再详细证明。

skiplist与平衡树、哈希表的比较

  • skiplist和各种平衡树(如AVL、红黑树等)的元素是有序排列的,而哈希表不是有序的。因此,在哈希表上只能做单个key的查找,不适宜做范围查找。所谓范围查找,指的是查找那些大小在指定的两个值之间的所有节点。
  • 在做范围查找的时候,平衡树比skiplist操作要复杂。在平衡树上,我们找到指定范围的小值之后,还需要以中序遍历的顺序继续寻找其它不超过大值的节点。如果不对平衡树进行一定的改造,这里的中序遍历并不容易实现。而在skiplist上进行范围查找就非常简单,只需要在找到小值之后,对第1层链表进行若干步的遍历就可以实现。
  • 平衡树的插入和删除操作可能引发子树的调整,逻辑复杂,而skiplist的插入和删除只需要修改相邻节点的指针,操作简单又快速。
    从内存占用上来说,skiplist比平衡树更灵活一些。一般来说,平衡树每个节点包含2个指针(分别指向左右子树),而skiplist每个节点包含的指针数目平均为1/(1-p),具体取决于参数p的大小。如果像Redis里的实现一样,取p=1/4,那么平均每个节点包含1.33个指针,比平衡树更有优势。
  • 查找单个key,skiplist和平衡树的时间复杂度都为O(log n),大体相当;而哈希表在保持较低的哈希值冲突概率的前提下,查找时间复杂度接近O(1),性能更高一些。所以我们平常使用的各种Map或dictionary结构,大都是基于哈希表实现的。
  • 从算法实现难度上来比较,skiplist比平衡树要简单得多。

小结

  1. 各种搜索结构提高效率的方式都是通过空间换时间得到的。
  2. 跳表最终形成的结构和搜索树很相似。
  3. 跳表通过随机的方式来决定新插入节点来决定索引的层数。
  4. 跳表搜索的时间复杂度是 O(logn),插入/删除也是。

想到快排(quick sort)与其它排序算法(如归并排序/堆排序)虽然时间复杂度是一样的,但复杂度的常数项较小;跳表的原论文也说跳表能提供一个常数项的速度提升,因此想着常数项小是不是随机算法的一个特点?这也它们大放异彩的重要因素吧。

参考:

  • ftp://ftp.cs.umd.edu/pub/skipLists/skiplists.pdf 原论文
  • https://ticki.github.io/blog/skip-lists-done-right/ skip list 的一些变种、优化
  • https://eugene-eeo.github.io/blog/skip-lists.html skip list 的一些相关复杂度分析
  • http://cglab.ca/~morin/teaching/5408/refs/p90b.pdf skip list cookbook,算是 skip list 各方面的汇总
  • 一个可以在有序元素中实现快速查询的数据结构包含 skip list 的 C++ 实现
  • Redis内部数据结构详解(6)——skiplist 图文并茂讲解 skip list,可与本文交叉对照
  • https://www.youtube.com/watch?v=2g9OSRKJuzM MIT 关于 skip list 的课程
  • https://courses.csail.mit.edu/6.046/spring04/handouts/skiplists.pdf MIT 课程讲义
  • Redis 为什么用跳表而不用平衡树?-掘金_ 张铁蕾

Skip List(跳表)相关推荐

  1. C++实现skip list跳表(附完整源码)

    C++实现skip list跳表 实现skip list跳表算法的完整源码(定义,实现,main函数测试) 实现skip list跳表算法的完整源码(定义,实现,main函数测试) #include ...

  2. Skip List——跳表,一个高效的索引技术

    对于一个查询任务,如果不能开辟连续空间进而采样二分查找进行处理的话,通常各种树,各种碉堡的更高级的数据结构就会被提出,用来快速进行数据查询. 在这里,我无意显示自己的高人一等或是弱智一面,但是对于常见 ...

  3. java数据结构红黑树上旋下旋_存储系统的基本数据结构之一: 跳表 (SkipList)

    在接下来的系列文章中,我们将介绍一系列应用于存储以及IO子系统的数据结构.这些数据结构相互关联又有着巨大的区别,希望我们能够不辱使命的将他们分门别类的介绍清楚.本文为第一节,介绍一个简单而又有用的数据 ...

  4. 二叉树 跳表_漫谈 LevelDB 数据结构(一):跳表(Skip List)

    早对 LevelDB 有所耳闻,这次心血来潮结合一些资料粗略过了遍代码,果然名不虚传--绝对是不世出的工艺品!如果你对存储感兴趣.如果你想优雅使用C++.如果你想学习如何架构项目,都推荐来观摩一下.谷 ...

  5. 【恋上数据结构】跳表(Skip List)原理及实现

    跳表(Skip List) 引出跳表 跳表介绍 跳表原理及实现 使用跳表优化链表 跳表基础结构 跳表的搜索 跳表的添加.删除 跳表的层数 跳表的复杂度分析 跳表 - 完整源码 数据结构与算法笔记:恋上 ...

  6. 插入的数据不能时时查询到_漫谈 LevelDB 数据结构(一):跳表(Skip List)

    早对 LevelDB 有所耳闻,这次心血来潮结合一些资料粗略过了遍代码,果然名不虚传--绝对是不世出的工艺品!如果你对存储感兴趣.如果你想优雅使用C++.如果你想学习如何架构项目,都推荐来观摩一下.谷 ...

  7. 九、跳表(Skip List)

    一.概述 跳表是一种在各个方面都比较优秀的动态数据结构,可支持快速的插入.删除.查找操作,甚至可以替代红黑树(Red-black Tree) 应用:Redis 中的有序集合(sorted set)是用 ...

  8. 跳表(Skip list)

    跳表是什么样的? 对链表稍加改造,每两个节点抽取一个节点到上一层,即索引层,这种添加多级索引的结构就是跳表.利用空间换时间的设计思路,redis的有序集合的实现使用到了跳表. redis中有序集合支持 ...

  9. Skip List--跳表(全网最详细的跳表文章没有之一)

    本文是转载 作者:fanrui 链接:https://www.jianshu.com/p/9d8296562806 来源:简书 跳表是一种神奇的数据结构,因为几乎所有版本的大学本科教材上都没有跳表这种 ...

最新文章

  1. 如何删除chrome地址栏里面曾经输错的地址
  2. linux系统下一个冷门的RAID卡ioc0及其监控mpt-status
  3. 开发可以复用的构件和利用可以复用的构件进行开发
  4. 1176: C语言实验题――数组逆序
  5. C语言指南-数组之谜
  6. leetcode 231. 2 的幂
  7. python yield from_python中yield的用法以及和yield from的区别
  8. python支持哪些平台开发_【后端开发】python能兼容哪些平台
  9. MATLAB实验总结定积分,matlab实验报告--定积分的近似计算 -
  10. win10商店打不开_Win10应用商店出现异常打不开三种解决方法
  11. 人工智能--启发性信息和估价函数
  12. 为什么要用规则引擎?(试读)
  13. 九万里风鹏正举,扬帆起航,踏上新征程
  14. 竞斗云2.0刷机-编程器刷入opboot
  15. C语言求整数的和与均值
  16. 高考 计算机专业自己陈述,高三同学自我陈述报告(精选10篇)
  17. 基于遗传算法的无人机监视覆盖航路规划算法研究
  18. oracle_sod,sod: PDF.NET 的追求:代码的精简,开发、维护的简单与极致的运行效率!...
  19. WPF ComboBox 默认选中无效
  20. C语言头文件和源文件差异,#include两种引用方式差异

热门文章

  1. office产品处于非活动状态——word无法修改
  2. 枸杞的功效与食用方法
  3. Android OkHttp 全面详解
  4. Variant数据类型
  5. Rabbitmq- 消费者ack机制与发布者消息确认
  6. ARM STMFD, STMFA, STMED, STMEA, LDMFD, LDMFA, LDMED, LDMEA
  7. cisco rommon 维护路由器
  8. 声智科技亮相小米新品发布会
  9. 数说热点 | 跟着《长月烬明》起飞,今年各地文旅主打的就是一个听劝
  10. Android 获取手机的 IMEI 值 (设备标识码)