问题

  在MySQL中,无论是Innodb还是MyIsam,都使用了B+树作索引结构。MySQL为什么选择B+树作为索引结构,而不是二叉树、红黑树什么的呢?

一、二叉查找树(BST):不平衡

  二叉查找树(BST,Binary Search Tree),也叫二叉排序树:任意节点的左子树上所有节点值不大于根节点的值,任意节点的右子树上所有节点值不小于根节点的值。

  当需要快速查找时,将数据存储在BST是一种常见的选择,因为此时查询时间取决于树高,平均时间复杂度是O(log n)。然而,BST可能长歪而变得不平衡,如下图所示,此时BST退化为链表,时间复杂度退化为O(n)。


为了解决这个问题,引入了平衡二叉树。

二、平衡二叉树(AVL):旋转耗时

  AVL树是严格的平衡二叉树,所有节点的左右子树高度差不能超过1;AVL树查找、插入和删除在平均和最坏情况下都是O(logn)。

  AVL实现平衡的关键在于旋转操作:插入和删除可能破坏二叉树的平衡,此时需要通过一次或多次树旋转来重新平衡这个树。当插入数据时,最多只需要1次旋转(单旋转或双旋转);但是当删除数据时,会导致树失衡,AVL需要维护从被删除节点到根节点这条路径上所有节点的平衡,旋转的量级为O(log n)。

  由于旋转的耗时,AVL树在删除数据时效率很低;在删除操作较多时,维护平衡所需的代价可能高于其带来的好处,因此AVL实际使用并不广泛。

三、红黑树:树太高

  与AVL树相比,红黑树并不追求严格的平衡,而是大致的平衡:只是确保从根到叶子的最长的可能路径不多于最短的可能路径的两倍长。

红黑树特性:

  1. 根节点始终是黑色的。
  2. 所有叶子都是黑色。
  3. 每个红色结点的两个子结点都是黑色。
  4. 从任一结点到其每个叶子的所有路径都包含相同数目的黑色结点。

      与AVL树相比,RB-Tree的查询效率会有所下降,这是因为树的平衡性变差,高度更高。但RB-Tree的删除效率大大提高了,当插入或删除数据时,RB-Tree最多只需要旋转3次实现复衡,只需O(1),不需要像AVL树进行O(log n)次数的旋转。总的来说,红黑树的统计性能高于AVL。

  对于数据在内存中的情况(如TreeMap和HashMap),红黑树的表现是非常优异的。但是对于数据在磁盘等辅助存储设备中的情况(如MySQL等数据库),红黑树并不擅长,因为红黑树长得还是太高了。当数据在磁盘中时,磁盘IO会成为最大的性能瓶颈,设计的目标应该是尽量减少IO次数;而树的高度越高,增删改查所需要的IO次数也越多,会严重影响性能

四、B树:为磁盘而生

  B树也称平衡多路查找树,是为磁盘等辅存设备设计的多路平衡查找树,与二叉树相比,B树的每个非叶节点可以有多个子树。因此,当总节点数量相同时,B树的高度远远小于AVL树和红黑树(B树是一颗“矮胖子”),磁盘IO次数大大减少。

一棵m阶的B树特性如下(其中 ceil(x)是一个取上限的函数):

  1. 树中每个结点至多有 m 个孩子;
  2. 除根结点和叶子结点外,其它每个结点至少有有 ceil(m / 2)个孩子;
  3. 若根结点不是叶子结点,则至少有 2 个孩子(特殊情况:没有孩子的根结点,即根结点为叶子
    结点,整棵树只有一个根节点);
  4. 所有叶子结点都出现在同一层,叶子结点不包含任何关键字信息(可以看做是外部结点或查询
    失败的结点,实际上这些结点不存在,指向这些结点的指针都为 null);
  5. 包含n个关键字,n+1个指针的结点的一般形式为: (n,P0,K1,P1,K2,P2,…,Kn,Pn)。其
    中:
    (a) Ki为关键字,K1<K2<…<Kn。
    (b) Pi 是指向包括Ki到Ki+1之间的关键字的子树的指针。
    (c) 关键字的个数 n 必须满足: ceil(m / 2)-1 ≤ n ≤ m-1。

  B树的优势除了树高小,还有对访问局部性原理的利用。所谓 局部性原理,是指当一个数据被使用时,其附近的数据有较大概率在短时间内被使用。B树将键相近的数据存储在同一个节点,当访问其中某个数据时,数据库会将该整个节点读到缓存中;当它临近的数据紧接着被访问时,可以直接在缓存中读取,无需进行磁盘IO;换句话说 B树的缓存命中率更高

  B树在数据库中有一些应用,如Mongodb的索引使用了B树结构。但是在很多数据库应用中,使用了是B树的变种B+树。

五、B+树

B+树也是多路平衡查找树,其与B树的区别主要在于:

  1. B树中每个节点(包括叶节点和非叶节点)都存储真实的数据,B+树中只有叶子节点存储真实的数据,非叶节点只存储键。在MySQL中,这里所说的真实数据,可能是行的全部数据(如Innodb的聚簇索引),也可能只是行的主键(如Innodb的辅助索引),或者是行所在的地址(如MyIsam的非聚簇索引)。
  2. 有 n 棵子树的结点中含有 n 个关键字; (B-tree 是 n 棵子树有 n-1 个关键字)
  3. 所有的叶子结点中包含了全部关键字的信息,及指向含有这些关键字记录的指针,且叶子结点本
    身依关键字的大小自小而大的顺序链接。 (B-tree 的叶子节点并没有包括全部需要查找的信息)
  4. 所有的非终端结点可以看成是索引部分,结点中仅含有其子树根结点中最大(或最小)关键字。
    (B-tree 的非终节点也包含需要查找的有效信息)

由此,B+树与B树相比,有以下优势:

  • 更少的IO次数:B+树真正的数据都存在叶子结点嘛,也就是上面的结点就简单的索引,就内存会更小,意味着同样的一个页内存大小,所以B+树中,同样的磁盘页大小可以装更多个“索引”,也就是在同样的数据量的情况下,B+树会比B树更加矮胖,因此查询时IO的次数也更加少。此外,由于每个节点存储的记录数更多,所以对访问局部性原理的利用更好,缓存命中率更高
  • 更适于范围查询:在B树中进行范围查询时,首先找到要查找的下限,然后对B树进行中序遍历,直到找到查找的上限;而B+树的范围查询,只需要对链表进行遍历即可。
  • 更稳定的查询效率:B树的查询时间复杂度在1到树高之间(分别对应记录在根节点和叶节点),而B+树的查询复杂度则稳定为树高,因为所有数据都在叶节点。

B+树也存在劣势:由于 键会重复出现 ,因此会占用更多的空间。但是与带来的性能优势相比,空间劣势往往可以接受,因此B+树的在数据库中的使用比B树更加广泛

六、总结

最后,总结一下各种树解决的问题以及面临的新问题:

  1. 二叉查找树(BST):解决了排序的基本问题,但是由于无法保证平衡,可能退化为链表;

  2. 平衡二叉树(AVL):通过旋转解决了平衡的问题,但是旋转操作效率太低;

  3. 红黑树:通过舍弃严格的平衡和引入红黑节点,解决了AVL旋转效率过低的问题,但是在磁盘等场景下,树仍然太高,IO次数太多;

  4. B树:通过将二叉树改为多路平衡查找树,解决了树过高的问题;

  5. B+树:在B树的基础上,将非叶节点改造为不存储数据的纯索引节点,进一步降低了树的高度;此外将叶节点使用指针连接成链表,范围查询更加高效。

参考文献:https://www.cnblogs.com/kismetv/p/11582214.html

为什么Mysql底层采用B+树做索引?相关推荐

  1. mysql b 树原因_复习系列之数据库(四):MySQL为什么采用B+树作为索引结构?

    MySQL中数据是索引组织表,即表中数据按照主键顺序存放.所以就可以基于索引这种数据结构实现一些高级算法,来提高检索效率. 常见的查找算法 顺序查找:复杂度O(n),在数据量大时,效率很低 二分查找: ...

  2. MySQL - 为什么使用B+树做索引结构

    一.简介 官方:索引是帮助MySQL高效获取数据的排好序的数据结构 二.数据结构实现方式 二叉树 红黑树 Hash表 B-Tree 三.b+树结构详解 MySQL底层索引用的并不是完全的b树,而是在b ...

  3. mysql为什么用B 树做索引_mysql为什么用b+树做索引

    关键字就是key的意思 一.B-Tree的性质 1.定义任意非叶子结点最多只有M个儿子,且M>2: 2.根结点的儿子数为[2, M]: 3.除根结点以外的非叶子结点的儿子数为[M/2, M]: ...

  4. 理论详解:为什么 MySQL 采用B+树作为索引?

    前言 为什么 MySQL 采用B+树作为索引? 如果纯粹的猜测MySQL数据库索引为什么使用B+树?那么围绕这个问题的回答通常一定是围绕B+树本身是什么,有什么优势这两点去解释这个问题. (这不是我开 ...

  5. 为什么 MySQL 采用 B+ 树作为索引?

    大家好,我是小林. 「为什么 MySQL 采用 B+ 树作为索引?」这句话,是不是在面试时经常出现. 要解释这个问题,其实不单单要从数据结构的角度出发,还要考虑磁盘 I/O 操作次数,因为 MySQL ...

  6. MySQL数据库的红黑树优化_为什么Mysql用B+树做索引而不用B-树或红黑树

    B+树做索引而不用B-树 那么Mysql如何衡量查询效率呢?– 磁盘IO次数. 一般来说索引非常大,尤其是关系性数据库这种数据量大的索引能达到亿级别,所以为了减少内存的占用,索引也会被存储在磁盘上. ...

  7. mysql为什么不用b树_MySQL用B+树(而不是B树)做索引的原因

    众所周知,MySQL的索引使用了B+树的数据结构.那么为什么不用B树呢? 先看一下B树和B+树的区别. 1.B树 维基百科对B树的定义为"在计算机科学中,B树(B-tree)是一种树状数据结 ...

  8. 二叉树、B树(B-树)、B+树、B*树详解,以及为什么MySQL选择B+树做索引

    温故而知新,可以为师矣.看到一篇介绍B数和B减树的文章,这里记录一下. 1. 简要 众所周知,MySQL的索引使用了B+树的数据结构.那么为什么不用B树呢? 先看一下B树和B+树的区别. 2. 二叉树 ...

  9. 为什么MySQL InnoDB 存储引擎要用B+树做索引,而不用B树?

    为什么MySQL InnoDB 存储引擎 要用B+树做索引,而不用B树? (1)B+树空间利用率更高,可减少I/O次数 一般来说,索引本身也很大,不可能全部存储在内存中,因此索引往往以索引文件的形式存 ...

最新文章

  1. 修复.NET的HttpClient
  2. 常用Git代码托管服务分享
  3. 使用MEF实现通用参数设置
  4. 编程之美-求二叉树中节点的最大距离方法整理
  5. busybox在android开发中的应用
  6. Java实现图的深度和广度优先遍历算法
  7. ios uiview 如何刷新_ios – 从另一个UIViewController刷新表
  8. JavaScript权威指南 - 数组
  9. totolink服务器未响应,TOTOLINK路由器设置后无法上网问题的解决方法
  10. Window 2008 server DNS 无法解析ISA WPAD
  11. HashPasswordForStoringInConfigFile 已过时
  12. [转]关于Win32 Console的计时器
  13. 一加会不会适配鸿蒙系统,或将适配高通平台 传闻一些手机厂商正接触华为鸿蒙OS计划适配...
  14. AltiumDesigner画图不求人12 AD库转换为PADS库
  15. Netapp 存储文件共享-windows 系统应用
  16. 微信小程序 定位获取开发模式好的 但是真机就失败了
  17. 智能巡检系统:企业安全生产管理的智能助手
  18. 清华“差生”10年奋斗经历:只写事业,不写女人
  19. Java JVM:垃圾回收(GC 在什么时候,对什么东西,做了什么事情)
  20. 【修改 ruoyi-plus 项目名字很麻烦,不如来试试这个工具!开源框架修改项目名!】

热门文章

  1. mysql怎么样修改schema_MySQL 5.6使用pt-online-schema-change在线修改大表字段长度
  2. Zephyr:undefined reference to `__device_dts_ord_xx‘
  3. Java的建造者模式(builder)
  4. kali linux忘记密码找回方法
  5. C语言讲义——开发工具Dev C++
  6. HTML5的字体样式设置方法
  7. [翻译]ASP.NET MVC4新特性之脚本压缩和合并
  8. 一个监听home键锁屏键的工具类
  9. 鸿蒙如何连接电视,鸿蒙系统的电视怎么安装第三方软件,荣耀智慧屏X1装软件教程...
  10. 使用Notepad++查看class文件