一、B+树索引概述

  • B+树索引的本质就是B+树在数据库中的实现。但是B+索引在数据库中有一个特点就是高扇出性,因此在数据库中,B+树的高度一般都在2~4层,也就是说查找某一键值的行记录最多只需要2~4次IO。因为当前一般的机械磁盘每秒至少可以做100次IO,2~4次IO意味着查询时间只需0.02~0.04秒

B+树的大致工作原理

  • 先抛开各种实现细节,来说一说B+树索引的大致工作原理
  • 工作原理如下:
    • 假设现在是主键索引表,一个表中有0、1、2、3、4、5、6、7、8八个主键
    • 那么在B+树中,其叶子节点存储的是这些主键
    • 当我们select * from table where id >1 and id <7的时候,那么会先从B+树的根节点开始向下查找,查找到1这个节点之后,由于底层节点之间是链表形式组织的,因此主键向右进行查找,从而查找到2、3、4、5、6这几个节点
    • insert、update、delete这些都是相同的原理

InnoDB和MyIASM的B+树之间有什么差别

  • InnoDB和MyIASM都支持B+树索引,那么它们之间的区别是什么呢?

    • InnoDB:其叶子节点存储不仅存储着主键的值,并且还存储着该主键对应的行数据。因此,其每个叶子节点=主键+整行数据值
    • MyIASM:其叶子节点也是存储着主键的值,但是其不存储该主键对应的行数据,其存储的是指向该行数据对应的地址。当我们查找到该主键值,再通过该指针查找到对应地址上的值

面试题:MyIASM与InnoDB通过B+数索引操作数据,哪一个更快?

  • 规则为:

    • 当操作的数据量不多时,可能两者没什么差别
    • 当操作的数据量较大时,那么InnoDB比MyIASM快
  • 解释如下:
    • InnoDB从磁盘读取数据在内存中构造一棵B+树,由于其B+树叶子节点存储的都是数据的值,因此其数据直接存储在内存中
    • MyIASM从磁盘读取数据在内存中构造一棵B+树,由于其B+树叶子节点只存储数据对应的指针,不存储值,因此其不会将数据读取都内存中
    • 所以当数据量不多时,两者没什么区别:因为数据量小,InnoDB直接从内存中取数据,MyIASM通过指针去磁盘中查找数据,效率差别不大
    • 当操作的数据量较大时,InnoDB直接从内存中取数据,那么速度较快,但是MyIASM需要不断的通过指针去磁盘中取数据,从而导致速度较慢

B+树索引分类

  • 分为:

    • 聚集索引(clustered index):按照每张表的主键构造一棵B+树,一个表只能有一个聚集索引
    • 辅助索引(secondary index):根据非主键构造B+树,一个表可以有多个辅助索引
  • 不管是聚集还是辅助索引,其内部都是B+树的,即高度平衡的,叶子节点存放着所有的数据
  • 聚集索引与辅助索引不同的是,叶子节点存放的是否为一整行的信息

二、聚集索引

聚集索引结构

  • 前面介绍过,InnoDB是索引组织表,即表中数据按照主键顺序存放
  • 而聚集索引就是按照每张表的主键构造一棵B+树,同时叶子节点中存放的即为整张表的行记录数据,也将聚集索引的叶子节点称为数据页。聚集索引的这个特性决定了索引组织表中的数据也是索引的一部分。同B+树结构一样,每个数据页都通过一个双向链表进行链接
  • 由于实际的数据页只能按照一棵B+树进行排序,因此每张表只能拥有一个聚集索引
  • 在多数情况下,查询优化器倾向于采用聚集索引。因为聚集索引能够在B+树索引的叶子节点上直接找到数据。此外,由于定义了数据的逻辑顺序,聚集索引能够特别快地访问针对范围值的查询。查询优化器能够快速发现某一段范围的数据页需要扫描

B+树结构分析案例

  • 下面创建一个表,让每个页只能存放两个行记录
create table t(a int not null,b varchar(8000),primary key(a)
)engine=innodb;
  • 插入数据,插入的列b长度为7000,因此可以人为的使目前每个页只能存放两个行记录
insert into t select 1,repeat('a',7000);
insert into t select 2,repeat('a',7000);
insert into t select 3,repeat('a',7000);
insert into t select 4,repeat('a',7000);
  • 使用py_innodb+page_info工具分析表空间,可得:

    • page level为0000的是数据页,前面的章节对数据页进行分析了,现在我们不重点关注这一部分
    • page level为0001的页,当前B+树高度为2,因此这个页是B+树的根

  • 通过hexdump工具观察说是因的根页中所存放的数据,然后通过页尾的Page Directory来分析此页:

    • 从00 63可以知道:该页中行开始的位置
    • 接着通过Recorder Header来分析:
      • 0xc063开始的值为69 6e 66 69 6d 75 6d 00,就代表infimum为行记录
      • 之前的5字节01 00 02 00 1b就是Recorder Header,分析第4位到第8位的值1代表该行记录中只有一个记录(需要记住的是,InnoDB的Page Directory是稀疏的),即infimum记录本身
      • 通过Recorder Header最后两个字节00 1b来判断下一条记录的位置,即c063+1b=c07e,读取键值可得80 00 00 01,这就是主键为1的键值(表定义时int是无符号的,因此二进制是0x80 00 00 01,而不是0x0001)
    • 80 00 00 01后的值00 00 00 04代表指向数据页的页号
    • 同样的方式可以找到80 00 00 02和80 00 00 04这两个键值以及它们指向的数据页

  • 通过以上对非数据页节点的分析,可以发现数据页上存放的是完整的每行的记录,而在非数据页的索引页中,存放的仅仅是键值及指向数据页的偏移量,而不是一个完整的行记录。因此这棵聚集索引数的构造大致如下图所示

聚集索引的存储并不是物理上连续的

  • 许多数据库的文档和网上的博客都说聚集索引按照顺序物理地存储数据。通过上图可以看出,如果聚集索引必须按照特定顺序存放物理记录,则维护成本显得非常只改
  • 所以聚集索引的存储并不是物理上连续的,而是逻辑上连续的
  • 这其中有两点:
    • 一是前面说过的页通过双向链表连接,页按照主键的顺序排序
    • 另一点就是每个页中的记录也是通过双向链表进行维护的,物理存储上可以同样不按照主键存储

聚集索引的“快速查询”优点

  • 聚集索引的另一个好处就是,它对于主键的排序查找和范围查找速度非常快,叶子节点的数据就是用户所要查询的数据
  • 如用户需要查询一张注册用户的表,查询最后注册的10位用户,由于B+树索引是双向链表的,用户可以快速找到最后一个数据页,并取出10条记录。若用EXPLAIN进行分析,可得:
    • 这里虽然使用order by对记录进行排序,但是在实际过程中并没有进行所谓的filesort操作,而这就是因为聚集索引的特点

  • 另一个是范围查询,即如果要查找主键某一范围内的数据,通过叶子节点的上层中间节点就可以得到页的范围,之后直接读取数据页即可。又如:

    • 执行explain得到了MySQL数据库的执行计划(execute plan),并且在rows列中给出了一个查询结果的预估返回行数。要注意的是,rows代表是一个预估值,不是确切的值,如果实际执行这句SQL的查询,可以看到实际上只有9946行记录

三、辅助索引(非聚集索引)

辅助索引结构

  • 辅助索引(secondary index)也称为非聚集索引,叶子节点并不包含行记录的全部数据
  • 叶子节点除了包含键值以外,每个叶子节点中的索引行中还包含了一个书签(bookmark)。该书签用来告诉InnoDB存储引擎哪里可以找到与所以相对应的行数据。由于InnoDB存储引擎表是索引组织表,因此InnoDB存储引擎的辅助索引的书签就是相应行数据的聚集索引键
  • 下图显示了InnoDB存储引擎中辅助索引与聚集索引的关系:

工作原理

  • 辅助索引的存在并不影响数据在聚集索引中的组织,因此每张表上可以有多个辅助索引
  • 当通过辅助索引来寻找数据时,InnoDB存储引擎会遍历辅助索引并通过叶级别的指针获得指向主键索引的主键,然后再通过主键索引来找到一个完整的行记录
  • 例如:如果在一棵高度为3的辅助索引树中查找数据,那需要对这棵辅助索引树遍历3次找到指定主键,如果聚集索引树的高度同样为3,那么还需要对聚集索引树进行3次查找,最终找到一个完整的行数据所在的页,因此一共需要6次逻辑IO访问以得到最终的一个数据页

辅助索引结构分析

  • 还是以上面的表t为例,然后再添加一个列c
create table t(a int not null,b varchar(8000),primary key(a)
)engine=innodb;
alter table t add c int not null;
  • 为每个行更新一下新添加列c的值
update t set c=0-a;
  • 对列c创建非聚集索引
alter table t add key idx_c(c);
  • 查看一下当前的索引

  • 查看一下当前表的数据

  • 利用py_innodb_page_info工具分析表空间,可得:

  • 与上面聚集索引相比较,此次多出了一个页。分析page offset为4的页,该页即为非聚集索引所在页,通过工具hexdump分析可得:

  • 由于只有4行数据,并且列c只有4字节,因此在一个非聚集索引页中即可完成,整理分析可得如下图所示的关系,下图显示了表t辅助索引idx_c和聚集索引的关系:

    • 可以看到辅助索引的叶子节点包含了列c的值和主键的值
    • 因为这里我们特意将键值设为负值,所以会发现-1以7f ff ff ff的方式进行内部存储
    • 7(0111)最高位为0,代表负值,实际的值应该取反后加1,即得-1

四、B+树索引的分裂

  • B+树索引的分裂与B+数的插入操作不同,B+树索引页的分裂并不总是从页的中间记录开始,这样可能会导致页空间的浪费

演示说明

  • 插入是根据自增顺序进行的,若这时插入了10条记录

  • 之后如果还要插入记录并且需要分页操作,那么会将记录5作为分裂点,分裂之后得到下面两个页

  • 我们知道插入时顺序插入的,因此P1这个页中将不会再有记录被插入,因此导致空间浪费,而P2又会再次进行分裂
  • InnoDB存储引擎的Page Header有以下几个部分来保存插入的顺序信息:

    • PAGE_LAST_INSERT
    • PAGE_DIRECTION
    • PAGE_B_DIRECTION
  • 通过这些信息,InnoDB存储引擎可以决定是向右还是向左进行分裂,同时决定将分裂点记录为哪一个
    • 若插入是随机的,则取页的中间记录作为分裂点的记录,这和之前介绍的相同
    • 若往同一方向插入的记录数量为5,并且目前已经定位(cursor)到的记录(InnoDB时,首先需要进行定位,定位到的记录为待插入记录的前一条记录)之后还有3条记录,则分裂点的记录为定位到的记录后的第三条记录,否则分裂点记录就是待插入的记录

演示案例

  • 现在看看一个向右分裂的例子,并且定位到的记录之后还有3条记录,则分裂点记录如下图所示:

  • 上图向右分裂且定位到的记录之后还有3条记录,split record为分裂点记录、最终向右分裂得到下图所示的情况

演示案例

  • 在上面演示案例中,分裂点就为插入记录本身,向右分裂后仅插入记录本身,这在自增插入时是普遍存在的一种情况

MySQL(InnoDB剖析):24---B+树索引(聚集索引与非聚集索引(辅助索引))、B+树索引的分裂相关推荐

  1. MySQL(InnoDB剖析):---B+树索引(聚集索引与非聚集索引(辅助索引))、B+树索引的分裂

    小伙伴们大家好!今天是大年三十,给大家拜个早年!在此小弟祝各位大哥们与家人团团圆圆,和和睦睦,新的一年身体健康,工作顺利! 一.B+树索引概述 B+树索引的本质就是B+树在数据库中的实现.但是B+索引 ...

  2. MySQL(InnoDB剖析):29---全文检索(倒排索引、全文索引/全文检索)

    一.引言 演示说明 前面介绍过了,B+树索引的特点是可以通过索引字段的前缀进行查找.例如对于下面的查询B+树是支持的 select * from blog where content like 'xx ...

  3. SQL Server将主键索引,改为非聚集索引

    一.创建索引 1.聚集索引 --给'表名'的'列名'添加一个名叫'索引名称'的聚集索引 create clustered index 索引名称 on 表名(列名) 2.非聚集索引 --给'表名'的'列 ...

  4. SQL Server中的聚集索引(clustered index) 和 非聚集索引 (non-clustered index)

    1. 什么是聚合索引(clustered index) / 什么是非聚合索引(nonclustered index)? 2. 聚合索引和非聚合索引有什么区别? 深入浅出理解索引结构 实际上,您可以把索 ...

  5. MySQL(InnoDB剖析):15---table之(表空间:段(segment)、区(extent)、页(page))

    一.InnoDB逻辑存储结构 从InnoDB的逻辑存储结构看,所有数据都被逻辑地存放在一个空间中,称之为表空间(tablespace) 表空间又由段(segment).区(extent).页(page ...

  6. MySQL(InnoDB剖析):36---锁之(阻塞、死锁、锁升级)

    一.阻塞 因为不同锁之间的兼容性问题,在有些时刻一个事务中的锁需要等待另一个事务中的锁释放它所占用的资源,这就是阻塞.阻塞并不是一件坏事,其是为了确保事务可以并发且正常地运行 innodb_lock_ ...

  7. MySQL(InnoDB剖析):53---性能调优之(CPU的选择、内存的重要性、磁盘对数据库性能的影响)

    一.CPU的选择 用户首先需要清楚当前数据库的应用类型.一般而言,可分为两大类:OLTP(Online Transaction Processing,在线事务处理)和OLAP(Online analy ...

  8. MySQL(InnoDB剖析):42---事务之(事务控制语句:begin、commit、rollback、savepoint、transaction)

    一.事务的自动提交 默认情况下,没有使用begin显式开启事务,事务都是自动提交的 autocommit变量 该变量用于控制SQL语句是否自动提交(auto commit) 默认值为1,表示自动提交 ...

  9. MySQL(InnoDB剖析):51---备份与恢复之(快照备份(lvcreate、lvdisplay))

    一.快照备份概述 MySQL数据库本身并不支持快照功能,因此快照备份是指通过文件系统支持的快照功能对数据库进行备份.备份的前提是将所有数据库文件放在同一文件分区中,然后对该分区进行快照操作 支持快照功 ...

最新文章

  1. html5页面中鼠标悬停效果,CSS实例:非常不错的鼠标悬停TIP效果!_div+css布局教程...
  2. 如何定义经济的网络(后期可以随意剪枝)
  3. 【Android 组件化】使用 Gradle 实现组件化 ( 组件模式与集成模式切换 )
  4. linux开发板蓝牙连接,开发板蓝牙通信问题,有这方面经验的请进
  5. Spring松耦合的实现
  6. 20211231 使用windows 10代理时,快捷设置“手动设置代理”的“不使用代理”条目
  7. php执行zip压缩,PHP执行zip与rar解压缩方法实现代码
  8. pythonjson构建二维数组_python后台获取ajax传递的二维数组,保持原有数据结构不变...
  9. DELL 2400卡原装标志
  10. Spring MVC 事务配置
  11. NYOJ 819奶牛 水
  12. 微信直播教程:微信直播时如何做直播倒计时预告效果
  13. 班级管理系统v_1.1
  14. [openssl]centos version ‘libcrypto.so.10‘ not found
  15. mac文件管理服务器,Path Finder For Mac v8.6 高效的文件管理工具 _ 黑苹果乐园
  16. 计算机管理磁盘管理右键无反应,win7系统删除磁盘管理磁盘右键菜单只有“帮助”的解决技巧...
  17. bzoj4372. 烁烁的游戏【动态点分治】
  18. linux tar exclude 多个目录,tar 过滤多个文件目录 打包
  19. 史上最详细浏览器端网页截图方案分析
  20. 360浏览器兼容问题html,该页面显示了360浏览器中的异常兼容性问题

热门文章

  1. 达内微软mta证书有用吗_达内与微软达成战略合作 合作培养青少年科技素质
  2. Unity huatuo示例项目源码分析与启发
  3. 腾讯云轻量应用服务器搭建跨境电商的方法步骤(非常详细)
  4. 如果爱忘了那就让一切随风去吧
  5. 基于java的springboot球馆运动场地预约系统毕业设计springboot开题报告
  6. 服务器怎么解压文件夹,怎么在云服务器上解压文件夹
  7. ARM 立即寻址之立即数的形成 —— 如何判断有效立即数
  8. 数字逻辑课程设计,简单的8位模型计算机verilog设计
  9. 我理解的伽马校正(Gamma Correction)
  10. 利用GDB进行多线程调试