原文来自于:http://dblab.cs.toronto.edu/courses/443/2013/05.btree-index.html

1. B+树索引概述

在上一篇文章中,我们讨论了关于index的几个中重要的课题:

A) index是保存在磁盘上的一种数据结构,用于提高查询或是扫描record的速度。

B) 排序索引树通过保存page的指针加速record的查找。(ISAM)

C) 维护排序索引树的代价很高,因此,ISAM通过创建overflow page来解决这个问题,但是过多的overflow page会使查询性能从log(指数log)级别降低到线性遍历。

下面我们将介绍一种高度健壮的、比较流行的一种数据结构——B+树,作为ISAM的扩展。

一般说来,B+树是一种高效的基于磁盘保存的数据结构,主要保存(key, value)pair。它支持对key的高效查找,和高效的范围迭代。

B+树提供了这些功能:

A) 快速的record查找

B) 快速的record遍历

C) 不通过overflow page的形式维护排序树结构

B+树背后的关键思想是利用有序平衡树,替代ISAM中的排序树。

2. B+树的定义

B+树是用磁盘上的page作为node节点的树。B+树中的节点可以区分为leaf node(叶子节点)和interior node(内部节点)。

由于每一个node刚好是磁盘中的一个page,在B+树中,我们使用的术语node和page是可以互换的。

2.1 leaf node

leaf node保存数据entry(条目,相当于record),entry的形式是(key, value)。所有的leaf node也被组织成page链表的形式。B+树的leaf node如下图所示:

下面是leaf node抽象的数据结构定义:

struct LeafNode
{vector<Key> keys;vector<Value> values;PagePointer next_page;
};

对任意的leaf node,下面的公式都是成立的:

p.keys.size() == p.values.size()

2.2 interior node

Interior node组织成一个树的形式,从root node(根节点,根节点也是一个interior node)开始,通过保存一系列key,来加速查询leaf node。

Interior node保存着一系列key和page指针,它的结构如图所示:

下面是interior node抽象的数据结构定义:

struct InteriorNode
{vector<Key> keys;vector<PagePointer> pointers;
};

对任意的interior node来时,下面的公式都是成立的:

p.keys.size() +1 == p.pointers.size()

有一个定义:Neighbouring pointer(临近指针)

对于一个key ki,我们定义before(ki)是ki前面临近的page指针,after(ki)是ki后面临近的指针。也就是说:

p.before(ki) = p.pointers[i]

p.after(ki) = p.pointers[i+1]

2.3 B+树的属性和约束条件

2.3.1 node中的key都是排好序的。

假设,p是B+树中的node,那么我们必须维持p.keys关于value是有序的。

2.3.2 各个node之间也是按key进行排序的。

B+树是有序树,表现在一下几个方面:

A) leaf node是有序的:

∀p∈LeafNode,∀k∈p.keys,∀k′∈p.next_page.keys,k<k′

多个leaf node组成一个有序链表,在各个leaf node之间使得高效的对(key, value)遍历成为可能。

B) interior node是有序的:

B+树对所有的key k,和其临近的指针after(k) 、after(k),满足下面的条件:

k>max(keys(before(k)))

k≤min(keys(after(k)))

换句话说,k是介于before(k)、after(k) 的key之间的key。如图:

2.3.3 B+树是平衡树

B+树是平衡树,所有从root node到任何leaf node的路径长度是相等的。

2.3.4 B+树node是充分填充的

B+树允许它的node部分填充。主要是设计了一个填充因子的参数,用来限定每个non-root node(非根节点)的最小填充度。

如果一个non-root node的填充度不够,我们就说该node underflow,在B+树里只有root node可以underflow。

这里有一个不合格的B+数的例子。假设我们定义了下面的参数:

Capacity of each node: 4 keys

Fill factor: 50%

当该树经过平衡和排序后,它的结构如下图所示:

它存在着这样一个问题:没有满足我们上面定义的填充因子(fill factor)50%:

3. B+树的查询search和插入insert

B+树的主要操作有:

/*** finds the leaf node that _should_ contain the entry with the specified key*/
LeafNode search(Node root, Key key)/*** Inserts a key/val pair into the tree.* Returns the root of the new tree which _may_ be different* from the old root node.*/
InteriorNode insert_into_tree(InteriorNode root, Key newkey, Value val)

B+树的insert算法必须保证执行相应的操作之后使得树依然满足B+的所有属性和约束。

3.1 Searching

B+树的查询算法就是简单直接的树的查找算法:

LeafNode search(Node p, Key key)
{if(p is LeafNode)return root;else {if(key < p.keys[0])return search(before(p.keys[0]), key);else if(key > p.keys[-1])return search(after(p.keys[-1]), key);else {let i be p.keys[i] <= key < p.keys[i+1]return search(after(p.keys[i]), key)}}
}

3.2 Inserting

B+树的insert操作是非常棘手的。它不像AVL的insert操作那样简单,B+树还需要考虑node的overflow和underflow。

Insert算法从这开始:

1) 寻找insert的正确的目标leaf node

2) 向目标leaf node中尝试insert操作

InteriorNode insert_into_tree(InteriorNode root, Key newkey, Value val)
{LeafNode leaf = search(root, newkey);return insert_into_node(leaf, newkey, val);
}

其中,insert_into_node中,要做如下的一些事:

/*** Tries to inserts the (newkey/val) pair into* the node.** If `target` is an interior node, then `val` must be a page pointer.*/
InteriorNode insert_into_node(Node target, newkey, val)
{if( ... CASE 1 ... ) {/* handle CASE 1 */} else if( ... CASE 2 ... ) {/* handle CASE 2 */} else if( ... CASE 3 ... ) {/* handle CASE 2 */}
}

其中三个不同的case包括:

A) 目标leaf node有足够的空间保存key

B) 目标leaf node已满,但是它的parent node(父节点)有足够的空间保存key

C) 目标leaf node和它的parent node已满。

Case 1:

这是最简单的一种情况,将entry(newkey, value) 插入到目标leaf node即可。

A) Root node 不需要改变

B) 磁盘I/O也无需讨论。所有的操作都在一个page中。buffer manager(缓存管理)可以被用到,仿佛所有的node都保存在内存。

如图示:

Case 2:

在这种情况下,target node已满,但是它的parent node有足够的空间保存一个key。

A) 创建一个target node的兄弟node作为new_target node,将new_target node插入带target node之后。

B) 将target node中的所有entry和我们需要增加的entry分配保存到target node和new_target node中。由于分配之前target node是满的,那么就可以断定分配之后,这两个node不会存在underflow。

C) 将new_target的指针(k,p) = (leaf2.keys[0], ADDRESS[leaf2]) insert到target node的parent node中。由于parent node有足够的空间保存一个key,所以parent node不会出现overflow。

如图示:

Case 3:

这种情况是target和parent[target]都满了的情况。我们需要递归的尝试将新的key insert到target的祖先node中。甚至都有这种情况:root node也没有足够的空间保存这个新key ,这种情况下,我们必须对root进行分割,创建一个新的node作为B+树的root node。

具体细节如下:

A) 创建一个new_target node,insert到target之后。

B) 将target中的entry分配保存到target和new_target中。

现在我们需要将new_target node的指针(k,p) = (leaf2.keys[0], ADDRESS[leaf2])插入到它的PARENT[target],但是PARENT[target]已经满了。

A) 令target_parent = PARENT[target]

B) 令all_keys = sorted(target_parent.keys ∪ {k})

C) 申请一个新的node:new_interior

D) 令i = floor(all_keys.size() / 2)

middle_key = all_keys[i]

E) 将all_keys[0 .. i-1]保存到target_parent中,将all_keys[i+1 .. n]保存new_interior到中。

F) 如果target_parent是root,那么我们就创建一个新的node作为grandparent ,令grandparent = PARENT[target_parent]。

G) 递归地调用:

insert_into_node(grandparent, middle_key, ADDRESS[new_interior])

如图所示:

4. B+树的其它的东西

a) B+树也支持高效的删除delete。删除算法是insert算法的逆过程。在delete的算法中会通过merge(合并)node,去避免underflow。如果发生merge node,那么会在parent node递归的delete这个(Key, PagePointer)。

b) 如果所有的data entry都保存在sequential file中,并且关于key排序,那么就可以非常有效的将sequential file装载到B+树。

c) B+树可以作为基于磁盘有序存储的排序算法。

数据库系统——B+树索引相关推荐

  1. B树索引和位图索引介绍

    一  前言:? ROWID:包含键值的行的行ID,(查找块的最快方法,类似于门牌号)? 因为所有行属于同一个段,所以要使用受限的ROWID 指向表行 索引是数据库为了提高查询效率提供的一种冗余结构,保 ...

  2. Mysql InnoDB B+树索引和哈希索引的区别? MongoDB 为什么使用B-树?

    B-树和B+树最重要的一个区别就是B+树只有叶节点存放数据,其余节点用来索引,而B-树是每个索引节点都会有Data域. B+树 B+树是为磁盘及其他存储辅助设备而设计一种平衡查找树(不是二叉树).B+ ...

  3. 面试题:mysql 表删除一半数据,B+树索引文件会不会变小???

    今日寄语:努力的阶段,往往是最不养生的阶段! 一张千万级的数据表,删除了一半的数据,你觉得B+树索引文件会不会变小? (答案在文章中!!) 我们先来做个实验,看看表的大小是如何变化的?? 做个实验,让 ...

  4. mysql主键始终从小到大_Mysql从入门到入神之(四)B+树索引

    前言 文本已收录至个人GitHub仓库,欢迎Star:github.com/bin39232820- 种一棵树最好的时间是十年前,其次是如今 我知道不少人不玩qq了,可是怀旧一下,欢迎加入六脉神剑Ja ...

  5. b树与b+树的区别_一篇文章理清B树、B-树、B+树、B*树索引之间的区别与联系

    概述 相信对于B树.B-树.B+树.B*树索引这几个大家都很容易混淆,下面单独对这几个索引做下分类总结. B树 即二叉搜索树: 1.所有非叶子结点至多拥有两个儿子(Left和Right): 2.所有结 ...

  6. B+树索引和哈希索引的区别——我在想全文搜索引擎为啥不用hash索引而非得使用B+呢?...

    哈希文件也称为散列文件,是利用哈希存储方式组织的文件,亦称为直接存取文件.它类似于哈希表,即根据文件中关键字的特点,设计一个哈希函数和处理冲突的方法,将记录哈希到存储设备上. 在哈希文件中,是使用一个 ...

  7. MySQL B+树索引和哈希索引的区别

    导读 在MySQL里常用的索引数据结构有B+树索引和哈希索引两种,我们来看下这两种索引数据结构的区别及其不同的应用建议. 二者区别 备注:先说下,在MySQL文档里,实际上是把B+树索引写成了BTRE ...

  8. 数据库:B+树索引和Hash索引得区别

    导读 在MySQL里常用的索引数据结构有B+树索引和哈希索引两种,我们来看下这两种索引数据结构的区别及其不同的应用建议. 二者区别 备注:先说下, 在MySQL文档里,实际上是把B+树索引写成了BTR ...

  9. mysql vpformysql引擎_MySQL InnoDB引擎B+树索引简单整理说明

    本文出处:http://www.cnblogs.com/wy123/p/7211742.html (保留出处并非什么原创作品权利,本人拙作还远远达不到,仅仅是为了链接到原文,因为后续对可能存在的一些错 ...

最新文章

  1. 系统备份还原软件整理
  2. opengl游戏引擎源码_UE4渲染引擎模块简介(1)
  3. 《系统集成项目管理工程师》必背100个知识点-63供应商选择
  4. 大数据能否力挽国足败落狂澜?
  5. LeetCode算法入门- Implement strStr() -day22
  6. Linux认证复习题100道含答案
  7. Flutter 萌新高频问题(加班猿妈妈叫你回家吃饭了)
  8. Android面向HTTP协议发送post请求
  9. 计算机学院实验室安全管理办法,江苏大学计算机学院实验室安全管理制度
  10. 【Java多线程】写入同一文件,自定义线程池与线程回收利用2
  11. 生信自学笔记(三)分子数据库
  12. 熊猫的python小课账号_校长,我要上车——python模拟登录熊猫TV
  13. 【AIS学习】12:AIS标准下载
  14. 命名时取代基优先顺序_求在有机化学的命名中,较优基团的排列顺序在有机化学的命名中,较优基团的排列顺序.急用....
  15. 搜索引擎必看的入门书籍——《搜索引擎:信息检索实践》
  16. matlab的一点内容
  17. 第五届“强网”拟态防御国际精英挑战赛——特邀战队篇
  18. Opencv之多目标追踪(基于Dlib库)
  19. ssm 一对多的映射关系
  20. 作为一名高级程序员应该掌握哪些技术

热门文章

  1. fail2ban使用教程
  2. 关系计划笔谈(9-3):关系预置和关系计划
  3. JDK+TOMCAT在LINUX下简单的配置
  4. spring boot配置druid
  5. 由学习《软件设计重构》所想到的代码review(二)
  6. 树莓派进阶之路 (002) - 系统烧录及系统使用(多平台)
  7. php ×××号码效验码生成函数
  8. .net multi-threads synchronization : Use Lock effective
  9. 区块链用AI和大数据改变行业现状
  10. 爬虫监控1000家企业新闻动态