处理字典值是把字典放内存还是用sql处理

准备 1、对关系型数据库有基本的了解
2、对树，平衡二叉树有了解。

一、什么是索引以及为什么要用索引

二、索引的分类

三、实现原理

四、物理存储

五、索引的优化

在实际的面试中，遇到数据库的问题大致有事务、锁、索引、以及SQL调优等方面的问题。
索引算是一个比较基础的知识点了，以下以MySQL为例，谈谈数据库的索引。

什么是索引

简单来讲，索引是将数据库中的记录按照某个特殊的格式存储的数据结构。通过索引，能够显著提高查询效率，从而提高服务器的性能。
数据库中的索引类似我们书籍、字典的索引，我们通过，例如我们想查字【红】【hong】我们可以利用字典的拼音表去查对应【hong】的页数，然后直接找到改页，对比所有的哄、鸿、宏、红，最后找出我们所需要的数据。但是一般我们查字典都不用拼音表，或者偏旁表，而是直接去翻页数，比如说先翻到【N】，再翻到【F】，再翻到【I】，最后我们很快地找到了对应的【H】。

为什么要是用索引

这个问题等价于，索引的好处：

1、避免全表扫描。有了索引，我们通过索引存放的物理地址或者偏移地址也好去对应的内存，磁盘中去寻找，大大节约了时间，不然只能遍历全表扫描了。2、减少排序、临时表的建立以主键索引为例子，一般我们设置主键自增，当我们利用索引找到数据，由于索引本身是有序的，找出来的数据也自然是有序的，这点如果底层是hash表实现的，则无序。可以将无序IO变成有序IO。

索引的缺点：

索引本身是以表的形式存储的，自然会占用内存空间讲到这里，一般的磁盘格式化，也是删除索引，而不是删除原数据，所以磁盘格式化了，恢复数据也不是什么难事，只要原来的数据没有被从新覆盖。删除，添加，修改数据时，也要修改索引

所以，当一个表的数据量很小时，或者删除、插入频率远高于查找，不使用索引的成本要低些。

索引的分类

一般可以分为单列、组合、全文索引和空间索引。用的最多的是单列索引和组合索引。

主键索引
不为空，唯一

ALTER 'TABLE_NAME' ADD PRIMARY PK_TABLE_NAME('COL_ONE');

唯一索引
唯一，可为空

ALTER 'TABLE_NAME' ADD UNIQUE unique_name('COL_ONE');

普通索引

ALTER 'TABLE_NAME' ADD INDEX iINDEX_ONE('COL_ONE');

组合索引

ALTER TABEL_NAME ADD INDEX INDEX_NAME('COL_ONE', 'COL_TWO', 'COL_THREE');

组合索引，会遵循最左配对原则，一言以蔽之，会优先走第一个索引。相当于创建了三个索引。
INDEX_ONE('COL_ONE')
INDEX_TWO('COL_ONE','COL_TWO')
INDEX_THREE('COL_ONE', 'COL_TWO', 'COL_THREE')

底层实现

哈希索引

通过对键值进行哈希运算，将哈希出来的hashCode存放在散列表中，而对应的散列表存放对应数据行的地址或者下一级地址。

学号	姓名	分数
101	李华	90
102	小明	93
103	小芳	98
104	张三	99
105	赵四	100

同时，可以看出，当出现哈希冲突，我们是用链地址法，将冲突的行的地址放在下一行中。例如：
李华和赵四出现冲突，我们先得出李华hashCode,将其地址，存放在散列表中。但是赵四得出和李华一样的hashCode，通过对比起存放的地址，发现已存数据，这样我们把存放李华对应行的头部解放出来，存放指向下一行的地址。

B树索引

B树实际上是一种多叉平衡搜索树，那么为什么在大型的文件系统或者数据库，为什么不用红黑树或者哈希表：

红黑树，树的高度很高，访问文件系统时，需要多次IO操作，而在服务器相应的过程中，相比于CPU处理速度和内存读取速度，磁盘IO是非常缓慢的
会出现哈希冲突，从而也需要遍历链地址。

一般来说，索引本身也是很大的，比如2个G的文件，索引就要占1/3，是没办法一下子载入内存的。为了解决以上问题，在我们学的操作系统里面，有一个磁盘分页和局部性原理，这里就不展开了。

B 树的特点：
(1) 树的高度是平衡的，所有的叶子结点都在同一层。
(2)更新和检索只会影响到一些磁盘，因此性能稳定。
(3)把相关的记录存储在同一个磁盘，可以可以利用局部性原理进行预读。
(4)非叶子结点的key都是[key, data]的二元组，key为索引的键，data为当前的数据行。

一个m阶B树的定义

根或者叶子结点至少有两个孩子。
除了根以外，每个内部结点至少有m/2的上限到m个孩子。
所有的叶子结点都在同一层，不不含任何信息(可以看成外部节点或者查找失败的结点)。

B树的示意图：

为一个3阶B树，也就是说每一个结点【非根】最多有三个孩子，最少有2个孩子。

每个结点内部为

B 树的插入

找到可以插入的最下层内部结点，如果结点的孩子数小于m，直接插入，否则将当前结点一分为二，并将中间的关键字，提到父节点，父节点也按如上逻辑执行。

B+ 树

谈B+ 树，肯定要说B树的缺点：

无法处理范围查询，由于B树没有顺序索引，也没有链地址，所取出来的地址都是离散的。
无法定位到指定的行。我个人的理解是B树中的key存储的是[key, data]二元组，如果所有的索引都要存数据，定位到指定的行，难免数据量太大了。

B+树定义
对于一个m阶B+树：

所有节点的key值个数等于孩子个数，最下层的内存节点包含了所有的关键字，所有非最下层的内部结点的关键字个数是对应子树的最大关键字个数。
每一个结点有m/2的上限到m个孩子。
所有的叶子结点都在同一层，且不含任何信息(可以看错外部节点或查询失败。)

每个最下层的内部结点都带一个指针，指向相邻的结点。形成了带顺序索引的B树。

物理存储

虽然说不同的存储引擎都是用的B树，但是具体实现还是有区别的，InnoDB实现的是聚族索引，MyISAM实现的是非聚族索引。

主键索引和辅助索引

B+树的非叶子结点存储的是键值，当键值是主键时，为主键索引，其他的为辅助索引。

聚族索引

主键索引的最下层叶子结点存储键值对应的数据本身，非主键索引存储对应数据段的【该行数据】的主键值。

也就是说，通过主键索引，可以直接找到对应的数据行，而辅助索引是先找到对应数据行的主键，然后再用主键索引去找数据。

假设有一个数据表，如下：

对应的聚族索引的主键和辅助索引为：

非聚族索引

非聚族索引就没那么复杂了，主键和辅助索引的叶子结点都是存储着对应的物理地址(ROWID ？？)，除了主键索引不能为空，且唯一。

索引优化

SQL 调优这块其实学问很大，很多面试官都会问，简单列几条：

最左原则
覆盖索引。也就是说，尽量使用所有需要查询的字段来做索引。这样就无须再去扫描对应的行了。(扯淡)
索引排序用对应的索引查出来的数据就可以排序，因为索引也是有序的。
索引不要参与计算最简单的一个例子，就是你的索引就是对应hash的一个值，最好不要计算，那样就不走索引了。