一、MyCat线程架构与实现

1.MyCat线程池实现

在MyCat中大量用到了线程池，通过线程池来避免频繁的创建和销毁线程而造成的系统性能的浪费。在MyCat中使用的线程池是JDK中提供的线程池 ThreadPoolExecutor 的子类 NameableExecutor ，构造方法如下：

父类构造为：

构造参数含义:

corePoolSize : 核心池大小

maximumPoolSize : 最大线程数

keepAliveTime: 线程没有任务执行时, 最多能够存活多久

timeUnit: 时间单位

workQueue: 阻塞任务队列

threadFactory: 线程工厂, 用来创建线程

2.MyCat线程架构

在MyCat中主要有两大线程池: timerExecutor 和 businessExecutor。

timerExecutor 线程池主要完成系统时间定时更新、处理器定时检查、数据节点定时连接空闲超时检查、数据节点定时心跳检测等任务。
businessExecutor是MyCat最重要的线程资源池, 该资源池的线程使用的范围非常广, 涵盖以下方面:

A.后端用原生协议连接数据

B.JDBC执行SQL语句

C.SQL拦截

D.数据合并服务

E.批量SQL作业

F.查询结果的异步分发

G.基于guava实现异步回调

参考资料：《开源数据库中间件MyCat实战笔记》
快速入手通道：发送简信“MyCat资料”免费获取

二、MyCat内存管理及缓存框架与实现

这里所提到的内存管理指的是MyCat缓冲区管理, 众所周知设置缓冲区的唯一目的是提高系统的性能,缓冲区通常是部分常用的数据存放在缓冲池中以便系统直接访问, 避免使用磁盘IO访问磁盘数据, 从而提高性能。

1.内存管理

A.缓冲池组成

缓冲池的最小单位为chunk, 默认的chunk大小为4096字 (DEFAULT_BUFFER_CHUNK_SIZE),BufferPool的总大小为4096 x processors x 1000(其中processors为处理器数量)。对I/O进程而言, 他们共享一个缓冲池。缓冲池有两种类型：本地缓存线程（以$_开头的线程）缓冲区和其他缓冲区，分配buffer时, 优先获取ThreadLocalPool中的buffer, 没有命中时会获取BufferPool中的buffer。

B.分配MyCat缓冲池

分配缓冲池时, 可以指定大小, 也可以用默认值。

A.allocate(): 先检测是否为本地线程，当执行线程为本地缓存线程时， localBufferPool 取出一个可用的buffer。如果不是，则从ConcurrentLinkedQueue队列中取出一个buffer进行分配, 如果队列没有可用的buffer, 则创建一个直接缓冲区。

B.allocate(size): 如果用户指定的size不大于chunkSize, 则调用allocate()进行分配;反之则调用createTempBuffer(size)创建临时非直接缓冲区。

C.MyCat缓冲池的回收

回收时先判断buffer是否有效, 有如下情况时缓冲池不回收。

A.不是直接缓冲区

B.buffer是空的

C.buffer的容量大于chunkSize

2.MyCat缓存架构

A.缓存框架选择

MyCat支持ehcache、mapdb、leveldb缓存, 可通过配置文件cacheserver.properties来进行配置;

B.缓存内容

MyCat有路由缓存、表主键到datanode缓存、ER关系缓存。

A.路由缓存: 即SQLRouteCache, 根据SQL语句查找路由信息的缓存, 该缓存只是针对select语句, 如果执行了之前已经执行过的某个SQL语句(缓存命中), 那么路由信息就不需要重复计算了, 直接从缓存中获取。

B.表主键到datanode缓存: 当分片字段与主键字段不一致时, 直接通过主键值查询时无法定位具体分片的(只能全分片下发), 所以设置该缓存之后, 就可以利用主键值查找到分片名, 缓存的key是ID值, value是节点名。

C.ER关系缓存: 在ER分片时使用, 而且在insert查询中才会使用缓存, 当字表插入数据时, 根据父子关联字段确定子表分片, 下次可以直接从缓存中获取所在的分片。

查看缓存指令： show @@cache；

三、MyCat连接池架构与实现

这里我们所讨论的连接池是MyCat的后端连接池，也就是MyCat后端与各个数据库节点之间的连接架构。

A.连接池创建

MyCat按照每个dataHost创建一个连接池, 根据schema.xml文件的配置取得最小的连接数minCon,并初始化minCon个连接。在初始化连接时，还需要判定用户选择的是JDBC还是原生的MySQL协议，以便于创建对应的连接。

B.连接池分配

分配连接就是从连接池队列中取出一个连接，在取出一个连接时， MyCat需要根据 负载均衡（balance属性） 的类型选择不同的数据源，因为连接和数据源绑在一起，所以需要知道MyCat读写的是那些数据源，才能分配响应的连接。

C.架构

四、MyCat主从切换架构与实现

1.MyCat主从切换概述

MyCat实现MySQL读写分离的目的在于降低单节点数据库的访问压力, 原理就是让主数据库执行增删改操作, 从数据库执行查询操作, 利用MySQL数据库的复制机制将Master的数据同步到slave上。

当master宕机后，slave承载的业务如何切换到master继续提供服务，以及slave宕机后如何将master切换到slave上。手动切换数据源很简单，但不是运维工作的首选，本文重点就是讲解如何实现自动切换。

MyCat的读写分离依赖于MySQL的主从同步, 也就是说MyCat没有实现数据的主从同步功能, 但是实现了自动切换功能。

A.自动切换

自动切换是MyCat主从复制的默认配置 , 当主机或从机宕机后, MyCat自动切换到可用的服务器上。假设写服务器为M，读服务器为S，则：

正常时，写M读S；

当M宕机后，读写S ；恢复M后，写S，读M ；

当S宕机后，读写M ；恢复S后，写M，读S ；

B.基于MySQL主从同步状态的切换

这种切换方式与自动切换不同， MyCat检测到主从数据同步延迟时，会自动切换到拥有最新数据的MySQL服务器上，防止读到很久以前的数据。

原理就是通过检查MySQL的 主从同步状态（show slave status） 中的Seconds_Behind_Master、Slave_IO_Running、Slave_SQL_Running三个字段,来确定当前主从同步的状态以及主从之间的数据延迟。 Seconds_Behind_Master为0表示没有延迟，数值越大，则说明延迟越高。

2.MyCat主从切换实现

基于延迟的切换，则判断结果集中的Slave_IO_Running、Slave_SQL_Running两个个字段是否都为yes，以及Seconds_Behind_Master 是否小于配置文件中配置的 slaveThreshold的值,如果有其中任何一个条件不满足, 则切换。

主要流程如下:

五、MyCat核心技术

1.MyCat分布式事务实现

MyCat在1.6版本以后已经支持XA分布式事务类型了。具体的使用流程如下：

在应用层需要设置事务不能自动提交

set autocommit=0;

在SQL中设置XA为开启状态

set xa = on;

执行SQL

insert into user(id,name,sex) values(1,'Tom','1'),(2,'Rose','2'),(3,'Leo','1'),(4,'Lee','1');

对事务进行提交或回滚

commit/rollback

完整流程如下:

2.MyCat SQL路由实现

MyCat的路由是和SQL解析组件息息相关的, SQL路由模块是MyCat数据库中间件最重要的模块之一,使用MyCat主要是为了分库分表, 而分库分表的核心就是路由。

A.路由的作用

如图所示， MyCat接收到应用系统发来的查询语句，要将其发送到后端连接的MySQL数据库去执行，但是后端有三个数据库服务器，具体要查询那一台数据库服务器呢，这就是路由需要实现的功能。

SQL的路由既要保证数据的完整，也不能造成资源的浪费，还要保证路由的效率。

B.SQL解析器

Mycat1.3版本之前模式使用的是Fdbparser的foundationdb的开源SQL解析器，在2015年被apple收购后，从开源变为闭源了。

目前版本的MyCat采用的是Druid的SQL解析器，性能比采用Fdbparser整体性能提高20%以上。

3.MyCat跨库Join

A.全局表

每个企业级的系统中, 都会存在一些系统的基础信息表, 类似于字典表、省份、城市、区域、语言表等，这些表与业务表之间存在关系，但不是业务主从关系，而是一种属性关系。

当我们对业务表进行分片处理时，可以将这些基础信息表设置为全局表，也就是在每个节点中都存在该表。

全局表的特性如下：

A.全局表的insert、update、delete操作会实时地在所有节点同步执行, 保持各个节点数据的一致性

B.全局表的查询操作会从任意节点执行,因为所有节点的数据都一致

C.全局表可以和任意表进行join操作

B.ER表

关系型数据库是基于 实体关系模型(Entity Relationship Model) 的, MyCat中的ER表便来源于此。 MyCat提出了基于ER关系的数据分片策略 , 子表的记录与其所关联的父表的记录存放在同一个数据分片中, 通过 表分组(Table Group) 保证数据关联查询不会跨库操作。

C.catlet

catlet是MyCat为了解决跨分片Join提出的一种创新思路, 也叫做 人工智能(HBT) 。MyCat参考了数据库中存储过程的实现方式，提出类似的跨库解决方案，用户可以根据系统提供的API接口实现跨分片Join。

采用这种方案开发时,必须要实现Catlet接口的两个方法 :

route 方法: 路由的方法, 传递系统配置和schema配置等 ;

processSQL方法: EngineCtx执行SQL并给客户端返回结果集 ;

当我们自定义Catlet完成之后, 需要将Catlet的实现类进行编译,并将其字节码文件XXXCatlet.class存放在mycat_home/catlet目录下, 系统会加载相关Class, 而且每隔1分钟扫描一次文件是否更新, 若更新则自动重新加载,因此无需重启服务。

ShareJoin

ShareJoin 是Catlet的实现，是一个简单的跨分片Join，目前支持两个表的Join，原理就是解析SQL语句，拆分成单表的语句执行，单后把各个节点的数据进行汇集。

要想使用Catlet完成join，还需要借助于MyCat中的注解，在执行SQL语句时，使用catlet注解:

/*!mycat:catlet=demo.catlets.ShareJoin */ select a.id as aid , a.id , b.id as bid , b.name as name from customer a,
company b where a.company_id=b.id and a.id = 1;

4.MyCat数据汇聚与排序

通过MyCat实现数据汇聚和排序,不仅可以减少各分片与客户端之间的数据传输IO, 也可以帮助开发者总复杂的数据处理中解放出来,从而专注于开发业务代码。

在MySQL中存在两种排序方式：一种利用有序索引获取有序数据，另一种通过相应的排序算法将获取到的数据在内存中进行排序。而MyCat中数据排序采用堆排序法对多个分片返回有序数据，并在合并、排序后再返回给客户端。

参考资料：《开源数据库中间件MyCat实战笔记》
最后，附一张自己面试前准备的脑图：

面试前一定少不了刷题，为了方便大家复习，我分享一波个人整理的面试大全宝典

Java核心知识整理

Spring全家桶（实战系列）

Step3：刷题

既然是要面试，那么就少不了刷题，实际上春节回家后，哪儿也去不了，我自己是刷了不少面试题的，所以在面试过程中才能够做到心中有数，基本上会清楚面试过程中会问到哪些知识点，高频题又有哪些，所以刷题是面试前期准备过程中非常重要的一点。

以下是我私藏的面试题库：

很多人感叹“学习无用”，实际上之所以产生无用论，是因为自己想要的与自己所学的匹配不上，这也就意味着自己学得远远不够。无论是学习还是工作，都应该有主动性，所以如果拥有大厂梦，那么就要自己努力去实现它。

资料领取方式：Java全套学习手册

一点。