原标题:阿里开源的分布式分库分表中间件之MyCat从入门到放弃

1.非分片字段查询

Mycat中的路由结果是通过分片字段和分片方法来确定的。例如下图中的一个Mycat分库方案:

根据 tt_waybill表的 id字段来进行分片

分片方法为 id值取 3的模,根据模值确定在DB1,DB2,DB3中的某个分片

如果查询条件中有 id字段的情况还好,查询将会落到某个具体的分片。例如:

mysql>select * from tt_waybill where id= 12330;

此时Mycat会计算路由结果

12330 % 3 = 0 –> DB1

并将该请求路由到DB1上去执行。

如果查询条件中没有 分片字段条件,例如:

mysql>select * from tt_waybill where waybill_no =88661;

此时Mycat无法计算路由,便发送到所有节点上执行:

DB1 –> select * from tt_waybill where waybill_no =88661;

DB2 –> select * from tt_waybill where waybill_no =88661;

DB3 –> select * from tt_waybill where waybill_no =88661;

如果该分片字段选择度高,也是业务常用的查询维度,一般只有一个或极少数个DB节点命中(返回结果集)。示例中只有3个DB节点,而实际应用中的DB节点数远超过这个,假如有50个,那么前端的一个查询,落到MySQL数据库上则变成50个查询,会极大消耗Mycat和MySQL数据库资源。

如果设计使用Mycat时有非分片字段查询,请考虑放弃!

2.分页排序

先看一下Mycat是如何处理分页操作的,假如有如下Mycat分库方案:

一张表有30份数据分布在3个分片DB上,具体数据分布如下

DB1:[0,1,2,3,4,10,11,12,13,14]

DB2:[5,6,7,8,9,16,17,18,19]

DB3:[20,21,22,23,24,25,26,27,28,29]

(这个示例的场景中没有查询条件,所以都是全分片查询,也就没有假定该表的分片字段和分片方法)

当应用执行如下分页查询时

mysql>select * from table limit 2;

Mycat将该SQL请求分发到各个DB节点去执行,并接收各个DB节点的返回结果

DB1: [0,1]

DB2: [5,6]

DB3: [20,21]

但Mycat向应用返回的结果集取决于哪个DB节点最先返回结果给Mycat。如果Mycat最先收到DB1节点的结果集,那么Mycat返回给应用端的结果集为 [0,1],如果Mycat最先收到DB2节点的结果集,那么返回给应用端的结果集为 [5,6]。也就是说,相同情况下,同一个SQL,在Mycat上执行时会有不同的返回结果。

在Mycat中执行分页操作时必须显示加上排序条件才能保证结果的正确性,下面看一下Mycat对排序分页的处理逻辑。

假如在前面的分页查询中加上了排序条件(假如表数据的列名为id)

mysql>select * from table order by idlimit 2;

Mycat的处理逻辑如下图:

在有排序呢条件的情况下,Mycat接收到各个DB节点的返回结果后,对其进行最小堆运算,计算出所有结果集中最小的两条记录 [0,1]返回给应用。

但是,当排序分页中有 偏移量(offset)时,处理逻辑又有不同。假如应用的查询SQL如下:

mysql>select * from table order by id limit 5,2;

如果按照上述排序分页逻辑来处理,那么处理结果如下图:

Mycat将各个DB节点返回的数据 [10,11], [16,17], [20,21]经过最小堆计算后返回给应用的结果集是 [10,11]。可是,对于应用而言,该表的所有数据明明是 0-29这30个数据的集合,limit 5,2操作返回的结果集应该是 [5,6],如果返回 [10,11]则是错误的处理逻辑。

所以Mycat在处理 有偏移量的排序分页时是另外一套逻辑——改写SQL。如下图:

Mycat在下发有 limit m,n的SQL语句时会对其进行改写,改写成 limit 0, m+n来保证查询结果的逻辑正确性。所以,Mycat发送到后端DB上的SQL语句是

mysql>select * from table order by id limit 0,7;

各个DB返回给Mycat的结果集是

DB1: [0,1,2,3,4,10,11]

DB2: [5,6,7,8,9,16,17]

DB3: [20,21,22,23,24,25,26]

经过最小堆计算后得到最小序列 [0,1,2,3,4,5,6],然后返回偏移量为5的两个结果为 [5,6]。

虽然Mycat返回了正确的结果,但是仔细推敲发现这类操作的处理逻辑是及其消耗(浪费)资源的。应用需要的结果集为2条,Mycat中需要处理的结果数为21条。也就是说,对于有 t个DB节点的全分片 limit m, n操作,Mycat需要处理的数据量为 (m+n)*t个。比如实际应用中有50个DB节点,要执行limit 1000,10操作,则Mycat处理的数据量为 50500条,返回结果集为10,当偏移量更大时,内存和CPU资源的消耗则是数十倍增加。

如果设计使用Mycat时有分页排序,请考虑放弃!

3.任意表JOIN

先看一下在单库中JOIN中的场景。假设在某单库中有 player和 team两张表,player表中的 team_id字段与 team表中的 id字段相关联。操作场景如下图:

JOIN操作的SQL如下

mysql>select p_name,t_name from player p, team t where p.no = 3 and p.team_id = t.id;

此时能查询出结果

p_name

t_name

Wade

Heat如果将这两个表的数据分库后,相关联的数据可能分布在不同的DB节点上,如下图:

这个SQL在各个单独的分片DB中都查不出结果,也就是说Mycat不能查询出正确的结果集。

设计使用Mycat时如果要进行表JOIN操作,要确保两个表的关联字段具有相同的数据分布,否则请考虑放弃!

4.分布式事务

Mycat并没有根据二阶段提交协议实现 XA事务,而是只保证 prepare阶段数据一致性的 弱XA事务,实现过程如下:

应用开启事务后Mycat标识该连接为非自动提交,比如前端执行

mysql>begin;

Mycat不会立即把命令发送到DB节点上,等后续下发SQL时,Mycat从连接池获取非自动提交的连接去执行。

Mycat会等待各个节点的返回结果,如果都执行成功,Mycat给该连接标识为 Prepare Ready状态,如果有一个节点执行失败,则标识为 Rollback状态。

执行完成后Mycat等待前端发送 commit 或 rollback 命令。发送 commit 命令时,Mycat检测当前连接是否为 Prepare Ready状态,若是,则将 commit 命令发送到各个DB节点。

但是,这一阶段是无法保证一致性的,如果一个DB节点在 commit 时故障,而其他DB节点 commit 成功,Mycat会一直等待故障DB节点返回结果。Mycat只有收到所有DB节点的成功执行结果才会向前端返回 执行成功 的包,此时Mycat只能一直 waiting 直至TIMEOUT,导致事务一致性被破坏。

设计使用Mycat时如果有分布式事务,得先看是否得保证事务得强一致性,否则请考虑放弃!返回搜狐,查看更多

责任编辑:

mysql 分库分表中间件 mycat_阿里开源的分布式分库分表中间件之MyCat从入门到放弃...相关推荐

  1. seata xid是什么_阿里开源的分布式事务框架 Seata

    1. Seata 概述 Seata 是 Simple Extensible Autonomous Transaction Architecture 的简写,由 feascar 改名而来. Seata ...

  2. 关于分布式事务: 阿里开源的分布式事务框架 Seata 和 LCN的分析

    之前使用过LCN分布式事务, 最近看到面试者简历中另一种方案 Seata, 通过它来在实战中解决分布式事务的问题.故 去简单了解了一下Seata是什么, 和LCN的区别在哪里, 如果是你 你怎么选择解 ...

  3. 阿里开源大规模分布式图学习框架:专为Graph嵌入,无缝对接TF/PyTorch

    ↑ 点击上方[计算机视觉联盟]关注我们 来源:阿里妈妈 编辑:金金,大明 来自新智元 阿里妈妈开源大规模分布式图表征学习框架Euler,面向工业级用户和高级研究者,结合TF/XDL/PyTorch等深 ...

  4. 阿里开源一站式分布式事务框架seata源码分析(AT模式下TM与RM分析)

    序言: 对于阿里开源分布式事务框架seata的详细了解可以参考官网,这里不会详细介绍.本章只会介绍seata中AT模式的源码分析(对阿seata有一定了解或者成功完成过demo). seata中一个事 ...

  5. 阿里开源的分布式事务揭秘:Seata原理及流程剖析

    背景 在分布式系统中,分布式事务是一个必须要解决的问题,目前使用较多的是最终一致性方案.今天带来的这篇,就给大家分析一下Seata的源码是如何一步一步实现的.读源码的时候我们需要俯瞰起全貌,不要去扣一 ...

  6. 开源的分布式数据库中间件系统Mycat和阿里巴巴Cobar的对比

    mycat 不得不说的缘分 原创 2016年04月15日 15:48:17 27834 1,愕然回首,它在灯火阑珊处 关于mysql集群中间件,以前写在应用程序里面,由开发人员实现,在配置文件里面写多 ...

  7. 阿里开源:思考,演进和发展

    2016云栖大会·北京峰会于8月9号在国家会议中心拉开帷幕,在云栖社区开发者技术专场中,首位登场的阿里云技术专家唐容为大家带来来题为<阿里开源:思考,演进和发展>的精彩演讲. 关于分享者: ...

  8. mysql分库分表中间件6_当当开源sharding-jdbc,轻量级数据库分库分表中间件

    近期,当当开源了数据库分库分表中间件sharding-jdbc. Sharding-JDBC是当当应用框架ddframe中,从关系型数据库模块dd-rdb中分离出来的数据库水平分片框架,实现透明化数据 ...

  9. 当当网mysql分库分表策略_当当开源sharding-jdbc,轻量级数据库分库分表中间件

    近期,当当开源了数据库分库分表中间件sharding-jdbc. Sharding-JDBC是当当应用框架ddframe中,从关系型数据库模块dd-rdb中分离出来的数据库水平分片框架,实现透明化数据 ...

最新文章

  1. 自定义FireFox浏览器滚动条
  2. 合理规划您的硬盘分区
  3. Android4.3 屏蔽HOME按键返回桌面详解(源码环境下)
  4. 简单区分Vmware的三种网络连接模式(bridged、NAT、host-only)
  5. jtoken判断是否包含键_Redis列表键(linkedlist/ziplist)的介绍
  6. Google真相:决策贡献及其艰苦抉择
  7. html post 发送两次,jQuery Ajax发送两次第二次提交,发送三次三次
  8. webrtc 静音检测(二)
  9. 5-去掉a标签下划线,禁止a标签的跳转
  10. css 面试题画三角
  11. Java 对象转化为Map
  12. u-boot编译构成之 MLO(2)
  13. 高端网站建设策划方案有哪些
  14. 天津发票版本文件服务器端口,天津增值税发票综合服务平台入口
  15. [×××.launch]is neither a launch file in package [××] nor is [××] a launch file name解决办法
  16. Python爬虫——下载音乐
  17. 单片机-结构体函数指针高级使用方法
  18. Java 近期新闻:Grail 5.0、Spring、Hibernate、WildFly 及 Kotlin Multik 开发库更新
  19. 每日新闻:Gartner报告:这五大新兴科技趋势将模糊人机界限;阿里云肖力:阿里云安全三大“核驱动: 可信、智能、合规...
  20. 深漂中年程序员回忆录-南下找工作(二)

热门文章

  1. kubernetes资源--RC和RS
  2. vue2.0 自定义 饼状图 (Echarts)组件
  3. python 学习资料
  4. Django数据获取操作
  5. nagios系列(一)centos6.5环境部署nagios服务端
  6. Centos7安装RocketMQ及配置测试
  7. maven + grunt + tomcat + cmd + sublime
  8. Windows 系统部署之创建应答文件
  9. HDU 4548 美素数
  10. 一个二维码不同手机扫描下载时跳转问题