mysql 分库分表中间件 mycat_阿里开源的分布式分库分表中间件之MyCat从入门到放弃...
原标题:阿里开源的分布式分库分表中间件之MyCat从入门到放弃
1.非分片字段查询
Mycat中的路由结果是通过分片字段和分片方法来确定的。例如下图中的一个Mycat分库方案:
根据 tt_waybill表的 id字段来进行分片
分片方法为 id值取 3的模,根据模值确定在DB1,DB2,DB3中的某个分片
如果查询条件中有 id字段的情况还好,查询将会落到某个具体的分片。例如:
mysql>select * from tt_waybill where id= 12330;
此时Mycat会计算路由结果
12330 % 3 = 0 –> DB1
并将该请求路由到DB1上去执行。
如果查询条件中没有 分片字段条件,例如:
mysql>select * from tt_waybill where waybill_no =88661;
此时Mycat无法计算路由,便发送到所有节点上执行:
DB1 –> select * from tt_waybill where waybill_no =88661;
DB2 –> select * from tt_waybill where waybill_no =88661;
DB3 –> select * from tt_waybill where waybill_no =88661;
如果该分片字段选择度高,也是业务常用的查询维度,一般只有一个或极少数个DB节点命中(返回结果集)。示例中只有3个DB节点,而实际应用中的DB节点数远超过这个,假如有50个,那么前端的一个查询,落到MySQL数据库上则变成50个查询,会极大消耗Mycat和MySQL数据库资源。
如果设计使用Mycat时有非分片字段查询,请考虑放弃!
2.分页排序
先看一下Mycat是如何处理分页操作的,假如有如下Mycat分库方案:
一张表有30份数据分布在3个分片DB上,具体数据分布如下
DB1:[0,1,2,3,4,10,11,12,13,14]
DB2:[5,6,7,8,9,16,17,18,19]
DB3:[20,21,22,23,24,25,26,27,28,29]
(这个示例的场景中没有查询条件,所以都是全分片查询,也就没有假定该表的分片字段和分片方法)
当应用执行如下分页查询时
mysql>select * from table limit 2;
Mycat将该SQL请求分发到各个DB节点去执行,并接收各个DB节点的返回结果
DB1: [0,1]
DB2: [5,6]
DB3: [20,21]
但Mycat向应用返回的结果集取决于哪个DB节点最先返回结果给Mycat。如果Mycat最先收到DB1节点的结果集,那么Mycat返回给应用端的结果集为 [0,1],如果Mycat最先收到DB2节点的结果集,那么返回给应用端的结果集为 [5,6]。也就是说,相同情况下,同一个SQL,在Mycat上执行时会有不同的返回结果。
在Mycat中执行分页操作时必须显示加上排序条件才能保证结果的正确性,下面看一下Mycat对排序分页的处理逻辑。
假如在前面的分页查询中加上了排序条件(假如表数据的列名为id)
mysql>select * from table order by idlimit 2;
Mycat的处理逻辑如下图:
在有排序呢条件的情况下,Mycat接收到各个DB节点的返回结果后,对其进行最小堆运算,计算出所有结果集中最小的两条记录 [0,1]返回给应用。
但是,当排序分页中有 偏移量(offset)时,处理逻辑又有不同。假如应用的查询SQL如下:
mysql>select * from table order by id limit 5,2;
如果按照上述排序分页逻辑来处理,那么处理结果如下图:
Mycat将各个DB节点返回的数据 [10,11], [16,17], [20,21]经过最小堆计算后返回给应用的结果集是 [10,11]。可是,对于应用而言,该表的所有数据明明是 0-29这30个数据的集合,limit 5,2操作返回的结果集应该是 [5,6],如果返回 [10,11]则是错误的处理逻辑。
所以Mycat在处理 有偏移量的排序分页时是另外一套逻辑——改写SQL。如下图:
Mycat在下发有 limit m,n的SQL语句时会对其进行改写,改写成 limit 0, m+n来保证查询结果的逻辑正确性。所以,Mycat发送到后端DB上的SQL语句是
mysql>select * from table order by id limit 0,7;
各个DB返回给Mycat的结果集是
DB1: [0,1,2,3,4,10,11]
DB2: [5,6,7,8,9,16,17]
DB3: [20,21,22,23,24,25,26]
经过最小堆计算后得到最小序列 [0,1,2,3,4,5,6],然后返回偏移量为5的两个结果为 [5,6]。
虽然Mycat返回了正确的结果,但是仔细推敲发现这类操作的处理逻辑是及其消耗(浪费)资源的。应用需要的结果集为2条,Mycat中需要处理的结果数为21条。也就是说,对于有 t个DB节点的全分片 limit m, n操作,Mycat需要处理的数据量为 (m+n)*t个。比如实际应用中有50个DB节点,要执行limit 1000,10操作,则Mycat处理的数据量为 50500条,返回结果集为10,当偏移量更大时,内存和CPU资源的消耗则是数十倍增加。
如果设计使用Mycat时有分页排序,请考虑放弃!
3.任意表JOIN
先看一下在单库中JOIN中的场景。假设在某单库中有 player和 team两张表,player表中的 team_id字段与 team表中的 id字段相关联。操作场景如下图:
JOIN操作的SQL如下
mysql>select p_name,t_name from player p, team t where p.no = 3 and p.team_id = t.id;
此时能查询出结果
p_name
t_name
Wade
Heat如果将这两个表的数据分库后,相关联的数据可能分布在不同的DB节点上,如下图:
这个SQL在各个单独的分片DB中都查不出结果,也就是说Mycat不能查询出正确的结果集。
设计使用Mycat时如果要进行表JOIN操作,要确保两个表的关联字段具有相同的数据分布,否则请考虑放弃!
4.分布式事务
Mycat并没有根据二阶段提交协议实现 XA事务,而是只保证 prepare阶段数据一致性的 弱XA事务,实现过程如下:
应用开启事务后Mycat标识该连接为非自动提交,比如前端执行
mysql>begin;
Mycat不会立即把命令发送到DB节点上,等后续下发SQL时,Mycat从连接池获取非自动提交的连接去执行。
Mycat会等待各个节点的返回结果,如果都执行成功,Mycat给该连接标识为 Prepare Ready状态,如果有一个节点执行失败,则标识为 Rollback状态。
执行完成后Mycat等待前端发送 commit 或 rollback 命令。发送 commit 命令时,Mycat检测当前连接是否为 Prepare Ready状态,若是,则将 commit 命令发送到各个DB节点。
但是,这一阶段是无法保证一致性的,如果一个DB节点在 commit 时故障,而其他DB节点 commit 成功,Mycat会一直等待故障DB节点返回结果。Mycat只有收到所有DB节点的成功执行结果才会向前端返回 执行成功 的包,此时Mycat只能一直 waiting 直至TIMEOUT,导致事务一致性被破坏。
设计使用Mycat时如果有分布式事务,得先看是否得保证事务得强一致性,否则请考虑放弃!返回搜狐,查看更多
责任编辑:
mysql 分库分表中间件 mycat_阿里开源的分布式分库分表中间件之MyCat从入门到放弃...相关推荐
- seata xid是什么_阿里开源的分布式事务框架 Seata
1. Seata 概述 Seata 是 Simple Extensible Autonomous Transaction Architecture 的简写,由 feascar 改名而来. Seata ...
- 关于分布式事务: 阿里开源的分布式事务框架 Seata 和 LCN的分析
之前使用过LCN分布式事务, 最近看到面试者简历中另一种方案 Seata, 通过它来在实战中解决分布式事务的问题.故 去简单了解了一下Seata是什么, 和LCN的区别在哪里, 如果是你 你怎么选择解 ...
- 阿里开源大规模分布式图学习框架:专为Graph嵌入,无缝对接TF/PyTorch
↑ 点击上方[计算机视觉联盟]关注我们 来源:阿里妈妈 编辑:金金,大明 来自新智元 阿里妈妈开源大规模分布式图表征学习框架Euler,面向工业级用户和高级研究者,结合TF/XDL/PyTorch等深 ...
- 阿里开源一站式分布式事务框架seata源码分析(AT模式下TM与RM分析)
序言: 对于阿里开源分布式事务框架seata的详细了解可以参考官网,这里不会详细介绍.本章只会介绍seata中AT模式的源码分析(对阿seata有一定了解或者成功完成过demo). seata中一个事 ...
- 阿里开源的分布式事务揭秘:Seata原理及流程剖析
背景 在分布式系统中,分布式事务是一个必须要解决的问题,目前使用较多的是最终一致性方案.今天带来的这篇,就给大家分析一下Seata的源码是如何一步一步实现的.读源码的时候我们需要俯瞰起全貌,不要去扣一 ...
- 开源的分布式数据库中间件系统Mycat和阿里巴巴Cobar的对比
mycat 不得不说的缘分 原创 2016年04月15日 15:48:17 27834 1,愕然回首,它在灯火阑珊处 关于mysql集群中间件,以前写在应用程序里面,由开发人员实现,在配置文件里面写多 ...
- 阿里开源:思考,演进和发展
2016云栖大会·北京峰会于8月9号在国家会议中心拉开帷幕,在云栖社区开发者技术专场中,首位登场的阿里云技术专家唐容为大家带来来题为<阿里开源:思考,演进和发展>的精彩演讲. 关于分享者: ...
- mysql分库分表中间件6_当当开源sharding-jdbc,轻量级数据库分库分表中间件
近期,当当开源了数据库分库分表中间件sharding-jdbc. Sharding-JDBC是当当应用框架ddframe中,从关系型数据库模块dd-rdb中分离出来的数据库水平分片框架,实现透明化数据 ...
- 当当网mysql分库分表策略_当当开源sharding-jdbc,轻量级数据库分库分表中间件
近期,当当开源了数据库分库分表中间件sharding-jdbc. Sharding-JDBC是当当应用框架ddframe中,从关系型数据库模块dd-rdb中分离出来的数据库水平分片框架,实现透明化数据 ...
最新文章
- 自定义FireFox浏览器滚动条
- 合理规划您的硬盘分区
- Android4.3 屏蔽HOME按键返回桌面详解(源码环境下)
- 简单区分Vmware的三种网络连接模式(bridged、NAT、host-only)
- jtoken判断是否包含键_Redis列表键(linkedlist/ziplist)的介绍
- Google真相:决策贡献及其艰苦抉择
- html post 发送两次,jQuery Ajax发送两次第二次提交,发送三次三次
- webrtc 静音检测(二)
- 5-去掉a标签下划线,禁止a标签的跳转
- css 面试题画三角
- Java 对象转化为Map
- u-boot编译构成之 MLO(2)
- 高端网站建设策划方案有哪些
- 天津发票版本文件服务器端口,天津增值税发票综合服务平台入口
- [×××.launch]is neither a launch file in package [××] nor is [××] a launch file name解决办法
- Python爬虫——下载音乐
- 单片机-结构体函数指针高级使用方法
- Java 近期新闻:Grail 5.0、Spring、Hibernate、WildFly 及 Kotlin Multik 开发库更新
- 每日新闻:Gartner报告:这五大新兴科技趋势将模糊人机界限;阿里云肖力:阿里云安全三大“核驱动: 可信、智能、合规...
- 深漂中年程序员回忆录-南下找工作(二)