1. 数据库瓶颈

不管是IO瓶颈,还是CPU瓶颈,最终都会导致数据库的活跃连接数增加,进而逼近甚至达到数据库可承载活跃连接数的阈值。在业务Service来看就是,可用数据库连接少甚至无连接可用。接下来就可以想象了吧(并发量、吞吐量、崩溃)。

1.1. IO瓶颈

第一种:磁盘读IO瓶颈,热点数据太多,数据库缓存放不下,每次查询时会产生大量的IO,降低查询速度 -> 分库和垂直分表。

第二种:网络IO瓶颈,请求的数据太多,网络带宽不够 -> 分库。

1.2. CPU瓶颈

第一种:SQL问题,如SQL中包含join,group by,order by,非索引字段条件查询等,增加CPU运算的操作 -> SQL优化,建立合适的索引,在业务Service层进行业务计算。

第二种:单表数据量太大,查询时扫描的行太多,SQL效率低,CPU率先出现瓶颈 -> 水平分表。

2. 分库分表

2.1 水平分库

概念:以字段为依据,按照一定策略(hash、range等),将一个库中的数据拆分到多个库中。

结果:每个库的结构都一样;每个库的数据都不一样,没有交集;所有库的并集是全量数据;

场景:系统绝对并发量上来了,分表难以根本上解决问题,并且还没有明显的业务归属来垂直分库。

分析:库多了,io和cpu的压力自然可以成倍缓解。

2.2 水平分表

概念:以字段为依据,按照一定策略(hash、range等),将一个表中的数据拆分到多个表中。

结果:每个表的结构都一样;每个表的数据都不一样,没有交集;所有表的并集是全量数据;

场景:系统绝对并发量并没有上来,只是单表的数据量太多,影响了SQL效率,加重了CPU负担,以至于成为瓶颈。

分析:表的数据量少了,单次SQL执行效率高,自然减轻了CPU的负担。

2.3 垂直分库

概念:以表为依据,按照业务归属不同,将不同的表拆分到不同的库中。

结果:每个库的结构都不一样;每个库的数据也不一样,没有交集;所有库的并集是全量数据;

场景:系统绝对并发量上来了,并且可以抽象出单独的业务模块。

分析:到这一步,基本上就可以服务化了。例如,随着业务的发展一些公用的配置表、字典表等越来越多,这时可以将这些表拆到单独的库中,甚至可以服务化。再有,随着业务的发展孵化出了一套业务模式,这时可以将相关的表拆到单独的库中,甚至可以服务化。

2.4 垂直分表

概念:以字段为依据,按照字段的活跃性,将表中字段拆到不同的表(主表和扩展表)中。

结果:每个表的结构都不一样;每个表的数据也不一样,一般来说,每个表的字段至少有一列交集,一般是主键,用于关联数据;所有表的并集是全量数据;

场景:系统绝对并发量并没有上来,表的记录并不多,但是字段多,并且热点数据和非热点数据在一起,单行数- 据所需的存储空间较大。以至于数据库缓存的数据行减少,查询时会去读磁盘数据产生大量的随机读IO,产生IO瓶颈。

分析:可以用列表页和详情页来帮助理解。垂直分表的拆分原则是将热点数据(可能会冗余经常一起查询的数据)放在一起作为主表,非热点数据放在一起作为扩展表。这样更多的热点数据就能被缓存下来,进而减少了随机读IO。拆了之后,要想获得全部数据就需要关联两个表来取数据。但记住,千万别用join,因为join不仅会增加CPU负担并且会讲两个表耦合在一起(必须在一个数据库实例上)。关联数据,应该在业务Service层做文章,分别获取主表和扩展表数据然后用关联字段关联得到全部数据。

3. 分库分表工具

sharding-sphere:jar,前身是sharding-jdbc;

TDDL:jar,Taobao Distribute Data Layer;

Mycat:中间件。

注:工具的利弊,请自行调研,官网和社区优先。

4. 分库分表步骤

根据容量(当前容量和增长量)评估分库或分表个数 -> 选key(均匀)-> 分表规则(hash或range等)-> 执行(一般双写)-> 扩容问题(尽量减少数据的移动)。

5. 分库分表问题

5.1. 非partition key的查询问题

基于水平分库分表,拆分策略为常用的hash法。

5.1.1 端上除了partition key只有一个非partition key作为条件查询

映射法

基因法

注:写入时,基因法生成user_id,如图。关于xbit基因,例如要分8张表,23=8,故x取3,即3bit基因。根据user_id查询时可直接取模路由到对应的分库或分表。根据user_name查询时,先通过user_name_code生成函数生成user_name_code再对其取模路由到对应的分库或分表。id生成常用snowflake算法。

5.1.2 端上除了partition key不止一个非partition key作为条件查询

映射法

冗余法

注:按照order_id或buyer_id查询时路由到db_o_buyer库中,按照seller_id查询时路由到db_o_seller库中。感觉有点本末倒置!有其他好的办法吗?改变技术栈呢?

5.1.3 后台除了partition key还有各种非partition key组合条件查询

NoSQL法

冗余法

5.2、非partition key跨库跨表分页查询问题

基于水平分库分表,拆分策略为常用的hash法。

注:用NoSQL法解决(ES等)。

5.3 扩容问题

基于水平分库分表,拆分策略为常用的hash法。

5.3.1 水平扩容库(升级从库法)

注:扩容是成倍的。

5.3.1 水平扩容表(双写迁移法)

第一步:(同步双写)修改应用配置和代码,加上双写,部署;

第二步:(同步双写)将老库中的老数据复制到新库中;

第三步:(同步双写)以老库为准校对新库中的老数据;

第四步:(同步双写)修改应用配置和代码,去掉双写,部署;

注:双写是通用方案。

6. 分库分表总结

分库分表,首先得知道瓶颈在哪里,然后才能合理地拆分(分库还是分表?水平还是垂直?分几个?)。且不可为了分库分表而拆分。

选key很重要,既要考虑到拆分均匀,也要考虑到非partition key的查询。

只要能满足需求,拆分规则越简单越好。

7. 转载链接

php分库分表技术,谈谈关于分库分表的方案相关推荐

  1. [实用资料系列]注册表技术大全「五注册表优化全攻略」

    防止匿名用户登录 虽然"Windows 98"可以为每个用户定制各自的使用界面并指定口令,但任何人都能通过点击登录窗口中的"取消"或按"ESC&quo ...

  2. 数据库基础知识(二)数据库分表技术

    数据库分表技术: 1. 分表技术 a). 水平分割(分表) 将一个大表按照一定的规则分解成多张具有独立存储空间的实体表,我们可以称为子表,每个表都对应三个文件,MYD数据文件,MYI索引文件,frm表 ...

  3. Kettle构建Hadoop ETL实践(八-2):维度表技术

    目录 4. 递归 五.退化维度 1. 退化订单维度 2. 修改定期装载脚本 3. 测试修改后的定期装载 六.杂项维度 1. 新增销售订单属性杂项维度 2. 修改定期装载Kettle作业 3. 测试修改 ...

  4. 分库分表技术演进最佳实践

    作者:阿飞的博客 来源:阿飞的博客 每个优秀的程序员和架构师都应该掌握分库分表,这是我的观点. 移动互联网时代,海量的用户每天产生海量的数量,比如: 用户表 订单表 交易流水表 以支付宝用户为例,8亿 ...

  5. 银行背景下分库分表技术选型

    业务持续增长带来的单表数据量过大,必然影响到数据库的读写性能,那到底要不要分库分表呢? 阿里巴巴P3C规范给出一个推荐: [推荐]单表行数超过500万行或者单表容量超过2GB,才推荐进行分库分表. 说 ...

  6. Mysql系列七:分库分表技术难题之分布式全局唯一id解决方案

    Mysql系列七:分库分表技术难题之分布式全局唯一id解决方案 参考文章: (1)Mysql系列七:分库分表技术难题之分布式全局唯一id解决方案 (2)https://www.cnblogs.com/ ...

  7. 分库分表技术演进最佳实践-修订篇

    https://www.itcodemonkey.com/article/10048.html 每个优秀的程序员和架构师都应该掌握分库分表,这是我的观点. 移动互联网时代,海量的用户每天产生海量的数量 ...

  8. 海量数据的分库分表技术演进,最佳实践

    每个优秀的程序员和架构师都应该掌握分库分表,移动互联网时代,海量的用户每天产生海量的数量 用户表 订单表 交易流水表 以支付宝用户为例,8亿:微信用户更是10亿.订单表更夸张,比如美团外卖,每天都是几 ...

  9. MySQL纯透明的分库分表技术还没有

    MySQL纯透明的分库分表技术还没有 种树人 ./oneproxy --proxy-address=:3307 --admin-username=admin --admin-password=D033 ...

最新文章

  1. Android.bp 语法浅析-Android10.0编译系统(八)
  2. EMR、EHR和PHR的定义与对比
  3. 低通滤波器转带通滤波器公式由来_?OPA627AP 高通滤波器
  4. kafka_consumer_消费原理介绍
  5. java的四种引用类型_你知道Java的四种引用类型吗?
  6. 最容易被忽视的学习材料--技术标准 (z)
  7. Linux移植之内核启动过程引导阶段分析
  8. mysql主从配置访问_Mysql主从配置,实现读写分离
  9. Logistic回归和SVM的异同
  10. 为什么用openstack_如何为OpenStack贡献力量
  11. 19_07_09校内训练[分组]
  12. arguments.callee 指向正在执行的函数的指针
  13. 正交试验设计例题及答案_正交试验设计与数理统计作业.doc
  14. react native 8081 端口号被占
  15. 《私募股权基金投资基础知识》---第二章
  16. 推荐一个免费的JSP空间
  17. 项目Tips---使用阿里的OOS实现简单的文件上传
  18. 一、基础知识(3)-共轭函数、次梯度
  19. HNOI2018退役记
  20. 虎扑网站服务器垃圾,虎扑拿下域名hupu.com 游击队摇身一变正规军

热门文章

  1. siteServer CMS 建站流程
  2. LaTeX快速入门-蔡炎龙
  3. java计算机毕业设计昆明市人民医院血库管理系统源码+数据库+lw文档+系统
  4. Youtube API数据类型
  5. ssas连接mysql_BI之SSAS完整实战教程1 -- 开篇, BI简介 SSAS简介
  6. VC 编程技巧 (四)
  7. 实例!智能制造厂内物流解决方案
  8. 解决DeepLinux 15.8在I3 6100的核心显卡hd530播放视频隔1分钟卡顿几秒的问题
  9. CAD如何转换成图片?一键完成文件转换
  10. 5.1/2每日一题——胖胖的牛牛