1 前言

各位小伙伴,在目前企业级开发中采用Mysql做为数据库是一个主流选择,而当数据量比较大的情况下,为了支撑项目的正常快速的运行,我们不得不选择对数据库分库分表操作,本章节就对数据库的分表做一些方案的讲解,包括如下:

  • 为什么要分库分表

  • 分库分表的具体方式

  • 分库分表带来的问题及解决方案有哪些

2 为什么分库分表

随着平台的业务发展,数据可能会越来越多,甚至达到亿级。以MySQL为例,单库数据量在5000万以内性能比较好,超过阈值后性能会随着数据量的增大而明显降低。单表的数据量超过1000w,性能也会下降严重。这就会导致查询一次所花的时间变长,并发操作达到一定量时可能会卡死,甚至把系统给拖垮

我们是否可以通过提升服务器硬件能力来提高数据处理能力?能,但是这种方案很贵,并且提高硬件是有上限的。那我们能不能把数据分散在不同的数据库中,使得单一数据库和表的数据量变小,从而达到提升数据库操作性能的目的? 可以,这就是数据库分库分表。

分库分表就是把较大的数据库和数据表按照某种策略进行拆分。目的在于:降低每个库、每张表的数据量,减小数据库的负担,提高数据库的效率,缩短查询时间。另外,因为分库分表这种改造是可控的,底层还是基于RDBMS,因此整个数据库的运维体系以及相关基础设施都是可重用的。

3 分库分表的方式

3.1 垂直分表

用户在电商平台流览商品时,首先看到的是商品的基本信息,如果对该商品感兴趣时才会继续查看该商品的详细描述。因此,商品基本信息的访问频次要高于商品详细描述信息,商品基本信息的访问效率要高于商品详细描述信息(大字段)。 由于这两种数据的特性不一样,因此考虑将商品信息表拆分如下:

这种拆分就叫垂直分表。垂直分表定义:将一个表的字段分散到多个表中,每个表存储其中一部分字段。垂直分表带来的提升是:

  1. 减少IO争抢,减少锁表的几率,查看商品详情的与商品概述互不影响

  2. 充分发挥高频数据的操作效率,对商品概述数据操作的高效率不会被操作商品详情数据的低效率所拖累。

一般来说,某业务实体中的各个数据项的访问频次是不一样的,部分数据项可能是占用存储空间比较大的BLOB或是TEXT,例如上例中的商品描述字段。所以,当数据量很大时,可以将表按字段拆分,将热门字段、冷门字段分开放置在不同表中。垂直切分带来的性能提升,主要集中在热门数据的操作效率上,而且磁盘争用情况减少。通常我们按以下原则进行垂直拆分:

  • 把不常用的字段单独放在一张表

  • 把text,blob等大字段拆分出来单独放在一张表

  • 经常组合查询的字段单独放在一张表中

3.2 垂直分库

通过垂直分表,数据库性能得到了一定程度的提升,但是还没有达到要求,并且磁盘空间也快不够了,因为数据还是始终存放在一台服务器。库内垂直分表只解决了单一表数据量过大的问题,但没有将表分布到不同机器的库上,因此对于减轻数据库的压力来说,作用有限,大家还是竞争同一个物理机的CPU、内存、网络IO、磁盘。

以电商平台为例,可以把原有的SELLER_DB(卖家库),拆分为PRODUCT_DB(商品库)和STORE_DB(店铺库),并把这两个库分散到不同服务器上,如下图所示:

由于商品信息与商品描述业务耦合度较高,因此一起被存放在PRODUCT_DB(商品库);而店铺信息相对独立,因此单独被存放在STORE_DB(店铺库),这就叫垂直分库。

垂直分库是指按照业务将表进行分类,分布到不同的数据库上面,每个库可以放在不同的服务器上,从而达到多个服务器共同分摊压力的效果。垂直分库带来的提升是:

  • 解决业务层面的耦合,业务清晰

  • 能对不同业务的数据进行分级管理、维护、监控、扩展等

  • 高并发场景下,垂直分库在一定程度上可以提升IO、数据库连接数、单机硬件资源的性能

3.3 水平分库

经过垂直分表和垂直分库后,数据库性能问题就完全解决了?假设某电商平台发展迅猛,PRODUCT_DB(商品库)单库存储数据已经超出预估。假设目前该平台有8w店铺,每个店铺平均有150个不同规格的商品,再算上增长,那商品数量就会达到1500w+级别,并且PRODUCT_DB(商品库)属于访问非常频繁的资源,性能瓶颈再次出现。

能再次垂直分库吗?从业务角度分析,目前已经无法再次垂直拆分。于是我们又想了一个办法,判断商品ID是奇数还是偶数,然后把商品信息分别存放到两个数据库中。也就是说,要操作某条数据,先分析这条数据的商品ID,如果商品ID为奇数,将此操作映射至RRODUCT_DB1(商品库1);如果商品ID为偶数,将操作映射至RRODUCT_DB2(商品库2),这就叫水平分库。

水平分库是把同一个表的数据按一定规则拆分到不同的数据库中,每个库可以放在不同的服务器上。它带来的提升是:

  • 解决了单库大数据,高并发的性能瓶颈。

  • 按照合理拆分规则拆分,join操作基本避免跨库。<!--例子中商品信息、商品描述表都使用商品ID字段拆库,可避免跨库join-->

  • 提高了系统的稳定性及可用性。<!--稳定性体现在IO冲突减少,锁定减少,可用性指某个库出问题,部分可用-->

当一个应用难以再细粒度的垂直切分,或切分后数据量行数仍然巨大,存在单库读写、存储性能瓶颈,这时候就需要进行水平分库了,经过水平切分的优化,往往能解决单库存储量及性能瓶颈。但由于同一个表被分配在不同的数据库,需要额外进行数据操作的路由工作,因此大大增加了系统复杂度。

3.4 水平分表

数据库能水平拆分,那数据表是不是也可以呢?我们尝试把某PRODUCT_DB(商品库)内的表,进行了一次水平拆分:

与水平分库的思路类似,不过这次拆分的目标是表,商品信息及商品描述被分成了两套表。如果商品ID为奇数,将此操作映射至商品信息1表;如果商品ID为偶数,将操作映射至商品信息2表,这就叫水平分表。水平分表是在同一个数据库内,把同一个表的数据按一定规则拆分到多个表中。它带来的提升是:

  • 优化单一表数据量过大而产生的性能问题

  • 避免IO争抢并减少锁表的几率

库内的水平分表,解决了单一表数据量过大的问题,分出来的小表中只包含一部分数据,从而使得单个表的数据量变小,提高检索性能。但由于同一个表的数据被拆分为多张表,也需要额外进行数据操作的路由工作,因此增加了系统复杂度。

3.5 小结

  • 垂直分表:可以把一个宽表的字段按访问频次、业务耦合松紧、是否是大字段的原则拆分为多个表,这样既能使业务清晰,还能提升部分性能。拆分后,尽量从业务角度避免联查,否则性能方面将得不偿失。

  • 垂直分库:可以把多个表按业务耦合松紧归类,分别存放在不同的库,这些库可以分布在不同服务器,从而使访问压力被多服务器负载,大大提升性能,同时能提高整体架构的业务清晰度,不同的业务库可根据自身情况定制优化方案。但是它需要解决跨库带来的所有复杂问题。

  • 水平分库:可以把一个表的数据(按数据行)分到多个不同的库,每个库只有这个表的部分数据,这些库可以分布在不同服务器,从而使访问压力被多服务器负载,大大提升性能。它不仅需要解决跨库带来的所有复杂问题,还要解决数据路由的问题。

  • 水平分表:可以把一个表的数据(按数据行)分到多个同一个数据库的多张表中,每个表只有这个表的部分数据,这样做能小幅提升性能,它仅仅作为水平分库的一个补充优化。

一般来说,在系统设计阶段就应该根据业务耦合松紧来确定垂直分库,垂直分表方案,在数据量及访问压力不是特别大的情况,首先考虑缓存、读写分离、索引技术等方案。若数据量极大,且持续增长,再考虑水平分库分表方案。

4 分库分表带来的问题

分库分表有效的缓解了大数据、高并发带来的性能和压力,也能突破网络IO、硬件资源、连接数的瓶颈,但同时也带来了一些问题。

4.1 事务一致性问题

由于分库分表把数据分布在不同库甚至不同服务器,不可避免会带来分布式事务问题,我们需要额外编程解决该问题。

4.2 跨节点join

在没有进行分库分表前,我们检索商品时可以通过以下SQL对店铺信息进行关联查询:


SELECT p.*,s.[店铺名称],s.[信誉] FROM [商品信息] p LEFT JOIN [店铺信息] s ON p.id = s.[所属店铺] WHERE...ORDER BY...LIMIT...

但经过分库分表后,[商品信息]和[店铺信息]不在一个数据库或一个表中,甚至不在一台服务器上,无法通过sql语句进行关联查询,我们需要额外编程解决该问题。

4.3 跨节点分页、排序和聚合函数

跨节点多库进行查询时,limit分页、order by排序以及聚合函数等问题,就变得比较复杂了。需要先在不同的分片节点中将数据进行排序并返回,然后将不同分片返回的结果集进行汇总和再次排序。例如,进行水平分库后的商品库,按ID倒序排序分页,取第一页:

以上流程是取第一页的数据,性能影响不大,但由于商品信息的分布在各数据库的数据可能是随机的,如果是取第N页,需要将所有节点前N页数据都取出来合并,再进行整体的排序,操作效率可想而知,所以请求页数越大,系统的性能也会越差。

在使用Max、Min、Sum、Count之类的函数进行计算的时候,与排序分页同理,也需要先在每个分片上执行相应的函数,然后将各个分片的结果集进行汇总和再次计算,最终将结果返回。

4.4 主键避重

在分库分表环境中,由于表中数据同时存在不同数据库中,主键值平时使用的自增长将无用武之地,某个分区数据库生成的ID无法保证全局唯一。因此需要单独设计全局主键,以避免跨库主键重复问题。

由于分库分表之后,数据被分散在不同的服务器、数据库和表中。因此,对数据的操作也就无法通过常规方式完成,并且它还带来了一系列的问题。我们在开发过程中需要通过一些中间件解决这些问题,市面上有很多中间件可供我们选择,其中Sharding-JDBC和mycat较为流行。

5 总结

通过以上学习呢,我们知道,当数据库特别大的情况下,数据库存储数量达到了一定的阈值以后会变慢,我们需要使用分库分表的方案来解决这个问题。我们主要学习了垂直分表、垂直分库、水平分表、水平分库四种方案。当我们选择分库分表以后也会带来一些问题,比如事务一致的问题、垮节点聚合的问题、分页、主键避重等等问题,大家也要掌握这些问题的解决方案。

Java教程之mysql分库分表方案相关推荐

  1. 【mysql】MySQL 分库分表方案,总结的非常好!

    文章目录 1. 数据库架构演变 2. 分库分表前的问题 3. 分库分表的方式方法 3.1 垂直分库 3.2 水平拆分 水平分表 水平分库分表 水平分库分表切分规则 4. 分库分表后面临的问题 4.1 ...

  2. 【分库、分表】MySQL分库分表方案

    一.Mysql分库分表方案 1.为什么要分表: 当一张表的数据达到几千万时,你查询一次所花的时间会变多,如果有联合查询的话,我想有可能会死在那儿了.分表的目的就在于此,减小数据库的负担,缩短查询时间. ...

  3. 最全的MySQL分库分表方案总结

    " 面试中我们经常会碰到的关于分库分表的问题!今天就给大家介绍互联网公司常用 MySQL 分库分表方案!希望对大家的面试有所帮助! 数据库瓶颈 不管是 IO 瓶颈,还是 CPU 瓶颈,最终都 ...

  4. MySQL第六讲 MySQL分库分表方案

    分库分表概念        分库分表就是业务系统将数据写请求分发到master节点,而读请求分发到slave 节点的一种方案,可以大大提高整个数据库集群的性能.但是要注意,分库分表的 一整套逻辑全部是 ...

  5. MySQL 分库分表方案,总结的非常好!

    数据库分库分表 前言 公司最近在搞服务分离,数据切分方面的东西,因为单张包裹表的数据量实在是太大,并且还在以每天60W的量增长. 之前了解过数据库的分库分表,读过几篇博文,但就只知道个模糊概念, 而且 ...

  6. Java互联网架构-Mysql分库分表订单生成系统实战分析

    分库分表的必要性 首先我们来了解一下为什么要做分库分表.在我们的业务(web应用)中,关系型数据库本身比较容易成为系统性能瓶颈,单机存储容量.连接数.处理能力等都很有限,数据库本身的"有状态 ...

  7. mysql 分库分表 ~ 方案选择浅谈

    一 简介:分库分表的理解 二 具体: 1 当由于单台DB业务增长导致的服务器压力时,就必须横向进行扩展               2 本文仅从中间层观点进行分析 三 现有方案   方案1 shard ...

  8. mysql分库分表方案之sharding-jdbc使用(非demo示例)

    选择开源核心组件的一个非常重要的考虑通常是社区活跃性,一旦项目团队无法进行自己后续维护和扩展的情况下更是如此. 关于分库分表和读写分离.主从 一般来说,需要分库分表的系统是流量比较大的,而且比较容易出 ...

  9. mysql分库分表方案浅析

    分库分表(这里不讨论中间件) 分库:原因:单机负载高,优点:降低单机负载 分表:原因:单表读写压力大或者数据增长快,优点:使用多个表,提高读写效率 1.(代码)分表,即把一个很大的表达数据分到几个表中 ...

最新文章

  1. Spring注解Annotation
  2. java中为什么要用json_Java中使用JSON
  3. 剑指offer---包含min函数的栈
  4. php简单网页制作代码,用HTML和CSS以及JS制作简单的网页菜单界面的代码
  5. C++求LCM的和算法(附完整源码)
  6. 1810: Huffuman树(vector模拟)
  7. SAP CRM Fiori应用里取top20的service url的determine逻辑
  8. 软件:推荐七款Windows下宝藏软件,值得收藏!
  9. MySQL笔记-CURRENT_TIMESTAMP()和ON UPDATE及索引相关
  10. 深度学习声纹识别_kaldi/语音识别ASR/声纹识别SRE/资源汇总
  11. Node-Promise
  12. win10+cuda10+tensorflow-gpu最新安装教程
  13. swarm bzz 安装0.5.3版本基础解析。
  14. Android烂笔头
  15. 对国内基金行业的一些思考 【投资干货】
  16. Java总结IO篇之字符流
  17. gii无法访问 yii2_YII2框架访问gii、debug页面404的错误解决方法
  18. 如何将JPG格式图片转换成BMP格式
  19. xp计算机内存条启动,加快XP启动
  20. 二极管 三极管 MOS管的区别

热门文章

  1. 更新数据限制条数 mysql_mysql update limit mysql更新限制语句用法
  2. 坚果云和亿方云有什么区别?
  3. graphviz linux 运行,绘图工具Graphviz学习使用
  4. Springboot集成websocket实现消息推送和在线用户统计
  5. iOS 原生级别后台下载详解
  6. 旧改快讯--星河操刀,龙华稳健工业园项目专规获批
  7. JARVIS(贾维斯)来了,科技改变生活
  8. MFC界面库BCGControlBar v32.0 - 对话框、仪表盘控件升级
  9. 2018Unsupervised Domain Adaptation for Semantic Segmentation via Class-Balanced Self-Training
  10. 前端开发重要基础知识