作者 | 菜菜

责编 | 郭芮

YY妹:菜哥,领导让我开发新系统了。

菜菜:这么说领导对你还是挺信任的呀。

YY妹:必须的,为了设计好这个新系统,数据库设计我花了好多心思。

菜菜:做一个系统我觉得不应该从数据库入手,应该从设计业务模型开始,先不说这个,说说你的数据库设计的优势。

YY妹:为了高性能我首先设计了分库分表策略,为以后打下基础。

菜菜:那你的数据量将来会很大吗?分库分表其实涉及到很多难题,你了解过吗?

YY妹:我觉得分库分表很容易。

菜菜:是吗?

是否需要分?

说到数据库分库分表,我们要明白为什么要进行分库分表。现在很多人鼓吹分库分表如何应对了多大数据,却不知针对很多人的业务来说,分库分表策略也许并非是银弹,而是令人焦虑的焦油坑。

分库分表是业务发展到一定阶段、数据积累到一定量级而衍生出来的解决方案。当DB的数据量级到达一个阶段,写入和读取的速度会出现瓶颈,即使是有索引,索引也会变得很大,而且数据库的物理文件会使备份和恢复等操作变的很困难。这个时候由于DB的瓶颈已经严重危害到了业务,最有效的解决方案莫过于DB的分库分表了。

有的Leader甚至架构师会在业务初期以自己的主观意愿进行分库分表,会为以后业务高速发展做铺垫。但是这里我要表达几个观点:

  • 如果当前这个业务并非公司的核心业务,而且在业务不知是否能存活的前提下,初级的设计不要这么复杂。如果每个业务我们都按淘宝那样的规模做系统架构设计,将来不但会害死业务,还会让程序员背上更多的黑锅。

  • 单台数据库的能力并非想象中那么脆弱。就算是MySQL单表数据量大部分场景下也在百万级别(当然这和存储的具体数据格式有关),SQLServer更是不在话下,我司用的SQLServer,单表千万级别数据的大有所在,亿级的也有几个,Oracle更是不用多说。

  • 如果业务周期比较短,或者人力物力不足的情况下,盲目地在初期就进行分库分表设计,更是给自己下了绩效背D的套。

  • 系统的设计初期和公司的基础数据有直接关系。比如微信这样的数据规模,稍微一个小系统就有可能是千万甚至上亿的数据级别,但是多数初创公司有多少能有这样的级别呢?

一个好的系统设计者会在开始设计之初,充分考虑到各方面的综合因素来综合考虑。

分库

根据业务划分

说到分库,笔者这里想多啰嗦一句:推荐大家根据业务来进行划分,一个系统的好坏,业务的边界划分起到举足轻重的作用。业务按照规则划分好边界,每个业务对应的数据库自然而然就诞生了,不要站在数据库的层面上去给业务分库。有的Leader会有这样的行为:某个表的数据量太大,分配到单独的一个库,结果导致的结果就是很多SQL语句必须跨库Join。

具体的业务怎么划分呢?每个公司的业务形态不同,划分的维度就会不同。举一个简单的例子:一个典型的电商系统根据业务可划分为商品、订单,这也是许多公司的典型业务划分,但是我司根据自己的业务规则,划分为商品、订单、支付。因为支付系统在我司是一个独立的业务,不但包含了订单的支付,还包含了很多其他的支付场景。根据业务上的划分,DB的层面就出现了商品DB、订单DB和支付DB。

同一业务横向划分

除了根据业务垂直切分的策略之外,还有另外一种常用的分库方案。如果某个具体业务数据量比较大,可以把这业务的数据库根据某种规则来进行横向切分。比如用户信息的业务,当用户量达到一定量级,有些公司会把用户信息拆分到多个数据库——这和拆分到多个表有什么区别呢?

如果把用户信息横切到同一个数据库的多个表,如果这些表位于一个物理磁盘上,对于提高这个业务的写入和读取IO最大值并没有什么用处,但是如果分配到多个服务器上,意味着这个业务整体的最大IO得到了提升,在一定程度上要比拆表效果要好。当然如果用到了表分区,每个分区散落在不同的物理磁盘上,也不一定比分库方式差。

把某个业务的DB按照规则横向切分之后,当然也会引入新的问题。切分的规则在很多情况下用的最多的就是哈希取余的方式了,有时间咱们在讨论。

分库引入复杂性

我在上文提到过,分库分表并非是银弹,任何一种解决方案能解决一个问题,但是有可能会引入其他问题。世界是公平的,计算机世界亦如此,那分库会引入哪些问题呢?

  • 在执行了分库之后,难以避免会将原本逻辑关联性很强的数据划分到不同的表、不同的库上,这时,表的关联操作将受到限制,我们多数情况下无法Join位于不同分库的表(因为多数公司都明令禁止跨库SQL),结果原本一次查询能够完成的业务,可能需要多次查询才能完成。

  • 原来在单体DB环境下,可以用DB的事务来保证一些操作的原子操作,但是在分散到多个数据库的情况下,统一管理这些操作变的困难。虽然一些大厂提供的也有跨库的事务解决方案,但是性能上实在是差强人意,所以在很多情况下并不实用。比如上边提到的商品库存支付,在单体应用的情况下,三个业务在同一个数据库,当发生支付业务,更改商品库存和更新订单状态这两个操作可以利用数据库提供的事物来完成,而且性能在可接受范围之内,如果这三个业务分布在不同的数据库,有几率会发生只执行其中一个操作的情况发生,其实这也是分布式事物要解决的问题。在很多情况下,分布式事物是无法避免的,根据业务综合情况适当采用分布式事物也是一种有效的解决方案,最坏的情况下,可能需要人工介入了。

  • 分库对于DBA来说意味着工作量的成倍增加,原来只需要管理一个DB,现在却要管理N个DB,而且每个DB都需要备份、监控,甚至做高可用、扩展等工作。原来可能只需要一个DBA管理人员,分库之后可能会需要两个甚至三个,导致了公司在人力投入上的加大。

YY妹:菜菜哥,能再给我讲讲分表吗?

菜菜:分表其实有很多情况和分库类似。

YY妹:还有不一样的情况吗?

菜菜:有,本来数据库和表是不同层面的东西,肯定有差异。

YY妹:那你给讲讲呗。

菜菜:一杯Coffee如何?

为什么分?

在正式开始之前还是要强调一点,你的数据表是否应该分需要综合考虑很多因素,比如业务的数据量是否到达了必须要切分的数量级?是否可以有其他方案来解决当前问题?

我不止一次见过,有的Leader在不考虑综合情况下,盲目地进行表拆分业务,导致的情况就是大家不停地加班,连续几周996,难道Leader你不掉头发吗?还有的架构师在一个小小业务初期就进行表拆分,大家为了配合你也是马不停蹄的加班赶进度,上线之后反而发现业务数据量很小,但是代码上却被分表策略牵制了太多。拆表引起的问题在特定的场景下,有时候代价真的很大。

数据库表的拆分解决的问题主要是存储和性能问题,MySQL在单表数据量达到一定量级后,性能会急剧下降,相比较于SQLServer和Oracle这些收费DB来说,MySQL在某些方面还是处于弱势,但是表的拆分这个策略却适用于几乎所有的关系型数据库。

数据库进行表拆分不要太盲目。

分表策略

表的拆分和数据库的拆分有相似之处,但是拆分的规则也有不同。以下的拆分规则针对的是拆分一个表。

横向切分

横向切分是诸多业务中最常用的切分方式,本质是把一个表中的数据行按照规则分散到多个表中,比如最常见的按照ID范围,按照业务主键的哈希值等。至于表数据到达什么数量级之后进行切分,这和表中存的数据格式有关,比如一个表只有几列的int字段肯定要比几列text类型的表存储的极限要高,姑且认为这个极限是1000万吧。但是作为一个系统的负责人或者架构师来说,当表的数据量级到达千万级别要引起重视,因为这是一个系统性能瓶颈的隐患。

相对于数据表的横向切分,在符合业务优化的场景下我更倾向于做表分区,按照规则把不同的分区分配到不同的物理磁盘,这样的话,业务里的SQL语句几乎可以不用改动。我司的一个SQLServer数据库,某个业务的表做了表分区之后,已经到达几十亿级别的数据量,但是查询和插入速度还是能满足业务的需求(优化一个系统还是要花精力优化业务层面)。

90%的程序员学Python这么认为:

https://edu.csdn.net/topic/python115?utm_source=csdn_bw

垂直切分

说到垂直拆分,表也可以按照业务来拆分,比如一个数据库中有用户的信息,根据业务可以划分为基础信息和扩展信息,如果对业务有利,完全可以拆分为基础信息表和扩展信息表。当然也可以按照别的规则来拆,比如把访问频繁的信息拆分成一个表,其他不频繁的信息拆分成一个表,具体的拆分规则还是要看当时要解决的问题是什么。垂直拆分可能会引入一定复杂性,比如原来查询一个用户的基础信息和扩展信息可以一次性查询出结果,分表之后需要进行Join操作或者查询两次才能查询出结果。

分表代价

  • 数据表垂直切分之后,原来一次查询有可能会变为连表的Join查询,在一定程度上会有性能损失。

  • 数据表横向切分需要一定的规则,常用的主要有两种规则:范围切分和哈希值切分。范围切分是指按照某个字段的范围来切分,比如用户表按照用户ID来切分,ID为1到10万的位于User1中,100001到200000万的位于User2中,这样切分的优势是可以无限扩容下去,不用考虑数据迁移的问题,劣势就是新表和旧表数据分布不均匀,而且分表的范围选取有一定难度,范围太小会导致表太多,太大会导致问题根本上没有解决的困惑。另外一种分表策略就是把某一列按照哈希值来路由到不同的表中,同样以用户ID为例,假如我们一开始就规划了10个数据库表,路由算法可以简单地用 user_id %10的值来表示数据所属的数据库表编号,ID为985的用户放到编号为5的子表中,ID为10086的用户放到编号为6的字表中。这种切分规则的优势是每个表的数据分布比较均匀,但是后期扩容会设计到部分数据的迁移工作。

  • 表拆分之后如果遇到有order by的操作,数据库就无能为力了,只能由业务代码或者数据库中间件来完成了。

  • 当有搜索的业务需求的时候,SQL语句只能是Join多个表来进行连表查询了,类似的还有统计的需求,例如count的统计操作。

作者:菜菜,一个奔走在通往互联网更高之路的工程师,热衷于互联网技术。目前就职于某互联网教育公司,应用服务端主要负责人。拥有10年+互联网开发经验,热衷于高性能、高并发、分布式技术领域的研究,主要工作语言为C#和Golang。

声明:本文为作者投稿,版权归其个人所有。

【END】

 热 文 推 荐 

☞华为顶尖应届生最高年薪超 200 万;抖音服务器宕机;GitLab 12.1 发布 | 极客头条

☞SaaS 前世今生:老树开新花

☞打脸!特朗普要解禁华为?美七家科技公司联合要求恢复供货

☞Erlang 二十年,如何在编程语言中占据一席之地?

☞云计算将会让数据中心消失?

如今区块链在企业级应用中的尴尬, 只因没看懂这4大主链2大场景……

☞特朗普要解禁华为?美七家科技公司联合要求恢复供货

☞如何用爬虫技术帮助孩子秒到心仪的幼儿园(基础篇)

☞中国第一程序员,微软得不到他就要毁了他!

你点的每个“在看”,我都认真当成了喜欢

如何正确 Get 分库分表?相关推荐

  1. 数据库性能优化—分库分表

    文章出自:阿里巴巴十亿级并发系统设计(2021版) 链接:https://pan.baidu.com/s/1lbqQhDWjdZe1CBU-6U4jhA 提取码:8888 目录 如何对数据库做垂直拆分 ...

  2. 如何实现MYSQL分库分表

    我们学习了在高并发下数据库的一种优化方案:读写分离,它就是依靠主从复制的技术使得数据库实现了数据复制为多份,增强了抵抗大量并发读请求的能力,提升了数据库的查询性能的同时,也提升了数据的安全性.当某一个 ...

  3. 高并发大流量情况下带来的海量数据分库分表的正确姿势

    注意!!! 不要为了分库分表而分库分表!!! 引入SOA架构中的一句话:架构不是一蹶而起的,而是慢慢演进的 一.为什么需要分库分表? 请求数太高: 在高并发情况下,大量请求落入数据库,最终会导致数据库 ...

  4. 阿里面试题:分库分表无限扩容后的瓶颈以及解决方案

    以下文章来源方志朋的博客,回复"666"获面试宝典 像我这样的菜鸟,总会有各种疑问,刚开始是对 JDK API 的疑问,对 NIO 的疑问,对 JVM 的疑问,当工作几年后,对服务 ...

  5. 分库分表之 Sharding-JDBC 中间件,看这篇真的够了!

    点击上方蓝色"方志朋",选择"设为星标" 回复"666"获取独家整理的学习资料! 本文大纲如下 Sharding-JDBC 的基本用法和基本 ...

  6. 值得深思的问题——分库分表就能无限扩容吗?

    点击上方"方志朋",选择"置顶公众号" 技术文章第一时间送达! 作者:莫那-鲁道 来源:http://t.cn/EKNnkht 刚开始工作的菜鸟,总会有各种疑问 ...

  7. 你分库分表的姿势对么?——详谈水平分库分表

    作者:vivo平台产品开发团队-Han Lei 一.背景 提起分库分表,对于大部分服务器开发来说,其实并不是一个新鲜的名词.随着业务的发展,我们表中的数据量会变的越来越大,字段也可能随着业务复杂度的升 ...

  8. 分库分表就能无限扩容吗?

    -     目录    - 1.正常情况下的服务演化之路 2.单元化 3.最后 -     前言    - 像我这样的菜鸟,总会有各种疑问,刚开始是对 JDK API 的疑问,对 NIO 的疑问,对 ...

  9. 一文快速入门分库分表中间件 Sharding-JDBC (必修课)

    书接上文 <一文快速入门分库分表(必修课)>,这篇拖了好长的时间,本来计划在一周前就该写完的,结果家庭内部突然人事调整,领导层进行权利交接,随之宣布我正式当爹,紧接着家庭地位滑落至第三名, ...

最新文章

  1. 超详细的2440中断机制分析
  2. mysql5.7 新增参数_MySQL 5.7 新增参数
  3. PHP中cookie和session的区别
  4. spring-security-学习笔记-01-基本概念
  5. Udp通讯(零基础)
  6. c语言机器人编程软件,诺宝rc编程软件下载
  7. 加快github下载速度绝招
  8. Klevgrand R0Verb for mac(音频效果滤波器)
  9. How to install and configure vsftpd
  10. B站批量下载工具——下载姬
  11. python实现图片嗅探工具——自编driftnet
  12. 注册google账号,当前时间方法仍可用
  13. Industry personnel quality of foam mixer is high
  14. SOFA Weekly | QA 整理
  15. Forth 语言概要
  16. 用python做个聊天机器人与群发助手~再也不怕没时间回女友,闺蜜被胖揍了~
  17. cache stm32h7_【STM32H7教程】第24章 STM32H7的Cache解读(非常重要)
  18. 广东电大计算机绘图试题,电大CAD计算机绘图本实验1小抄参考
  19. 深入理解Android L新特性之 页面内容amp;共享元素过渡动画
  20. JSP 手机销售管理系统 myeclipse开发web网页 mysql数据库

热门文章

  1. 《Linux编程》上机作业 ·004【文件I/O操作】
  2. 改变Adobe Acrobat (PDF)高亮工具的颜色
  3. c语言手机教程,【图片】【教程】手机c语言入门与手机c编程【mrp吧】_百度贴吧...
  4. 剑指Offer之把数组排成最小的数
  5. 安卓数据库的使用方式
  6. 中国双光束紫外可见分光光度计行业市场供需与战略研究报告
  7. npm 与yarn CLI 命令比较
  8. VSCode拓展插件推荐(HTML、Node、Vue、React开发均适用)
  9. 编译速度谁“最快”?25岁的 C++Builder 还能打!
  10. 代码审查反馈提交修复时,是否应该压缩提交?