1. 达达系统架构升级经验总结

1.1. 概述

  1. 达达是全国领先的最后三公里物流配送平台。达达业务主要包含两部分:商家发单,配送员接单配送。
  2. 达达的业务规模增长极大,在1年左右的时间从零增长到每天近百万单,给后端带来极大的访问压力。压力主要分为两类:读压力、写压力。读压力来源于配送员在APP中抢单,高频刷新查询周围的订单,每天访问量几亿次,高峰期QPS高达数千次/秒。写压力来源于商家发单、达达接单、取货、完成等操作。达达业务读的压力远大于写压力,读请求量约是写请求量的30倍以上

1.2. 初始架构

  1. 随着业务的发展,访问量的极速增长,上述的方案很快不能满足性能需求。每次请求的响应时间越来越长,比如配送员在app中刷新周围订单,响应时间从最初的500毫秒增加到了2秒以上。业务高峰期,系统甚至出现过宕机,一些商家和配送员甚至因此而怀疑我们的服务质量。在这生死存亡的关键时刻,通过监控,我们发现高期峰MySQL CPU使用率已接近80%,磁盘IO使用率接近90%,Slow Query从每天1百条上升到1万条,而且一天比一天严重。数据库俨然已成为瓶颈,我们必须得快速做架构升级。

1.3. 读写分离

  1. 实现读写分离后,数据库的压力减少了许多,CPU使用率和IO使用率都降到了5%内,Slow Query也趋近于0。主从同步、读写分离给我们主要带来如下两个好处:

    • 减轻了主库(写)压力:达达的业务主要来源于读操作,做读写分离后,读压力转移到了从库,主库的压力减小了数十倍。
    • 从库(读)可水平扩展(加从库机器):因系统压力主要是读请求,而从库又可水平扩展,当从库压力太时,可直接添加从库机器,缓解读请求压力

1.4. 主从延迟

  1. 当然,没有一个方案是万能的。读写分离,暂时解决了MySQL压力问题,同时也带来了新的挑战。业务高峰期,商家发完订单,在我的订单列表中却看不到当发的订单(典型的read after write);系统内部偶尔也会出现一些查询不到数据的异常。通过监控,我们发现,业务高峰期MySQL可能会出现主从延迟,极端情况,主从延迟高达10秒。
  2. 那如何监控主从同步状态?在从库机器上,执行show slave status,查看Seconds_Behind_Master值,代表主从同步从库落后主库的时间,单位为秒,若同从同步无延迟,这个值为0。MySQL主从延迟一个重要的原因之一是主从复制是单线程串行执行。
  3. 那如何为避免或解决主从延迟?我们做了如下一些优化:
    • 优化MySQL参数,比如增大innodb_buffer_pool_size,让更多操作在MySQL内存中完成,减少磁盘操作。
    • 使用高性能CPU主机
    • 数据库使用物理主机,避免使用虚拟云主机,提升IO性能。
    • 使用SSD磁盘,提升IO性能。SSD的随机IO性能约是SATA硬盘的10倍。
    • 业务代码优化,将实时性要求高的某些操作,使用主库做读操作

1.5. 数据库拆分

  1. 同时,业务越来越复杂,多个应用系统使用同一个数据库,其中一个很小的非核心功能出现Slow query,常常影响主库上的其它核心业务功能。
  2. 这时,主库成为了性能瓶颈,我们意识到,必需得再一次做架构升级,将主库做拆分,一方面以提升性能,另一方面减少系统间的相互影响,以提升系统稳定性。这一次,我们将系统按业务进行了垂直拆分。如下图所示,将最初庞大的数据库按业务拆分成不同的业务数据库,每个系统仅访问对应业务的数据库,避免或减少跨库访问。

  3. 垂直分库过程,也遇到不少挑战,最大的挑战是:不能跨库join,同时需要对现有代码重构。单库时,可以简单的使用join关联表查询;拆库后,拆分后的数据库在不同的实例上,就不能跨库使用join了。比如在CRM系统中,需要通过商家名查询某个商家的所有订单,在垂直分库前,可以join商家和订单表做查询,分库后,则要重构代码,先通过商家名查询商家id,再通过商家Id查询订单表。

  4. 垂直分库过程中的经验教训,使我们制定了SQL最佳实践,其中一条便是程序中禁用或少用join,而应该在程序中组装数据,让SQL更简单。一方面为以后进一步垂直拆分业务做准备,另一方面也避免了MySQL中join的性能较低的问题

1.6. 水平分库

  1. 读写分离,通过从库水平扩展,解决了读压力;垂直分库通过按业务拆分主库,缓存了写压力,但系统依然存在以下隐患:

    • 单表数据量越来越大。如订单表,单表记录数很快将过亿,超出MySQL的极限,影响读写性能。
    • 核心业务库的写压力越来越大,已不能再进一次垂直拆分,MySQL 主库不具备水平扩展的能力

  1. 水平分库面临的第一个问题是,按什么逻辑进行拆分。一种方案是按城市拆分,一个城市的所有数据在一个数据库中;另一种方案是按订单ID平均拆分数据。按城市拆分的优点是数据聚合度比较高,做聚合查询比较简单,实现也相对简单,缺点是数据分布不均匀,某些城市的数据量极大,产生热点,而这些热点以后可能还要被迫再次拆分
  2. 按订单ID拆分则正相反,优点是数据分布均匀,不会出现一个数据库数据极大或极小的情况,缺点是数据太分散,不利于做聚合查询。比如,按订单ID拆分后,一个商家的订单可能分布在不同的数据库中,查询一个商家的所有订单,可能需要查询多个数据库。针对这种情况,一种解决方案是将需要聚合查询的数据做冗余表,冗余的表不做拆分,同时在业务开发过程中,减少聚合查询。
  3. 最终从架构上,我们将系统分为三层:
    • 应用层:即各类业务应用系统。
    • 数据访问层:统一的数据访问接口,对上层应用层屏蔽读写分库、分库、缓存等技术细节。
    • 数据层:对DB数据进行分片,并可动态的添加shard分片。
  4. 水平分库的技术关键点在于数据访问层的设计,数据访问层主要包含三部分:
    • ID生成器:生成每张表的主键
    • 数据源路由:将每次DB操作路由到不同的shard数据源上
    • 缓存: 采用Redis实现数据的缓存,提升性能
  5. ID生成器是整个水平分库的核心,它决定了如何拆分数据,以及查询存储-检索数据。ID需要跨库全局唯一,否则会引发业务层的冲突。此外,ID必须是数字且升序,这主要是考虑到升序的ID能保证MySQL的性能。同时,ID生成器必须非常稳定,因为任何故障都会影响所有的数据库操作。
  6. ID的生成策略借鉴了Instagram的ID生成算法。具体方案如下:

1.7. 总结

  1. 前期为了快速满足业务需求,我们采用简单高效的方案,如使用云服务、应用服务直接访问单点DB;后期随着系统压力增大,性能和稳定性逐渐纳入考虑范围,而DB最容易出现性能瓶颈,我们采用读写分离、垂直分库、水平分库等方案。面对高性能和高稳定性,架构升级需要尽可能超前完成,否则,系统随时可能出现系统响应变慢甚至宕机的情况。

1.8. 流程梳理

从一开始单个数据库 -> 到读写分离 -> 解决主从延迟 -> 数据库业务拆分 -> 数据水平拆分
  1. 这个升级流程很多地方都能看到,大同小异,但是都没有明确的数据层面的参考,从这个流程我感触最深的就是,系统的压力真的大部分来自数据库,对服务层系统,做到能水平扩展,系统就已经可以承受很大的压力了

参考 https://blog.csdn.net/czbing308722240/article/details/52350219#commentBox

达达系统架构升级经验总结相关推荐

  1. 达达集团智能弹性伸缩架构的设计与落地实践

    文章来源:架构头条,嘉宾 | 杨森,编辑 | 李忠良 面对节假日常规促销.618/ 双 11 购物节等配送业务订单量的暴增,达达集团通过智能弹性伸缩架构和精细化的容量管理,有效地做到了业务系统对配送全 ...

  2. 达达O2O后台架构演进实践:从0到4000高并发请求背后的努力!

    来自:即时通讯网   http://www.52im.net/thread-2141-1-1.html 达达创立于2014年5月,业务覆盖全国37个城市,拥有130万注册众包配送员,日均配送百万单,是 ...

  3. 华为发布7nm制程麒麟810芯片:自研达芬奇架构 nova5首搭

    昨日华为消费者业务手机产品线总裁何刚在武汉发布了华为麒麟810芯片,该芯片采用7nm制程,采用了华为自研的达芬奇架构的NPU. 据华为方面介绍,麒麟810采用7nm工艺制程,相比8nm工艺,能效提升2 ...

  4. 达达O2O后台架构演进实践:从0到4000高并发请求背后的努力

    1.引言 达达创立于2014年5月,业务覆盖全国37个城市,拥有130万注册众包配送员,日均配送百万单,是全国领先的最后三公里物流配送平台. 达达的业务模式与滴滴以及Uber很相似,以众包的方式利用社 ...

  5. 昇腾 (Ascend) AI 处理器:达芬奇架构

    参考:<昇腾AI处理器架构与编程--深入理解CANN技术原理及应用> 目录 昇腾 AI 处理器 背景 主要的架构组成部件 可扩展性 达芬奇架构 (DaVinci Architecture) ...

  6. QPS从0到4000请求每秒,谈达达后台架构演化之路

    文章转自:http://www.infoq.com/cn/articles/imdada-high-performance-server-optimization 业务场景 达达是全国领先的最后三公里 ...

  7. 第十四讲:基于3DEXPERIENCE云平台的异构CAD产品的协同开发案例 | 达索系统百世慧

    随着产品复杂程度的提升,市场竞争愈加激烈,基于模型的正向研发已经作为有效的应对手段被广泛接受.但研发流程中仍然存在复杂功能架构定义困难.多方案难以权衡.多系统难以联合仿真,仿真效率低,验证不充分等问题 ...

  8. 华为麒麟810芯片鸿蒙,华为发布全新人工智能手机芯片麒麟810!采用自研达芬奇架构NPU...

    6月21日,华为于武汉召开新品发布会,正式推出次旗舰nova 5系列新品手机.在此次发布会上,华为手机产品线总裁何刚表示,截止2019年5月30日,华为手机年度全球发货量达到了1亿台.首先亮相发布会的 ...

  9. 3DEXPERIENCE MODSIM产品前期概念结构快速开发方案(上) | 达索系统百世慧®

    基于3DEXPERIENCE单一数据源.实时多专业协同平台:传统CATIA建模附加全新CATIA柔性快速建模技术:CATIA原生概念建模仿真一体化模型:一模两用,快速建模与变更.多学科快速验证与自动优 ...

最新文章

  1. QT:(1)QT下载地址
  2. 加入域应具备的权限讨论
  3. 每个网站SEO优化人员都要熟知的三大图片优化技巧
  4. ubuntu创建文件夹快捷方式命令
  5. linux 基本命令学习笔记
  6. Linux找最大最小值的命令,Linux中awk命令正确的求最大值、最小值、平均值、总和...
  7. mysql ignore 1 lines_MYSQL使用笔记(1)
  8. 成功人士都有的好习惯
  9. 一文了解类别型特征的编码方法
  10. 织梦后台如何生成站点地图sitemap.xml
  11. 汤姆克兰西全境封锁服务器维护时间,汤姆克兰西全境封锁无法登录怎么解决 无法登录解决方法攻略...
  12. python饼形图_Python | 饼形图
  13. Oracle迁移PPAS:中文表名的处理
  14. 8个优质自学网站收藏
  15. ps_裁剪出圆形区域并将多余透明去掉
  16. 自己拥有一台服务器可以做哪些很酷的事情
  17. 文件恢复:Docrepair-MS Word文档修复软件
  18. 1068 万绿丛中一点红
  19. FPGA浮点运算实战
  20. 如何冻结excel指定行和列

热门文章

  1. python语音播报天气预报_树莓派之天气预报语音播报
  2. 骑龙感悟 炫龙毁灭者DC pro 安装WIN10专业版 与 ubuntu16.04
  3. 书论30 张怀瓘《书断》
  4. 抖音怎么运营?分享个人抖音运营思路方案
  5. 微信号买卖赚钱拿来做哪些事情
  6. oracle rman 00571,rman备份报RMAN-00571、RMAN-00569、RMAN-03009
  7. 15 二叉树的中序遍历(Binary Tree Inorder Traversal)
  8. 小程序的四次元口袋:editor富文本编辑器的使用、渲染,以及rich-text进行解析
  9. PC端微信加群测试用例
  10. 小米 HDR400 27英寸显示器评测