个人从事电商行业十几年,经历过大大小小的促销活动和秒杀上百次,每次做秒杀瞬时访问量会翻数十倍,甚至数百倍。对系统架构是巨大的考验,期间也曾经历过系统宕机,甚至整体雪崩。那么我们怎么设计秒杀系统,才能保证秒杀系统的高性能和稳定性,同时还要保证日常业务不受影响呢?

先看看秒杀场景特点。秒杀开始前几分钟,大量用户开始进入秒杀商品详情页面,很多人开始频繁刷新秒杀商品详情页,这时秒杀商品详情页访问量会猛增。秒杀开始,大量用户开始抢购,这时创建订单,扣库存压力会显著增大。实际上,秒杀场景基本都是秒杀参与人多,秒杀成功的人却寥寥无几,经常是几十万人或者更多人抢几百个商品库存。

那么我们曾经是怎么设计秒杀系统的呢?主要涉及以下几个方面:

秒杀业务流程上的考虑:

由于参加秒杀的商品售卖价格非常低,基本都是“抢到即赚到”,成功下单后却不付款的情况非常少。所以我们采用下单减库存的方案,下单时扣减库存,然后再进行支付。假如真有个别订单不付款怎么办?没关系,秒杀好活动最主要的目的是吸引流量,个别订单不支付对秒杀活动本身影响不大。况且,没支付剩下的库存还可以做为普通商品继续售卖。不过要注意对机器人和自动脚本的防御,后面会详细介绍。

页面静态化:

“秒杀开始前几分钟,大量用户开始进入秒杀商品详情页面,很多人开始频繁刷新秒杀商品详情页,这时秒杀商品详情页访问量会猛增”。如果请求全部打到后端服务,那后端服务的压力会非常大(后端服务要处理业务逻辑,而且还要访问数据库,吞吐量比较低)。

考虑到秒杀是运营同学提前安排的活动,要秒杀哪些商品、商品价格等信息在秒杀活动开始前已经确定下来,所以我们可以把秒杀商品详情页做成静态页面,把商品详情、商品价格等参数、评论评价等信息全部放在这个静态页面里,然后把这个静态页面上传到CDN上预热(CDN是内容分发网络,可以简单理解成互联网上的巨大的缓存,用于存放静态页面、图片、视频等,可以显著提高访问速度),用CDN扛流量,这样大量的商品详情页的访问请求就不用访问自己的网站(源站)。这样既可以提高访问速度,也没有给网站增加压力,同时也减少了网站带宽压力。

请求拦截:

前端页面,相关按钮点击后置灰,防止重复提交

网关(zuul,nginx)层,为了避免前端恶意请求,比如一些攻击脚本,在网关层要对下单等接口按userID限流,几秒钟只能访问一次。考虑到秒杀场景参与人多,秒杀成功的人极少,我们可以把绝大部分抢购下单请求在网关层直接拒掉,按秒杀失败处理。这样就极大减少了后端服务的压力。

假设秒杀库存是200个,我们可以只放行200个请求到后端服务。要注意,为了尽量避免库存被机器人和自动脚本抢走,200个请求不能在秒杀开始瞬间同时放行,可以分段放行,比如秒杀开始后随机选取100ms内的5个请求放行(这100ms内的其他请求直接拒掉,按秒杀失败处理),之后每隔100ms放行5个请求,4秒钟可以放行完200个请求。分段放行,除了限制了机器人和自动脚本,把请求分散在各个时间段,还进一步缓解了后端服务的压力。

分段放行总时间不能太长,假如每100ms放行1个请求,放行完所有200个请求需要20秒时间,这样用户就会明显感知到下单早的人没秒杀成功,下单晚的人反而秒杀成功了,用户体验会变差。

另外,秒杀过程网关压力会比较大,网关可以做成集群,多节点分摊访问压力。

后端服务设计:

如果秒杀库存只有200,经过网关拦截,再加上采用分段放行的方式,对于后端服务基本没什么压力了,日常的后端服务就完全可以支撑秒杀活动了。不用再做更复杂的设计。不过,假如秒杀库存有几万个,放行的下单请求就有几万个,为了用户体验放行总时间也不能太长,这时后端服务该怎么设计呢?

这时主要压力就在数据库了,扣减库存压力,创建订单压力。

库存可以放到Reids缓存中,来提高扣减库存吞吐能力。对于热点商品的库存可以利用Redis分片存储。

创建订单可以走异步消息队列。后端服务接到下单请求,直接放进消息队列,监听服务取出消息后,先将订单信息写入Redis,每隔100ms或者积攒100条订单,批量写入数据库一次。前端页面下单后定时向后端拉取订单信息,获取到订单信息后跳转到支付页面。用这种批量异步写入数据库的方式大幅减少了数据库写入频次,从而明显降低了订单数据库写入压力。

隔离:

1,业务隔离。从业务上把秒杀和日常的售卖区分开来,把秒杀做为营销活动,要参与秒杀的商品需要提前报名参加活动,这样我们就能提前知道哪些商家哪些商品要参与秒杀,可以根据提报的商品提前生成静态页面并上传到CDN预热,提报的商品库存也需要提前预热,可以将商品库存在活动开始前预热到Redis,避免秒杀开始后大量的缓存穿透。

2,部署隔离。秒杀相关服务和日常服务要分组部署,不能因为秒杀出问题影响日常售卖业务。可以申请单独的秒杀域名,从网络入口层就开始分流。网关也单独部署,秒杀走自己单独的网关,从而避免日常网关受到影响。秒杀可以复用订单,库存,支付等日常服务,只是需要一些小的改造(比如下单流程走消息队列,批量写入订单库,以及在Redis中扣减库存)。

3,数据隔离。为了避免秒杀活动影响到日常售卖业务,Redis缓存需要单独部署,甚至数据库也需要单独部署!数据隔离后,秒杀剩余的库存怎么办?秒杀活动结束后,剩余库存可以归还到日常库存继续做为普通商品售卖。数据隔离后,秒杀订单和日常订单不在相同的数据库,之后的订单查询怎么展示?可以在创建秒杀订单后发消息到消息队列,日常订单服务采取拉的方式消费消息,这时日常订单服务是主动方,可以采用线程池的方式,根据机器的性能来增加或缩小线程池的大小,控制拉取消息的速度,来控制订单数据库的写入压力。

网络:

秒杀前要和网络运营商、CDN服务商提前申请带宽。

还有哪些细节要考虑:

  1. 如何避免超卖?如果在redis中扣减库存,可以利用decr命令扣减库存,decr是原子操作,在分布式环境下也不会有并发问题,decr扣减库存后,判断返回值,如果返回值小于0,扣减库存失败,秒杀也就失败了;如果在数据库中扣减库存可以在where后面加上库存大于0的条件,来避免库存被减成负值。这样就可以避免超卖情况发生了。

  2. 接口防刷,前面已经提到过,在网关层对下单等接口按userID限流。

  3. 网关层除了对userID做限流外,还要做整体限流。在实际访问量超过预估访问量时,整体限流可以起到保护作用,避免系统被压垮。

  4. 防止重复下单,按userID限流已经起到了防止重复下单的作用。假如限制同一个用户10分钟能下一次单,一般情况下10分钟内,商品早已经被抢光了,用户也就没有再次下单的机会了。

  5. 可以结合风控系统,在网关层把羊毛党等有问题的用户请求直接拒掉。

  6. 可以在网关层上面再加一层防火墙或者高防服务,来防御DDos等分布式网络攻击。

好啦,就分享到这里。

特别推荐一个分享架构+算法的优质内容,还没关注的小伙伴,可以长按关注一下:

长按订阅更多精彩▼如有收获,点个在看,诚挚感谢

秒杀系统设计~亿级用户相关推荐

  1. 太强了,300分钟撸一个基于redis的亿级用户高并发系统

    对于双十一这种高并发.大流量的场景一般都会用到缓存抗住大并发,市面上缓存框架用的最多的无疑就是Redis了,Redis作为稳居世界排名第一的KV内存数据库,同时也是最受欢迎的分布式缓存中间件,是应对高 ...

  2. 亿级用户中心的设计与实践

    -     前言    - 用户中心是互联网最为基础的核心系统,随着业务和用户的增长,势必会带来不断的挑战.如何在亿级的情况下保证系统的高可用,高性能以及高安全,本文能够给你一套实践方案. 注1:本文 ...

  3. 10分钟搞懂:亿级用户的分布式数据存储解决方案

    分布式数据库和分布式存储是分布式系统中难度最大.挑战最大,也是最容易出问题的地方.互联网公司只有解决分布式数据存储的问题,才能支撑更多次亿级用户的涌入. 接下来,你将花费十分钟掌握以下三方面内容: 1 ...

  4. Flink+Hologres亿级用户实时UV精确去重最佳实践

    简介:Flink+Hologres亿级用户实时UV精确去重最佳实践 UV.PV计算,因为业务需求不同,通常会分为两种场景: 离线计算场景:以T+1为主,计算历史数据 实时计算场景:实时计算日常新增的数 ...

  5. 巧用 maxTimeMS 服务端超时,避免承载亿级用户的腾讯云数据库MongoDB服务雪崩

    腾讯云数据库MongoDB作为一款基于开源社区MongoDB版本的文档数据库产品,其承载着公司内外包括微信.看点.QQ音乐在内的亿级用户重量级APP产品.在某些场景的使用过程中,用户在客户端请求超时后 ...

  6. hive建立内部表映射hbase_快手 HBase 在千亿级用户特征数据分析中的应用与实践...

    分享嘉宾:陈杨 快手 编辑整理:Hoh Xil 内容来源:BigData NoSQL 12th Meetup 出品社区:DataFun 注:欢迎转载,转载请注明出处. 快手建设 HBase 差不多有2 ...

  7. Hologres如何支持亿级用户UV计算

    简介: 本文将介绍阿里云Hologres如何基于RoaringBitmap进行UV等高复杂度计算的方案,实现亿级用户万级标签亚秒级分析,帮助用户从Kylin平滑迁移到Hologres,实现更实时.开发 ...

  8. 10分钟搞懂:亿级用户的分布式数据存储解决方案!

    内容提供:李智慧,前阿里巴巴技术专家,<大型网站技术架构>作者6月6日晚,林志玲与Akira公布婚讯.徐蔡坤祝福高考同学超常发挥,粉丝们百万的转发和点赞造成微博短暂宕机.分布式数据库和分布 ...

  9. 微信亿级用户异常检测框架的设计与实践

    微信亿级用户异常检测框架的设计与实践 参考文章: (1)微信亿级用户异常检测框架的设计与实践 (2)https://www.cnblogs.com/qcloud1001/p/8351385.html ...

  10. 不得不说说微信钉钉后端亿级用户架构那些事

    大家工作生活中可能经常使用微信.钉钉这样的即时通讯工具,作为技术开发的你有没有想过它们后端的技术架构是如何做的? 一般来说,钉钉和微信后端主要就是一个IM的即时通讯软件,再加上很多周边功能,我们先来看 ...

最新文章

  1. 加密软件究竟有哪些作用呢?
  2. 全面对比 MATLAB、Julia、Python,谁在科学计算中更胜一筹?
  3. linux mysql插入中文乱码_解决Linux下Tomcat向MySQL插入数据中文乱码问题
  4. JavaScript实现数乘以二multiplyByTwo算法(附完整源码)
  5. 树莓派4开机黑屏_树莓派4降价啦,2Gb内存的树莓派4降至35美元
  6. [JavaWeb-XML]XML基本语法与快速入门
  7. 可折叠的 iPhone 要来了?
  8. xpath返回结果是否有值_【自学C#】|| 笔记 41 DataReader:读取查询结果
  9. 整理2005年至2019年东盟10国GDP数据
  10. 给皮肤贴个“创可贴”就能检测身体健康信号,如何?|技术前沿洞察
  11. java全局搜素快捷键_eclipse全局搜索快捷键是什么
  12. 牛血清白蛋白BSA:蛋白定量检测标准品
  13. [转]GridView控件使用经验
  14. IBM FileNet P8 的权限管理
  15. C# winform源码下载 带条码打印的固定资产管理系统源码 VS2010
  16. 华丽转身——如何从技术岗位走向管理岗位
  17. 研究生毕业后做前台,是不是很low
  18. 练手臂哑铃用多少公斤合适?内行人一语道破!
  19. “阿里新零售技术”天团闪耀硅谷 淘系技术推动线上新零售业产业革命
  20. java spring根据外网IP和端口远程读取照片

热门文章

  1. lammps linux运行命令,[转载]linux下 lammps的安装以及计算初步使用
  2. Kruskal算法模版
  3. 关于学习Python的一点学习总结(14->换一种方法创建字典->访问字典)
  4. mysql另外加外键约束怎么写_mysql外键约束怎么写
  5. (每日一题)P1447 [NOI2010] 能量采集(莫反套路 + 欧拉反演 / 容斥原理)
  6. 文件服务器raid1设置,文件服务器raid1设置
  7. c语言的特点能够编制出复杂的功能程序,以下不是C语言的特点的是()
  8. 回归方程的拟合优度检验_计量经济学第四讲(多元线性回归模型:基本假定,参数估计,统计检验)...
  9. 机器学习_生成式模型与判别式模型
  10. 我是如何学会爱上 Vim 的