在微服务中由于服务间相互依赖很容易出现连锁故障,连锁故障可能是由于整个服务链路中的某一个服务出现故障,进而导致系统的其他部分也出现故障。例如某个服务的某个实例由于过载出现故障,导致其他实例负载升高,从而导致这些实例像多米诺骨牌一样一个个全部出现故障,这种连锁故障就是所谓的雪崩现象

比如,服务A依赖服务C,服务C依赖服务D,服务D依赖服务E,当服务E过载会导致响应时间变慢甚至服务不可用,这个时候调用方D会出现大量超时连接资源被大量占用得不到释放,进而资源被耗尽导致服务D也过载,从而导致服务C过载以及整个系统雪崩

某一种资源的耗尽可以导致高延迟、高错误率或者相应数据不符合预期的情况发生,这些的确是在资源耗尽时应该出现的情况,在负载不断上升直到过载时,服务器不可能一直保持完全的正常。而CPU资源的不足导致的负载上升是我们工作中最常见的,如果CPU资源不足以应对请求负载,一般来说所有的请求都会变慢,CPU负载过高会造成一系列的副作用,主要包括以下几项:正在处理的(in-flight) 的请求数量上升

服务器逐渐将请求队列填满,意味着延迟上升,同时队列会用更多的内存

线程卡住,无法处理请求

cpu死锁或者请求卡主

rpc服务调用超时

cpu的缓存效率下降

由此可见防止服务器过载的重要性不言而喻,而防止服务器过载又分为下面几种常见的策略:提供降级结果

在过载情况下主动拒绝请求

调用方主动拒绝请求

提前进行压测以及合理的容量规划

今天我们主要讨论的是第二种防止服务器过载的方案,即在过载的情况下主动拒绝请求,下面我统一使用”过载保护“来表述,过载保护的大致原理是当探测到服务器已经处于过载时则主动拒绝请求不进行处理,一般做法是快速返回error

很多微服务框架中都内置了过载保护能力,本文主要分析go-zero中的过载保护功能,我们先通过一个例子来感受下go-zero的中的过载保护是怎么工作的

首先,我们使用官方推荐的goctl生成一个api服务和一个rpc服务,生成服务的过程比较简单,在此就不做介绍,可以参考官方文档,我的环境是两台服务器,api服务跑在本机,rpc服务跑在远程服务器

远程服务器为单核CPU,首先通过压力工具模拟服务器负载升高,把CPU打满stress -c 1 -t 1000复制代码

此时通过uptime工具查看服务器负载情况,-d参数可以高亮负载的变化情况,此时的负载已经大于CPU核数,说明服务器正处于过载状态watch -d uptime19:47:45 up 5 days, 21:55,  3 users,  load average: 1.26, 1.31, 1.44复制代码

此时请求api服务,其中ap服务内部依赖rpc服务,查看rpc服务的日志,级别为stat,可以看到cpu是比较高的"level":"stat","content":"(rpc) shedding_stat [1m], cpu: 986, total: 4, pass: 2, drop: 2"复制代码

并且会打印过载保护丢弃请求的日志,可以看到过载保护已经生效,主动丢去了请求adaptiveshedder.go:185 dropreq, cpu: 990, maxPass: 87, minRt: 1.00, hot: true, flying: 2, avgFlying: 2.07复制代码

这个时候调用方会收到 "service overloaded" 的报错

通过上面的试验我们可以看到当服务器负载过高就会触发过载保护,从而避免连锁故障导致雪崩,接下来我们从源码来分析下过载保护的原理,go-zero在http和rpc框架中都内置了过载保护功能,代码路径分别在go-zero/rest/handler/sheddinghandler.go和go-zero/zrpc/internal/serverinterceptors/sheddinginterceptor.go下面,我们就以rpc下面的过载保护进行分析,在server启动的时候回new一个shedder 代码路径: go-zero/zrpc/server.go:119, 然后当收到每个请求都会通过Allow方法判断是否需要进行过载保护,如果err不等于nil说明需要过载保护则直接返回errorpromise, err = shedder.Allow()if err != nil {

metrics.AddDrop()

sheddingStat.IncrementDrop()  return}复制代码

实现过载保护的代码路径为: go-zero/core/load/adaptiveshedder.go,这里实现的过载保护基于滑动窗口可以防止毛刺,有冷却时间防止抖动,当CPU>90%的时候开始拒绝请求,Allow的实现如下func (as *adaptiveShedder) Allow() (Promise, error) {if as.shouldDrop() {

as.dropTime.Set(timex.Now())

as.droppedRecently.Set(true)return nil, ErrServiceOverloaded  // 返回过载错误

}

as.addFlying(1) // flying +1

return &promise{

start:   timex.Now(),

shedder: as,

}, nil}复制代码

sholdDrop实现如下,该函数用来检测是否符合触发过载保护条件,如果符合的话会记录error日志func (as *adaptiveShedder) shouldDrop() bool {if as.systemOverloaded() || as.stillHot() {if as.highThru() {

flying := atomic.LoadInt64(&as.flying)

as.avgFlyingLock.Lock()

avgFlying := as.avgFlying

as.avgFlyingLock.Unlock()

msg := fmt.Sprintf("dropreq, cpu: %d, maxPass: %d, minRt: %.2f, hot: %t, flying: %d, avgFlying: %.2f",

stat.CpuUsage(), as.maxPass(), as.minRt(), as.stillHot(), flying, avgFlying)

logx.Error(msg)

stat.Report(msg)return true

}

}return false}复制代码

判断CPU是否达到预设值,默认90%systemOverloadChecker = func(cpuThreshold int64) bool {

return stat.CpuUsage() >= cpuThreshold

}复制代码

CPU的负载统计代码如下,每隔250ms会进行一次统计,每一分钟没记录一次统计日志func init() {go func() {

cpuTicker := time.NewTicker(cpuRefreshInterval)defer cpuTicker.Stop()

allTicker := time.NewTicker(allRefreshInterval)defer allTicker.Stop()for {select {case

threading.RunSafe(func() {

curUsage := internal.RefreshCpu()

prevUsage := atomic.LoadInt64(&cpuUsage)// cpu = cpuᵗ⁻¹ * beta + cpuᵗ * (1 - beta)

usage := int64(float64(prevUsage)*beta + float64(curUsage)*(1-beta))

atomic.StoreInt64(&cpuUsage, usage)

})case

printUsage()

}

}

}()

}复制代码

其中CPU统计实现的代码路径为: go-zero/core/stat/internal,在该路径下使用linux结尾的文件,因为在go语言中会根据不同的系统编译不同的文件,当为linux系统时会编译以linux为后缀的文件func init() {

cpus, err := perCpuUsage()if err != nil {

logx.Error(err)return

}

cores = uint64(len(cpus))

sets, err := cpuSets()if err != nil {

logx.Error(err)return

}

quota = float64(len(sets))

cq, err := cpuQuota()if err == nil {if cq != -1 {

period, err := cpuPeriod()if err != nil {

logx.Error(err)return

}

limit := float64(cq) / float64(period)if limit

quota = limit

}

}

}

preSystem, err = systemCpuUsage()if err != nil {

logx.Error(err)return

}

preTotal, err = totalCpuUsage()if err != nil {

logx.Error(err)return

}

}复制代码

在linux中,通过/proc虚拟文件系统向用户控件提供了系统内部状态的信息,而/proc/stat提供的就是系统的CPU等的任务统计信息,这里主要原理就是通过/proc/stat来计算CPU的使用率

本文主要介绍了过载保护的原理,以及通过实验触发了过载保护,最后分析了实现过载保护功能的代码,相信通过本文大家对过载保护会有进一步的认识,过载保护不是万金油,对服务来说是有损的,所以在服务上线前我们最好是进行压测做好资源规划,尽量避免服务过载

作者:Kevin Wan

java过载保护_微服务过载保护原理与实战「纯干货」相关推荐

  1. 管理java版本号_微服务项目中如何管理依赖版本号?

    本文是微服务项目代码组织形式三部曲中的第三篇,也是最后一篇,通过这三篇文章,相信大家对于如果组织微服务中的代码已经有了一个基本认知,前面两篇分别是: 微服务项目搭建,到底要不要聚合工程? 在微服务项目 ...

  2. 【字节青训营】微服务架构原理核心服务治理与具体实践

    1.微服务架构介绍 1.1系统架构的演进历史 1.单体架构 2.垂直应用架构 按照业务线垂直划分 3.分布式架构 抽出与业务无关的公共模块 4.SOA架构 面向服务 5.微服务架构 彻底的服务化 5. ...

  3. 微服务笔记:第一章_微服务简介|Eureka注册中心|Nacos注册中心|Nacos配置管理|Feign|Gateway服务网关

    微服务笔记:第一章_微服务简介|Eureka注册中心|Nacos注册中心|Nacos配置管理|Feign|Gateway服务网关 1. 微服务简介 1.1 服务架构演变 1.2 SpringCloud ...

  4. docker容器 eureka 集成_微服务:基于 Docker 的微服务架构之分布式企业级实践参考...

    编者按:本文分享自CSDN技术博客,作者为 FlyWine,所有权归原著者.若有不妥,联系本头条号以做必要处理. 目录 Microservice 和 Docker 服务发现模式 客户端发现模式 Net ...

  5. 微服务升级优点_微服务–——定义, 原则 和 优点

    微服务是业界最新的流行语,似乎每个人都在以这样或那样的方式谈论它.让我们理解一下什么是微服务?通过这篇教程我们将理解微服务的定义,概念以及微服务的原理. 微服务的定义 如今,微服务是SOA(面向服务的 ...

  6. python微服务架构设计模式_微服务架构设计模式 PDF 电子书 百度云 网盘下载

    你还没有注册,无法下载本站所有资源,请立即注册! 您需要 登录 才可以下载或查看,没有帐号?立即注册 x java自学网(http://www.137zw.com)-java论坛,java电子书推荐: ...

  7. Spring Cloud 与微服务学习总结(14)—— 云原生时代,如何从 Java 开发者转型微服务?

    前言 根据维基百科定义,微服务不是整体应用程序中的一个层.相反,微服务是一个独立的业务功能,具有清晰的接口,并且可以通过内部组件实现分层架构.从战略角度来看,微服务架构基本上遵循"做一件事, ...

  8. 秒杀springboot——未来轻量级高性能的Java云原生微服务框架来啦

    秒杀springboot--未来轻量级高性能的Java云原生微服务框架来啦 引子 自2003年Rod.Juergen 和 Yann开发并发布Spring项目后,J2EE 迎来了新的开始.在 2013 ...

  9. java计算机毕业设计微服务”架构下新闻头条的设计与实现源码+系统+数据库+lw文档

    java计算机毕业设计微服务"架构下新闻头条的设计与实现源码+系统+数据库+lw文档 java计算机毕业设计微服务"架构下新闻头条的设计与实现源码+系统+数据库+lw文档 本源码技 ...

  10. 13 年 Java 老兵的微服务战地笔记 | 文末有1元福利

    * 文末有仅限 24 小时的 1 元福利,错过别怪我!!! 微服务在业内的实践已经从流行走向成熟,诸多公司(比如 Amazon.Netflix.蚂蚁金服.网易云音乐等)都已经迁移并采用了微服务架构.而 ...

最新文章

  1. anaconda下配置R子环境并配置jupyter notebook的R Kernel
  2. ETH Zurich提出新型网络「ROAD-Net」,解决语义分割域适配问题
  3. 爬取某一微博用户所有文本文件或者是视频图片文件
  4. Oracle序列的建立以及使用
  5. html异形轮播,异形滚动
  6. 一加到1亿。C语言_可能是今年最难选的2部手机:小米10详细对比一加8T
  7. 2020年中国在线少儿英语培训市场研究报告
  8. php二维数组排序方法(array_multisort usort)
  9. iconfont矢量 在已经有的情况下新增图标
  10. 单链表实现反转的三种方法
  11. 宝塔面板 php关闭拓展,宝塔Linux面板中PHP如何安装扩展及禁用函数?
  12. python数据分析论文结构_基于python数据挖掘论文_数据挖掘期末论文
  13. 【量化笔记】股票收益率与风险计算
  14. 现代通用计算机析雏形,计算机作业一、选择题 1.______B______是现代通用计算机的雏形。 A. 宾州大学于1946年2月研制成功的E...
  15. c语言求绝对值作业,C语言求绝对值
  16. Excise_day05_Array
  17. 只用 Markdown 就写出好看的简历,在线简历应用闪亮登场!
  18. element-ui图标不显示问题(已解决)
  19. max导出fbx动画模型导入unity后播放会出现局部模型扭曲解决办法总结
  20. 竖子不足与谋(转自天下三国)

热门文章

  1. 如何让chrome浏览器不弹出记住密码且不填充用户名和密码
  2. python去除图片复杂背景_用Python去除图像的黑色或白色背景实例
  3. php解密方法,php加密解密的几种方法的使用教程
  4. 稳压管和TVS管的工作原理
  5. 电脑版的微信怎么打开连接到服务器地址,电脑端浏览器打开微信限制页面的方法...
  6. timeroc 最优最佳截断值特异度(specificity)与灵敏度(sensitivity)
  7. 维基百科中文语料分析(附实际评论案例)
  8. 产品数据管理(PDM)技术概述
  9. 学不会PDF裁剪与PDF拆分?6个方法包你轻松学会
  10. Matlab GUI的数据传递——运用GUI本身的varargin和varargout传递参数