深入理解Eureka 自我保护机制(五)
对自我保护的理解:
自我保护的作用是保证服务的稳定性,也就是怕过多的服务心跳失败,是Eureka服务端的问题,而不是客户端的问题,所以为了避免将正常的服务剔除,所以加了保护机制,当然保护机制的话也有可能将已经宕掉的服务还保存着。
自我保护的原理:每个客户端会每30秒向服务端发送一次心跳,所以一分钟一个服务会发送两次,所以当服务 ,当服务的个数是count,那么expectedNumberOfRenewsPerMin = count*2;还有一个最小续约次数,numberOfRenewsPerMinThreshold : 每分钟最小续约数量, 使用expectedNumberOfRenewsPerMin * serverConfig.getRenewalPercentThreshold()。
serverConfig.getRenewalPercentThreshold()的默认值为0.85 , 也就是说每分钟的续约数量要大于85% 。当服务端开启自我保护机制的时候,清除定时任务进行服务清除的时候就不会再清除那些没有进行心跳续约的服务。其中有一个定时任务每15分钟会重新更新一下expectedNumberOfRenewsPerMin和numberOfRenewsPerMinThreshold。
Eureka的自我保护机制,都是围绕这两个变量来实现的, 如果每分钟的续约数量小于numberOfRenewsPerMinThreshold , 就会开启自动保护机制。
今天在公交车上思考了一个问题,就是为什么说每15分钟之内,服务不可用的概率达到了85%后,就会开启保护机制,其中这个85%很好理解,但是不好理解的是15分钟,因为在看源码的时候,服务端是每一分钟就会扫描一次服务列表的,当这一分钟之内的心跳续约次数小于最小续约次数的时候,就会开启自我保护机制,那为什么不说一分钟之内,服务不可用的概率达到了85%就开启保护机制呢?我这里可能有点钻牛角尖了。我觉得是这样的是服务端在做服务剔除续约失败的时候,是没有去更新expectedNumberOfRenewsPerMin这个值的,而expectedNumberOfRenewsPerMin这个值总体更新是在15分钟的这个定时任务里面更新的,在15分钟的这个定时任务里面会去重新获取可用的服务数量count,然后用expectedNumberOfRenewsPerMin=count*2;为什么说在15分钟之内是整体更新expectedNumberOfRenewsPerMin,因为在服务注册或者服务下架的时候虽然也会对expectedNumberOfRenewsPerMin更新,但是这个服务的实际心跳数量也会得到更新。但要是服务过期被服务端剔除的话expectedNumberOfRenewsPerMin这个值是没有得到更新的,所以在实际心跳减少,而expectedNumberOfRenewsPerMin不减少的情况下,服务保护会一直开启。然后15分钟后更新expectedNumberOfRenewsPerMin这个,才会从服务整体重新判断服务是否开启。虽然每分钟都在判断是否开启自我保护机制,但是只有15分钟才算真正的重新计算自我保护机制的阀值。
举个例子说明一下。
有100台服务,过期概率的判断还是85%,还是每分钟续约2次;
那么expectedNumberOfRenewsPerMin = 100*2=200;numberOfRenewsPerMinThreshold=200*85%=170
也就是当有15台服务挂掉的时候,就会开启保护机制,当这里面有服务主动下线或者服务注册的时候会对expectedNumberOfRenewsPerMin进行更新,这个不会影响服务的自我保护机制,但是当服务过期的时候,服务的实际续约心跳会减少,但是判断的expectedNumberOfRenewsPerMin这个值不会减少。假设在15分钟只内有20台服务心跳续约失败,这个时候会从服务列表中剔除15台,然后还有5台是不可用的等待下一个十五分钟再来剔除,等到下一个十五分钟就会重新获取可用的服务个数count值,那么这个count=80,expectedNumberOfRenewsPerMin=160。
众所周
为什么要有自我保护机制
众所周知,Eureka在CAP理论当中是属于AP , 也就说当产生网络分区时,Eureka保证系统的可用性,但
不保证系统里面数据的一致性, 举个例子。
当发生网络分区的时候,Eureka-Server和client端的通信被终止,server端收不到大部分的client的续约,这个
时候,如果直接将没有收到心跳的client端自动剔除,那么会将可用的client端剔除,这不符合AP理论,所以Eureka
宁可保留也许已经宕机了的client端 , 也不愿意将可以用的client端一起剔除。 从这一点上,也就保证了Eureka程序
的健壮性,符合AP理论
重要变量
this.expectedNumberOfRenewsPerMin = count * 2;
this.numberOfRenewsPerMinThreshold =(int) (this.expectedNumberOfRenewsPerMin * serverConfig.getRenewalPercentThreshold());
expectedNumberOfRenewsPerMin :每分钟最大的续约数量,由于客户端是每30秒续约一次,一分钟就是续约2次, count代表的是客户端数量
所以这个变量的计算公式 : 客户端数量*2
numberOfRenewsPerMinThreshold : 每分钟最小续约数量, 使用expectedNumberOfRenewsPerMin * serverConfig.getRenewalPercentThreshold()。
serverConfig.getRenewalPercentThreshold()的默认值为0.85 , 也就是说每分钟的续约数量要大于85% 。
Eureka的自我保护机制,都是围绕这两个变量来实现的, 如果每分钟的续约数量小于numberOfRenewsPerMinThreshold , 就会开启自动保护机制。
在此期间,不会再主动剔除任何一个客户端。
变量更新
Eureka-Server初始化,cancle主动下线, 客户端注册 ,定时器, 这四个场景会更新这两个变量
Eureka-Server初始化
protected void initEurekaServerContext() throws Exception {// ....省略N多代码// 服务刚刚启动的时候,去其他服务节点同步客户端的数量。int registryCount = this.registry.syncUp();// 这个方法里面计算expectedNumberOfRenewsPerMin的值this.registry.openForTraffic(this.applicationInfoManager, registryCount);// Register all monitoring statistics.EurekaMonitors.registerAllStats();
}this.registry.openForTraffic(this.applicationInfoManager, registryCount);@Override
public void openForTraffic(ApplicationInfoManager applicationInfoManager, int count) {// 此处初始化值,客户端数量*2 this.expectedNumberOfRenewsPerMin = count * 2;// serverConfig.getRenewalPercentThreshold() 默认为0.85this.numberOfRenewsPerMinThreshold =(int) (this.expectedNumberOfRenewsPerMin * serverConfig.getRenewalPercentThreshold());// ...省略N多代码// 开启定时清理过期客户端的定时器super.postInit();
}
cancle主动下线
@Override
public boolean cancel(final String appName, final String id,final boolean isReplication) {if (super.cancel(appName, id, isReplication)) {replicateToPeers(Action.Cancel, appName, id, null, null, isReplication);synchronized (lock) {if (this.expectedNumberOfRenewsPerMin > 0) {// 重点在这里,,,,,主动下线的时候,需要去更新每分钟最大续约数,// 一个客户端的每30秒续约一次,一分钟就是续约两次,所以需要减2.this.expectedNumberOfRenewsPerMin = this.expectedNumberOfRenewsPerMin - 2;this.numberOfRenewsPerMinThreshold =(int) (this.expectedNumberOfRenewsPerMin * serverConfig.getRenewalPercentThreshold());}}return true;}return false;
}
客户端注册
public void register(InstanceInfo registrant, int leaseDuration, boolean isReplication) {try {read.lock();// ....省略 N多代码if (existingLease != null && (existingLease.getHolder() != null)) {// ....省略 N多代码} else {synchronized (lock) {if (this.expectedNumberOfRenewsPerMin > 0) {// 重点在这里, 注册一个客户端,一个客户端每分钟需要两次续约,所以这里加2 this.expectedNumberOfRenewsPerMin = this.expectedNumberOfRenewsPerMin + 2;this.numberOfRenewsPerMinThreshold =(int) (this.expectedNumberOfRenewsPerMin * serverConfig.getRenewalPercentThreshold());}}logger.debug("No previous lease information found; it is new registration");}// ....省略 N多代码} finally {read.unlock();}
}
定时器
在Eureka-Server启动的时候,会进行初始化,执行路径如下:
DefaultEurekaServerContext 》@PostConstruct修饰的initialize()方法》init()
@Override
public void init(PeerEurekaNodes peerEurekaNodes) throws Exception {// .... 省略N多代码// 启动定时器scheduleRenewalThresholdUpdateTask();// .... 省略N多代码
}private void scheduleRenewalThresholdUpdateTask() {timer.schedule(new TimerTask() {@Overridepublic void run() {updateRenewalThreshold();}}, serverConfig.getRenewalThresholdUpdateIntervalMs(),serverConfig.getRenewalThresholdUpdateIntervalMs());
}private void updateRenewalThreshold() {try {Applications apps = eurekaClient.getApplications();// 计算有效的应用实例数量int count = 0;for (Application app : apps.getRegisteredApplications()) {for (InstanceInfo instance : app.getInstances()) {if (this.isRegisterable(instance)) {++count;}}}synchronized (lock) {// 重新计算值if ((count * 2) > (serverConfig.getRenewalPercentThreshold() * numberOfRenewsPerMinThreshold)|| (!this.isSelfPreservationModeEnabled())) {this.expectedNumberOfRenewsPerMin = count * 2;this.numberOfRenewsPerMinThreshold = (int) ((count * 2) * serverConfig.getRenewalPercentThreshold());}}logger.info("Current renewal threshold is : {}", numberOfRenewsPerMinThreshold);} catch (Throwable e) {logger.error("Cannot update renewal threshold", e);}
}
renewalThresholdUpdateIntervalMs : 默认为15分钟
serverConfig.getRenewalPercentThreshold() * numberOfRenewsPerMinThreshold 这个地方有个这个比较,当前最小续约数0.85 , 然后呢,count2 要大于他,这个意思,主要是为了防止开启自我保护机制之后,被定时器重新计算了expectedNumberOfRenewsPerMin 和numberOfRenewsPerMinThreshold 的值
自我保护机制
开启
定期清理任务的线程最终执行的是这个方法,这里就直接开始讲
public void evict(long additionalLeaseMs) {logger.debug("Running the evict task");// 是否需要开启自我保护机制,如果需要,那么直接RETURE, 不需要继续往下执行了if (!isLeaseExpirationEnabled()) {logger.debug("DS: lease expiration is currently disabled.");return;}// ..... 省略N多代码,。这下面主要是做服务自动下线的操作的}@Override
public boolean isLeaseExpirationEnabled() {// 是否开启自我保护机制,这是个配置,默认为trueif (!isSelfPreservationModeEnabled()) {return true;}// 计算是否需要自我保护return numberOfRenewsPerMinThreshold > 0 && getNumOfRenewsInLastMin() > numberOfRenewsPerMinThreshold;
}
从上面可以导,判断是否开启自我保护机制,主要在于计算每分钟最小续约数的值, getNumOfRenewInLastMin()这个获取的
是每分钟的续约数量(每个客户端来续约的时候,都是会更新这个值得,每分钟重置一次,有线程去跑的), 如果每分钟的
续约数量>最小续约数,则不需要开启自我保护机制, 如果是小于,那么就是需要开启, 所以当返回false的时候,就需要开启
自我保护机制了。
PS: 其实说白了,自我保护机制,就是在定时任务执行之前,判断每分钟的续约数量,然后决定是否继续执行下去。
因此Eureka Server的过期时间(默认60s) ,客户端的续约时间(默认30s) , 这个配置最好不要更改,如果更改的话
就会打破自我保护机制的规则。
解除
1.当服务的网络分区解除之后,客户端能够和服务进行交互时,在续约的时候,更新每分钟的续约数,当每分钟的续约数大于
85%时,则自动解除。
2.重启服务
作者:sharedCode
链接:https://www.jianshu.com/p/2d7a10d70efb
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
深入理解Eureka 自我保护机制(五)相关推荐
- eureka:自我保护机制_对自我怀疑的开发人员:您足够好吗?
eureka:自我保护机制 by Sihui Huang 黄思慧 对自我怀疑的开发人员:您足够好吗? (To self-doubting developers: are you good enough ...
- eureka自我保护时间_Spring Cloud Eureka 自我保护机制
自我保护出现 首先对Eureka注册中心需要了解的是Eureka各个节点都是平等的,没有ZK中角色的概念, 即使N-1个节点挂掉也不会影响其他节点的正常运行. 默认情况下,如果Eureka Serve ...
- Spring Cloud Eureka 自我保护机制
Spring Cloud Eureka 自我保护机制 Eureka Server 在运行期间会去统计心跳失败比例在 15 分钟之内是否低于 85%,如果低于 85%,Eureka Server 会将这 ...
- eureka自我保护时间_SpringCloud Eureka自我保护机制
自我保护背景 首先对Eureka注册中心需要了解的是Eureka各个节点都是平等的,没有ZK中角色的概念, 即使N-1个节点挂掉也不会影响其他节点的正常运行. 默认情况下,如果Eureka Serve ...
- SpringCloud Eureka自我保护机制
转载自 SpringCloud Eureka自我保护机制 自我保护背景 首先对Eureka注册中心需要了解的是Eureka各个节点都是平等的,没有ZK中角色的概念, 即使N-1个节点挂掉也不会影响其他 ...
- SpringCloud Eureka自我保护机制介绍及配置
概述:谈到Eureka的自我保护机制时,我们需要知道其中一些客户端和服务端的概念.比如客户端的心跳发送时间间隔.服务续约时间:服务端的服务剔除时间间隔.阈值更新时间间隔. 客户端心跳发送时间间隔(eu ...
- Eureka自我保护机制
本文来说下Eureka自我保护机制 文章目录 为什么要有自我保护机制 重要变量 变量更新 Eureka-Server初始化 cancle主动下线 客户端注册 定时器 自我保护机制 开启 解除 本文小结 ...
- Spring Cloud Eureka 自我保护机制(EMERGENCY! EUREKA MAY BE INCORRECTLY CLAIMING INSTANCES ARE UP WHEN THEY)
在本地启动一个Euraka-Server服务(服务注册中心)和一个Euraka-Client服务(服务注册者-应用服务)两个服务.过了一会儿后,在Euraka-Server界面显示:EMERGENCY ...
- 天荒地老修仙功-第六部第二篇:Spring Cloud Eureka自我保护机制
Eureka Server 在运行期间会去统计心跳失败比例在 15 分钟之内是否低于 85%,如果低于 85%,Eureka Server 会将这些实例保护起来,让这些实例不会过期,但是在保护期内如果 ...
最新文章
- python学习笔记011——内置函数__module__、__name__
- Android实战技巧之十一:Android Studio和Gradle
- mysql 字符串的处理
- MySQL(五)汇总和分组数据
- 脉冲多普勒雷达_是人类还是动物? 多普勒脉冲雷达和神经网络的目标分类
- 在UnitTest中读取*.config文件的郁闷
- 【java机器学习】svm入门十讲
- 商汤春招特别策划-春招百晓生系列空宣第2期,助你收获心动的offer
- ib_logfile和mysql_bin_mysql的innodb中事务日志ib_logfile
- Pthon入门--range()函数
- mysql的engine不同,导致事物回滚失败的问题
- 中国管道内检测市场现状调研与投资预测分析报告2022-2028年
- 路由器dhcp服务异常不能上网_关闭DHCP服务后,路由器不能上网怎么办?
- 如何理解“方差越大信息量就越多”
- 推荐10个国外的开源免费的.NET CMS系统
- JS-表格行的动态删除和添加(insertRow deleteRow)
- java.time.format.DateTimeParseException: Text ‘xxxx-xx-xx xx:xx:xx‘ could not be parsed at index 10
- 实用必备:可以迅速让你出口成章的英语短语
- 抖音seo矩阵系统,抖音矩阵系统源码怎么搭建?
- Linux磁盘分区与LVM详解