..
声明:
本博客欢迎转发,但请保留原作者信息!
博客地址:http://blog.csdn.net/halcyonbaby
新浪微博:@寻觅神迹

内容系本人学习、研究和总结,如有雷同,实属荣幸!


公有云上虚拟机故障恢复

AWS

亚马逊目前提供了两种状态检查,状态检查每分钟机进行 一次。
系统状态检查失败,可以等AWS解决问题,也可以自己来解决(停止然后启动实例)。
实例状态检查失败,一般需要用户自己来解决。

“状态检查的类型

状态检查可分为两种类型:系统状态检查和实例状态检查。

系统状态检查

监控使用您的实例所需的 AWS 系统,以确保这些系统正常工作。这些检查会检测出需要 AWS 参与修复的实例问题。如果系统状态检查失败,您可以等待 AWS 修复问题,也可自行解决问题(例如,停止并启动实例,或终止并替换实例)。

以下是可能导致系统状态检查失败的问题的示例:

网络连接丢失
系统电源损耗
物理主机上的软件问题
物理主机上的硬件问题
实例状态检查

监控您的各个实例的软件和网络配置。这些检查检测需需要您参与修复的问题。如果实例状态检查失败,一般需要您自行解决问题(例如,重启实例或更改实例配置)。

以下是可能导致实例状态检查失败的问题的示例:

系统状态检查故障
网络或启动配置不正确
内存耗尽
文件系统损坏
内核不兼容

参考亚马逊文档(https://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html)。

针对该StatusCheckFailed_System故障警报,用户可以在设置自动恢复操作。
这种故障处理不能对本地存储实例、和GPU实例(I、D、G类型)使用。

“对实例恢复故障进行排除故障

以下问题可能会导致实例自动恢复失败:

替换硬件的临时容量不足。
该实例有一个附加实例存储,而自动实例恢复不支持该配置。
一项进行中的服务运行状况仪表板事件使恢复过程无法成功执行。有关服务可用性的最新信息,请参阅 http://status.aws.amazon.com。
该实例已达到每天最多三次的恢复尝试操作限制。
自动恢复过程每天最多针对三个不同的故障尝试恢复您的实例。如果实例系统状态检查故障仍然存在,建议您手动启动和停止实例。有关更多信息,请参阅 停止和启动您的实例。

如果自动恢复失败,并且确定硬件性能下降是初始系统状态检查失败的根本原因,那么您的实例随后可能会被停用。”

参考亚马逊文档(http://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/TroubleshootingInstanceRecovery.html),
自动恢复每天最多进行三次,并且如果用户实例是导致问题的原因,实例可能被随时停止。

GCE

GCE主要对两类事件进行处理:
+ onHostMaintenance(主要是维护事件的应对)
+ migrate(默认)
+ terminate
+ automaticRestart(主要是虚拟机异常crash或者Google Engine关闭)
+ true(默认)
+ false

对维护事件,默认会进行热迁移,用户也可以选择处理是关闭。
对虚拟机异常crash、或者google engine关闭虚拟机(非用户进行的关闭),默认处理为restart。用户也可以选择为不处理。

用户可以通过console、API、cmd对如上策略进行设置。

参考:
https://cloud.google.com/compute/docs/reference/latest/instances/setScheduling
https://cloud.google.com/compute/docs/instances/setting-instance-scheduling-options
https://cloud.google.com/compute/docs/tutorials/robustsystems

阿里云

“什么是宕机迁移,如何避免因为宕机迁移导致的服务不可用
云服务器是部署在物理机上的,底层物理机性能出现异常或者其他原因都会导致物理机宕机,当检测到云服务器所在的物理机机发生故障,系统会启动保护性迁移,将您的服务器迁移到性能正常的宿主机上 ,一旦发生宕机迁移,您的服务器就会被重启,如果您希望您的服务器重启以后应用服务器自动恢复,需要您把应用程序设置成开机自动启动,如果应用服务连接的数据库,需要在程序中设置成自动重连机制。”

阿里云对故障的处理是,通过阿里云进行虚拟机自动HA处理。
将故障节点上的虚拟机重新拉起。(这里应该是只对节点故障进行自动恢复。我手工试了下,从虚拟机内部触发crash,阿里云不会
将虚拟机恢复)

目前阿里云的监控,并未提供监控事件定制故障处理。

公有云上虚拟机故障恢复相关推荐

  1. Elasticsearch-31.在私有云上管理Elasticsearch 的一-些方法 he 在公有云上管理与部署Elasticsearch

    Elasticsearch 在私有云上管理Elasticsearch 的一-些方法 管理单个集群 ECE,帮助你管理多个Elasticsearch 集群 基于Kubernetes的方案 Kuberne ...

  2. 比较MongoDB在公有云上的性能:AWS、Azure和Digital Ocean

    比较MongoDB在公有云上的性能:AWS.Azure和Digital Ocean 英文原文: http://blog.mongodirector.com/comparing-mongodb-perf ...

  3. 5G 行业专网 — 公有云上的 5G 专网

    目录 文章目录 目录 公有云上的 5G 专网趋势 常规专网模式 与公有云协同/竞争的专网模式 Azure Operators(即是云厂商,又是电信设备商) Azure 的 5G 网络方案 Azure ...

  4. 部署到gcp_将S/4部署在“大型公有云”上

    作者:Rami Kandimalla 翻译:大话君 本文根据公开资料整理,不代表SAP官方 本文的目的是解释将SAP S/4HANA部署在大型公有云上时,所涉及的SAP解决方案和技术架构. 什么是&q ...

  5. 公有云上基于微服务架构SAAS产品研发实践「活动通知」

    公有云SAAS产品不同于传统的软件包产品,我们不仅需要负责软件的研发,同时需要负责产品的运维,面对众多用户,需要保障产品7X24不间断运行:客户业务是不断变化的,产品需要在持续运行过程中进行持续升级, ...

  6. TiDB 在 UCloud 公有云上的实践

    原文来源: https://tidb.net/blog/c911abce 本文系上海 TUG 活动 "TiDB + Cloud" 实录整理,作者:UCloud 资深研发工程师 常彦 ...

  7. 在IBM公有云上平台随心所欲的构建GPU虚拟服务器

    如何在IBM Cloud上使用物理机自建带GPU的虚拟机 最近准备使用GPU的计算资源,听说IBM云平台上的裸机服务器性能不错,于是在IBM公有云平台上注册了一个账号(账号注册还是比较简单的,三步搞定 ...

  8. oracle数据库在公有云上,【云端起舞】在Oracle公有云上创建克隆数据库

    编辑手记:云端起舞也要脚踏实地,Oracle全面向云,将会演绎怎样的精彩,海外专家伴你踏上云端之旅. 系列文章回顾:1.Configure and Practice Backup and Recove ...

  9. Oracle公有云上的ADG配置(单实例)

    概述 本文描述在OCI上搭建的标准ADG上的配置,以促进对概念的理解. 此ADG配置中,主备数据库均为单实例.主机名分别为db01和db02.数据库名为CDB.主库的DB_UNIQUE_NAME为ch ...

最新文章

  1. java获得项目绝对路径
  2. putty完全使用手册--多窗口---git提交---连接数据库--自动日志显示
  3. HALCON从像素坐标得到世界坐标
  4. [转]ASP.Net缓存总结
  5. 从Java多线程可见性谈Happens-Before原则
  6. SAP Batch表MCH1和MCHA的差别?
  7. EF调用存储过程实现分页
  8. Stimulsoft reports .net中创建变量
  9. 7-2 多项式求和 (10 分)
  10. word 编辑域中的汉字_Word中根号2、根号3怎么打?
  11. 用 Flutter 写一个精美的登录页面(最新版)
  12. 【三维路径规划】基于matlab麻雀算法求解无人机三维路径规划问题【含Matlab源码 212期】
  13. 算法:获取链表的中间值Middle of the Linked List
  14. HTML学生网页设计作业源码~开心旅游网站设计与实现(HTML期末大作业)
  15. (附源码)ssm网上零食销售系统 毕业设计 180826
  16. 数据可视化大屏_大数据可视化应用典型案例
  17. box-sizing
  18. 向量叉积和点积混合运算_向量点积与叉积的意义
  19. 35岁是个坎,为啥到岁数就不想要你了
  20. win10 屏幕保护时间到了不触发_你真的了解Win10么?网友教你玩转Win10!

热门文章

  1. selenium高级自动化编程
  2. 苹果手机如何投屏到电视机?新手一看就懂教程
  3. 键盘事件和keycode对照表
  4. 算法笔记_227:填写乘法算式(Java)
  5. 【转载】透视“专利恶霸”系列之二 蜕变后的苹果有了新玩法
  6. git拉取指定分支上面的代码 提交本地分支到远程
  7. camera知识储备2
  8. 【backtrader保姆级教学】日内区间突破型策略
  9. TrueLicense实现产品License验证
  10. 模型驱动架构(MDA,Model Driven Architecture)浅述