公有云上虚拟机故障恢复
..
声明:
本博客欢迎转发,但请保留原作者信息!
博客地址:http://blog.csdn.net/halcyonbaby
新浪微博:@寻觅神迹
内容系本人学习、研究和总结,如有雷同,实属荣幸!
公有云上虚拟机故障恢复
AWS
亚马逊目前提供了两种状态检查,状态检查每分钟机进行 一次。
系统状态检查失败,可以等AWS解决问题,也可以自己来解决(停止然后启动实例)。
实例状态检查失败,一般需要用户自己来解决。
“状态检查的类型
状态检查可分为两种类型:系统状态检查和实例状态检查。
系统状态检查
监控使用您的实例所需的 AWS 系统,以确保这些系统正常工作。这些检查会检测出需要 AWS 参与修复的实例问题。如果系统状态检查失败,您可以等待 AWS 修复问题,也可自行解决问题(例如,停止并启动实例,或终止并替换实例)。
以下是可能导致系统状态检查失败的问题的示例:
网络连接丢失
系统电源损耗
物理主机上的软件问题
物理主机上的硬件问题
实例状态检查监控您的各个实例的软件和网络配置。这些检查检测需需要您参与修复的问题。如果实例状态检查失败,一般需要您自行解决问题(例如,重启实例或更改实例配置)。
以下是可能导致实例状态检查失败的问题的示例:
系统状态检查故障
网络或启动配置不正确
内存耗尽
文件系统损坏
内核不兼容
“
参考亚马逊文档(https://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html)。
针对该StatusCheckFailed_System故障警报,用户可以在设置自动恢复操作。
这种故障处理不能对本地存储实例、和GPU实例(I、D、G类型)使用。
“对实例恢复故障进行排除故障
以下问题可能会导致实例自动恢复失败:
替换硬件的临时容量不足。
该实例有一个附加实例存储,而自动实例恢复不支持该配置。
一项进行中的服务运行状况仪表板事件使恢复过程无法成功执行。有关服务可用性的最新信息,请参阅 http://status.aws.amazon.com。
该实例已达到每天最多三次的恢复尝试操作限制。
自动恢复过程每天最多针对三个不同的故障尝试恢复您的实例。如果实例系统状态检查故障仍然存在,建议您手动启动和停止实例。有关更多信息,请参阅 停止和启动您的实例。如果自动恢复失败,并且确定硬件性能下降是初始系统状态检查失败的根本原因,那么您的实例随后可能会被停用。”
参考亚马逊文档(http://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/TroubleshootingInstanceRecovery.html),
自动恢复每天最多进行三次,并且如果用户实例是导致问题的原因,实例可能被随时停止。
GCE
GCE主要对两类事件进行处理:
+ onHostMaintenance(主要是维护事件的应对)
+ migrate(默认)
+ terminate
+ automaticRestart(主要是虚拟机异常crash或者Google Engine关闭)
+ true(默认)
+ false
对维护事件,默认会进行热迁移,用户也可以选择处理是关闭。
对虚拟机异常crash、或者google engine关闭虚拟机(非用户进行的关闭),默认处理为restart。用户也可以选择为不处理。
用户可以通过console、API、cmd对如上策略进行设置。
参考:
https://cloud.google.com/compute/docs/reference/latest/instances/setScheduling
https://cloud.google.com/compute/docs/instances/setting-instance-scheduling-options
https://cloud.google.com/compute/docs/tutorials/robustsystems
阿里云
“什么是宕机迁移,如何避免因为宕机迁移导致的服务不可用
云服务器是部署在物理机上的,底层物理机性能出现异常或者其他原因都会导致物理机宕机,当检测到云服务器所在的物理机机发生故障,系统会启动保护性迁移,将您的服务器迁移到性能正常的宿主机上 ,一旦发生宕机迁移,您的服务器就会被重启,如果您希望您的服务器重启以后应用服务器自动恢复,需要您把应用程序设置成开机自动启动,如果应用服务连接的数据库,需要在程序中设置成自动重连机制。”
阿里云对故障的处理是,通过阿里云进行虚拟机自动HA处理。
将故障节点上的虚拟机重新拉起。(这里应该是只对节点故障进行自动恢复。我手工试了下,从虚拟机内部触发crash,阿里云不会
将虚拟机恢复)
目前阿里云的监控,并未提供监控事件定制故障处理。
公有云上虚拟机故障恢复相关推荐
- Elasticsearch-31.在私有云上管理Elasticsearch 的一-些方法 he 在公有云上管理与部署Elasticsearch
Elasticsearch 在私有云上管理Elasticsearch 的一-些方法 管理单个集群 ECE,帮助你管理多个Elasticsearch 集群 基于Kubernetes的方案 Kuberne ...
- 比较MongoDB在公有云上的性能:AWS、Azure和Digital Ocean
比较MongoDB在公有云上的性能:AWS.Azure和Digital Ocean 英文原文: http://blog.mongodirector.com/comparing-mongodb-perf ...
- 5G 行业专网 — 公有云上的 5G 专网
目录 文章目录 目录 公有云上的 5G 专网趋势 常规专网模式 与公有云协同/竞争的专网模式 Azure Operators(即是云厂商,又是电信设备商) Azure 的 5G 网络方案 Azure ...
- 部署到gcp_将S/4部署在“大型公有云”上
作者:Rami Kandimalla 翻译:大话君 本文根据公开资料整理,不代表SAP官方 本文的目的是解释将SAP S/4HANA部署在大型公有云上时,所涉及的SAP解决方案和技术架构. 什么是&q ...
- 公有云上基于微服务架构SAAS产品研发实践「活动通知」
公有云SAAS产品不同于传统的软件包产品,我们不仅需要负责软件的研发,同时需要负责产品的运维,面对众多用户,需要保障产品7X24不间断运行:客户业务是不断变化的,产品需要在持续运行过程中进行持续升级, ...
- TiDB 在 UCloud 公有云上的实践
原文来源: https://tidb.net/blog/c911abce 本文系上海 TUG 活动 "TiDB + Cloud" 实录整理,作者:UCloud 资深研发工程师 常彦 ...
- 在IBM公有云上平台随心所欲的构建GPU虚拟服务器
如何在IBM Cloud上使用物理机自建带GPU的虚拟机 最近准备使用GPU的计算资源,听说IBM云平台上的裸机服务器性能不错,于是在IBM公有云平台上注册了一个账号(账号注册还是比较简单的,三步搞定 ...
- oracle数据库在公有云上,【云端起舞】在Oracle公有云上创建克隆数据库
编辑手记:云端起舞也要脚踏实地,Oracle全面向云,将会演绎怎样的精彩,海外专家伴你踏上云端之旅. 系列文章回顾:1.Configure and Practice Backup and Recove ...
- Oracle公有云上的ADG配置(单实例)
概述 本文描述在OCI上搭建的标准ADG上的配置,以促进对概念的理解. 此ADG配置中,主备数据库均为单实例.主机名分别为db01和db02.数据库名为CDB.主库的DB_UNIQUE_NAME为ch ...
最新文章
- java获得项目绝对路径
- putty完全使用手册--多窗口---git提交---连接数据库--自动日志显示
- HALCON从像素坐标得到世界坐标
- [转]ASP.Net缓存总结
- 从Java多线程可见性谈Happens-Before原则
- SAP Batch表MCH1和MCHA的差别?
- EF调用存储过程实现分页
- Stimulsoft reports .net中创建变量
- 7-2 多项式求和 (10 分)
- word 编辑域中的汉字_Word中根号2、根号3怎么打?
- 用 Flutter 写一个精美的登录页面(最新版)
- 【三维路径规划】基于matlab麻雀算法求解无人机三维路径规划问题【含Matlab源码 212期】
- 算法:获取链表的中间值Middle of the Linked List
- HTML学生网页设计作业源码~开心旅游网站设计与实现(HTML期末大作业)
- (附源码)ssm网上零食销售系统 毕业设计 180826
- 数据可视化大屏_大数据可视化应用典型案例
- box-sizing
- 向量叉积和点积混合运算_向量点积与叉积的意义
- 35岁是个坎,为啥到岁数就不想要你了
- win10 屏幕保护时间到了不触发_你真的了解Win10么?网友教你玩转Win10!