一、灾难复原(Disaster recovery)

业务连续性规划是为了在灾难面前保持企业的正常运转，但它们并不总是奏效。有时，连续性控制会失败，或者灾难的规模超过了组织继续运营的能力。这就是灾难复原开始的地方。灾难复原是业务连续性活动的一个子集，目的是在中断后尽快恢复企业的正常运作。 灾难复原计划可能包括让组织暂时恢复工作的即时措施，但在组织完全恢复正常之前，灾难复原工作并没有结束。

灾难复原计划可能是由环境性的自然灾害，如飓风，或人为的灾难，如勒索软件攻击所引发的：
灾难的来源可能是组织内部的，如数据中心故障，也可能是外部的，如公用事业停电。在任何情况下，组织必须迅速认识到这种情况并启动他们的灾难恢复计划。一旦灾难恢复计划被启动，紧急中断后的初步反应(Initial Response)的目的是在控制对组织的损害，并恢复可能立即恢复的能力。 初步反应期间的活动将根据灾难的性质而有所不同，它们可能包括启动一个备用的处理设施，控制物理损坏，或召集承包商开始应急反应。在灾难恢复工作中，大部分组织的重点从正常的商业活动转移到集中精力尽快恢复运营。从人员配置的角度来看，这意味着许多员工将从事临时性的工作，而这些工作可能与他们正常分配的职责完全不同。灵活性(Flexibility) 是灾难应对中的关键。沟通对于灾难恢复工作至关重要。响应者必须有安全可靠的机制来相互沟通，并与组织的领导沟通。

在组织的直接危险消除后，灾难恢复团队从即时反应模式转入评估模式。这个阶段的目标很简单，就是对组织的损失进行分流，并实施功能恢复计划，以永久恢复运营。在某些情况下，它也可能包括中间步骤，在通往永久恢复的过程暂时恢复业务。有一些指标可以用来帮助一个组织规划他们的灾难恢复工作。恢复时间目标(Recovery time objective)，即RTO，是指在中断后恢复服务运行所需的目标时间。组织也应该考虑到它需要恢复的数据量。恢复点目标(Recovery point objective)，即RPO，是指在灾难发生后，数据可能丢失的最大时间段。最后，恢复服务水平(Recovery service level)，即RSL，是指在灾难发生时必须可用的服务的百分比。例如，我们可以把我们网站的RSL设置为50%，认识到在灾难响应期间减少的能力是可以接受的。RTO、RPO和RSL一起为灾难恢复计划者提供了有价值的信息。在制定了一个计划后，响应者就会执行它，以一种有序的方式恢复运作。

需要注意的是，只有当组织在其主要操作环境中恢复正常操作时，灾难恢复工作才算结束。培训和宣传工作是该计划的关键组成部分。所有参与灾难恢复工作的人员都应该定期接受培训，了解他们在计划中的作用。

二、备份(Backups)

备份可能是任何灾难复原计划中最重要的组成部分，因为今天大多数企业都是围绕他们的数据建立的。无论是专有的产品设计，机密的客户名单，还是敏感信息的数据库，数据都是业务的动力。对于许多组织来说，完全失去他们的数据将是一个巨大的灾难。

备份为企业提供了一种安全的方式，在技术故障、人为错误、自然灾害或其他导致意外或故意删除或修改数据的情况下恢复其数据。组织可能以不同的方式备份他们的数据。最简单的方法可能是将文件从一个地方复制到另一个地方，但这是手工操作，容易出错。大多数组织使用更复杂的备份策略。

现代的备份方法通常使用替代性的存储(Alternative storage)，这些年来成本已经大大降低。例如，一些组织做磁盘到磁盘的备份(Disk-to-disk backups)，将数据从主磁盘写入为备份目的而设置的特殊磁盘。这些备份磁盘可能在一个单独的设施中，在那里，同样的物理灾难不太可能同时影响主站点和备份站点。发送到存储区域网络或网络附加存储的备份也属于这一类别。

备份的一个新趋势是将备份直接写入云计算供应商提供的存储中，如亚马逊网络服务、微软Azure或其竞争对手。这提供了极大的地理多样性，因为备份数据被存储在单独管理的设施中，而且云计算供应商通常对他们的系统进行自己的备份，为客户数据提供了一个额外的保护层。在进行备份时，有三种主要的备份类型，它们根据所包括的数据而有所不同。

完整备份(Full backups)，顾名思义，包括被备份介质上的所有数据。它们制作了一份完整的数据副本。快照是一种利用硬件平台的专门功能创建的完整备份形式。例如，虚拟化系统通常提供快照功能，使管理员能够快速创建一个备份磁盘图像；
差异备份(Differential Backup)是对完整备份的补充，它只创建一个自上一次完整备份以来发生变化的数据的副本；
增量备份(Incremental Backups)与差异备份类似，但有一个小的变化，增量备份只包括自最近一次全面或增量备份以来发生变化的文件。

一个运用三种不同备份的例子，乔是他公司的存储管理员，他每周日下午对系统进行一次全面备份。然后他在每个工作日的晚上执行差异备份。如果系统在星期五早上发生故障，需要哪些备份来恢复？首先，乔需要一个基础，所以他需要恢复周日晚上的最新完整备份。接下来，乔需要获得自周日以来发生变化的数据。因为Joe使用的是差异备份，每个差异备份都包含了自上次完整备份以来的所有数据变化，所以Joe只需要恢复最近的差异备份，即周四晚上的那个。如果我们把问题改一下，把乔的策略从每日差异备份换成每日增量备份呢？这下情况就不同了。增量备份比差异备份要小，它们只包含那些自最近一次完整或增量备份以来发生变化的文件。因此，Joe以同样的方式开始，恢复周日的完整备份。但随后他必须按该完整备份后发生的顺序应用每个增量备份。这意味着他必须应用星期一、星期二、星期三和星期四的增量备份。由于这个过程，从增量备份中恢复需要更长的时间，但权衡之下，增量备份比差异备份消耗的空间更少。

三、恢复备份(Restoring backups)

恢复备份比我们想象的更经常发生。当我们计划灾难恢复时，我们经常想象这样的情景：使用我们的备份意味着发生了一系列灾难性的事件，然后要从头开始重建我们的整个组织。现实情况是，我们恢复备份的最常见原因是为了纠正人为或技术错误。 备份在保护我们免受意外伤害方面发挥着重要的防故障作用，为恢复意外删除的文件、恢复崩溃的服务器和处理其他不幸的意外事件提供了一种手段。在更大的情况下，备份作为全面灾难恢复工作的一部分被恢复，我们需要在处理备份时事先进行一些规划。例如，我们可能有成千上万的服务器需要恢复，而且恢复的顺序可能相当重要。我们需要优先恢复最重要的服务，让关键的业务流程在不太重要的服务之前启动和运行。

备份还为我们提供了实现计算目标的手段，即非持久性(non-persistence)。这意味着我们创建备份的目标是保存我们的关键数据，但我们不一定要备份整个系统。例如，我们的组织中可能有许多不同的服务器上运行着Windows。备份数百个Windows操作系统的副本可能没有意义。相反，我们可以只备份使每台服务器独特的数据，然后使用基础设施作为代码的方法来重建失败的服务器，然后从备份中恢复它们的数据。我们也可以恢复系统，不一定要完全重建或恢复整个备份。例如，如果我们犯了一个配置错误，许多操作系统有功能允许我们恢复到一个已知的状态或最后已知的良好配置，以迅速纠正问题。

最后，如果我们试图恢复数据而但没有锁需要的备份，实时启动媒体(Live boot media)可能会派上用场。实时启动媒体通常存在于USB驱动器上，允许我们从存储在USB驱动器上的操作系统启动服务器或终端系统。一旦做到这一点，我们就可以尝试从设备的存储介质中恢复数据，而不使用该设备的操作系统。

四、灾难恢复站点(Disaster recovery sites)

在灾难期间，组织可能需要将他们的计算功能从主要的数据中心转移到一个备用设施，当主要的站点不可用或无法运作时，该设施将承担负荷。灾难恢复站点是专门为此目的而设计的备用处理设施。大多数时候，它们都是闲置的，等待在紧急情况出现时介入。有三种主要类型的备用处理设施，Hot site、Cold site和Warm site。

Hot site是灾难恢复设施的主要形式。它们是完全可操作的数据中心，拥有处理业务所需的所有设备和数据，可以随时运行。技术人员可以在接到通知后立即启动Hot site，而且在许多情况下，如果主站点发生故障，Hot site将自行启动。这提供了一个无与伦比的冗余水平，但它也带来了巨大的开支。建设和维护一个Hot site的成本通常与运行主数据中心本身的成本相似。这是在用双倍的成本来实现巨大的恢复能力。
Cold site是可能最终用于恢复操作的设施，它们基本上是空的数据中心。其拥有支持数据中心运营所需的核心机架、电缆、网络连接和环境控制，但它们没有恢复业务所需的服务器或数据。Cold site比Hot site要便宜得多，但激活它们可能需要几周甚至几个月。
Warm site提供了一个折中的办法。它们确实拥有支持公司运营所需的硬件和软件，但它们不会以平行的方式保持运行。硬件成本与Hot site相同，但它们需要IT人员投入的时间要少得多。激活一个Warm site可能需要几个小时或几天，这取决于具体情况。

灾难恢复站点不仅为技术操作提供了一个设施。它们还可以作为业务数据的异地存储地点。备份业务数据是很重要的，将这些备份存储在一个安全的设施中，而这个设施在地理上与主设施相距甚远，这就进一步保证了同一灾难不会同时损坏主设施和备份。这都是在我们选择地点时进行站点风险评估的一部分。这个过程被称为Site resiliency。

备份可能会定期被物理传输到灾难恢复站点，或者使用称为站点复制的过程以数字方式传输，使用组织的SAN或虚拟机平台内置的功能。在规划异地设施的备份存储时，我们要对这些备份是以在线还是离线(online or offline) 的形式保存做出战略性选择。在线备份可以在接到通知后立即恢复，但它们需要大量的资金投入。离线备份可能需要人工干预来恢复，但它们的成本要低得多。除了备用的处理设施，组织可以将备用的业务流程作为其灾难恢复计划的一个组成部分。例如，如果他们的电子订单管理系统将在很长一段时间内保持瘫痪，该组织可能会转向基于纸张的订购流程。备用的业务流程使企业在发生灾难时能够保持灵活性。

五、测试BC/DR计划

灾难恢复计划对于确保业务运营的连续性至关重要。与任何安全控制一样，应该对其进行测试，以确保其功能正常，并在发生中断的情况下准备好恢复业务运营。对灾难恢复计划的每次测试都有两个目标：

验证了该计划功能的正确性，以及该技术在灾难发生时能够发挥作用。
提供了一个机会来确定由于技术或业务流程的变化而对计划进行必要的更新。

有五种类型的灾难恢复测试，Read-through、Walk-through、Simulation、Parallel test和Full-interruption test。

Read-through是最简单的灾难恢复测试的形式。它们也被称为检查表审查。在这种方法中，灾难恢复人员向所有参与灾难恢复工作的人员分发当前计划的副本，并要求他们审查其程序。然后，团队成员提供有关任何需要更新的反馈，以保持计划的有效性。
Walk-through更进一步，让每个人都聚集在同一张桌子旁，共同审查计划。由于这个原因，Walk-through也被称为tabletop exercise。Walk-through达到的效果与Read-through相同，但它们通常更有效，因为它们让团队有机会一起讨论计划。
灾难恢复测试的下一个层次是Simulation。与Walk-through一样，Simulation将灾难恢复团队召集在一起。不同的是，在Simulation中，他们不仅仅是在讨论计划。他们谈论的是在一个特定的场景中他们将如何应对。测试策划者设计了一个紧急情况的模拟，然后灾难恢复团队描述他们将如何应对。

到目前为止，我们所讨论的三种测试类型，即Read-through、Walk-through、Simulation，都是理论上的练习。他们谈论灾难恢复，但他们并没有实际使用任何灾难恢复技术。

Parallel test超越了这一点，实际上激活了灾难恢复计划，包括激活一个备用的云或物理操作环境来应对模拟的灾难。该公司实际上并没有将操作切换到备份环境，但DR(Disaster recovery)环境与主站点平行运行。
最后一项测试，即Full-interruption test，是最有效的DR测试类型，但它也是对正常运营最具潜在破坏性的。企业通过实际关闭主操作环境并试图从灾难恢复环境中操作来模拟一场灾难。这个测试将突出计划中的任何缺陷，但它也可能对企业产生不利影响。由于这个原因，Full-interruption test是很少的。

灾难恢复测试策略通常使用不同测试类型的组合。企业可能会对计划进行定期的Read-through和Walk-through，然后用定期的Simulation和Parallel test作为补充。每种测试类型都会带来不同的优势，帮助组织为实际的灾难做准备。

六、事后报告(After action reports)

在每次使用灾难恢复或业务连续性计划后，组织都应该对事件进行正式审查，并在事后报告中予以记录。这份事后报告的目的是建立一个正式的事件记录，记录事件的相关情况，并确定未来改进的机会。这些报告是业务连续性和灾难恢复过程的一个重要部分，因为它们有助于确认所吸取的教训，并使组织能够不断改进其流程。每次启动业务连续性或灾难恢复计划后，都应写出行动后报告。有些组织只在失败后才进行经验总结，但总是有一些重要的发现需要记录，说明哪些地方做得好，以及即使在成功的恢复工作后，组织可能在哪些方面有所改进。行动后的报告应该包括几个主要部分：

报告应该以简短的执行摘要开始，让普通读者在几段话中了解事件的基本情况和主要发现。当我们写摘要时，想象是为那些只读这一部分的读者而写的，因为情况很可能就是这样；
我们的报告还应该包括背景信息，使读者能够分析导致该事件的事件和情况。例如，可以包括有关操作环境状况的细节，导致灾难发生的外部因素，以及其他相关数据；
然后，报告应该包括对情况事实的详细总结。解释发生了什么，要注意尽可能多地涵盖关键问题。谁参与了该事件？哪些因素促成了这项工作的成功或失败？事件是什么时候发生的，为什么会启动灾难恢复或业务连续性计划？事件发生在哪里，如何发生的？
报告的下一部分应该描述在事件中和事件后的分析中所获得的经验教训。该组织在哪些方面表现良好？哪些方面存在不足？以及如何进一步改进成功的流程，如何纠正不足之处？报告的结论应清楚地概述组织在吸取教训的基础上应采取的下一步措施。这一部分应该明确指定实施改革的责任和完成的时间表；
最后措施部分应该非常具体，以便它可以用来要求组织对实施建议的变化负责。

整理资料来源：
https://www.linkedin.com/learning/paths/become-a-comptia-security-plus-certified-security-professional-sy0-601

Security+ 学习笔记27 灾后恢复相关推荐

英伟达DeepStream学习笔记27——deepstream下载历史版本
英伟达DeepStream学习笔记27--deepstream下载历史版本 https://docs.nvidia.com/metropolis/deepstream-archive.html htt ...
python面向对象编程72讲_2020-07-22 Python学习笔记27类和面向对象编程
一些关于自己学习Python的经历的内容,遇到的问题和思考等,方便以后查询和复习. 声明:本人学习是在扇贝编程通过网络学习的,相关的知识.案例来源于扇贝编程.如果使用请说明来源. 第27关类与面向对 ...
影像组学视频学习笔记(27)-SimpleITK包介绍、Li‘s have a solution and plan.
本笔记来源于B站Up主: 有Li 的影像组学的系列教学视频本节(27)主要讲解: 功能强大的图像处理工具SimpleITK包视频中李博士演示了SimpleITK的两个基本功能:图像格式转换以及图像 ...
spring security——学习笔记（day05）-实现自定义 AuthenticationProvider身份认证-手机号码认证登录
目录 5.2 自定义 Provider 身份认证 5.2.1 编码思路和疑问 5.2.2 创建用户信息配置类 PhonePasswordAuthenticationToken 5.2.2 修改自定义的 ...
Security+ 学习笔记44 网络攻击
一.拒绝服务攻击(Denial of service attacks) CIA三要素描述了信息安全的三个目标,即保密性.完整性和可用性.攻击者使用的大多数攻击技术都集中在破坏数据的保密性或完整性上. ...
SpringBoot + Spring Security 学习笔记（一）自定义基本使用及个性化登录配置
官方文档参考,5.1.2 中文参考文档,4.1 中文参考文档,4.1 官方文档中文翻译与源码解读 SpringSecurity 核心功能: 认证(你是谁) 授权(你能干什么) 攻击防护(防止伪造身份) ...
PHP全栈学习笔记27
数组概述,类型,声明,遍历,输出,获取数组中最后一个元素,删除重复数组,获取数组中指定元素的键值,排序,将数组中的元素合成字符串. 数组概述,数组是存储,管理和操作一组变量. 数组类型为一维数组,二维 ...
C#学习笔记27——WorkFlow
传统ERP为制造业企业产供销人财物的管理提供了一整套优化企业资源利用,集物流.信息流.资金流为一体的现代化管理工具.但是它在过程集成和企业间集成方面存在不足.具体表现在: 1.传统ERP是一个面向功能 ...
学习笔记(27):Python网络编程并发编程-GIL与多线程
立即学习:https://edu.csdn.net/course/play/24458/296444?utm_source=blogtoedu GIL与多线程 1.须知: 1)cpu主要是为了提升计算 ...
Android（java）学习笔记27：TextView属性大全
TextView属性大全: android:autoLink 设置是否当文本为URL链接/email/电话号码/map时,文本显示为可点击的链接.可选值(none/web/email/ph ...

Security+ 学习笔记27 灾后恢复