灾备理论-可靠的异地灾备
1. 技术背景
1.1. 灾备评价指标
业界普遍数据丢失量和系统恢复时间作为标准,对某个容灾系统进行评价,公认的评价标准是RPO和RTO。
RPO(RecoveryPointObjective):恢复点目标,以时间为单位,即在灾难发生时,系统和数据必须恢复到的时间点要求。RPO标志系统能够容忍的最大数据丢失量,系统容忍丢失的数据量越小,RPO的值越小。
RTO(RecoveryTimeObjective):恢复时间目标,以时间为单位,即在灾难发生后,信息系统或业务功能从停止到必须恢复的时间要求。RTO标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小。
RPO针对的是数据丢失,RTO针对的是服务丢失,两者没有必然的联系,并且两者的确必须在进行风险分析和业务影响分析之后根据业务的需求来确定。
1.2. 灾难恢复能力等级
要建设容灾系统,就必须提出相应的设计指标,以此作为衡量和选择容灾解决方案的参数。目前,国际上通用的容灾系统的评审标准为SHARE 78,主要包括以下内容。
●备份/恢复的范围
●灾难恢复计划的状态
●业务中心与容灾中心之间的距离
●业务中心与容灾中心之间如何连接
●数据是怎样在两个中心之间传送的
●允许有多少数据丢失
●保证更新的数据在容灾中心被更新
●容灾中心可以开始容灾进程的能力
SHARE 78是建立容灾系统的一种评审标准。建立容灾系统的最终目的,是为了在灾难发生后能够以最快速度恢复数据服务,主要体现在RTO和RPO上。在SHARE 78的基础上,国家质量监督检验检疫总局和国家标准化管理委员会联合制定规范了适合我国国情的RTO/RPO与灾难恢复能力等级的关系。
RTO/RPO与灾难恢复能力等级的关系表:
等级 |
RPO |
RTO |
备注 |
1级 |
2天以上 |
1天至7天 |
<0.1% |
2级 |
24小时以上 |
1天至7天 |
90% |
3级 |
12小时以上 |
数小时至1天 |
6% |
4级 |
数小时至2天 |
数小时至1天 |
<0.5% |
5级 |
数分钟至2天 |
0至30分钟 |
<0.1% |
6级 |
数分钟 |
0 |
3% |
1.3. 容灾的分类
由于容灾包含的内容比较广泛,对容灾的分类也可以从多个方面进行。总的来讲,可以从容灾的范围和容灾的内容来区分。
从容灾的范围讲,容灾可以分成本地容灾,近距离(同城)容灾和远距离(异地)容灾。这三种容灾能容的灾难是不相同的,采用的容灾技术也是不同的。
从容灾的层次讲,容灾又可以分成数据容灾和应用容灾,数据容灾是应用容灾的基础,没有数据的一致性,就没有应用的连续性,应用容灾也是无法保证的。数据容灾是指建立一个备用的数据系统,该备用系统对生产系统的关键数据进行备份。
应用容灾则是在数据容灾之上,建立一套与生产系统相当的备份应用系统。在灾难发生后,将应用迅速切换到备用系统,备份系统承担生产系统的业务运行。
1.4. 主流数据容灾技术
1.4.1. 数据备份
数据备份是系统、数据容灾的基础,也是低端容灾的实现,是高端容灾(实时数据保护)的有力保障。目前备份技术主要有快照备份、离线备份、异地存储备份。备份系统通过备份策略,对计算机信息系统的操作系统、文件系统、应用程序、数据库系统等数据集,实现某一时间点的完整拷贝,拷贝的数据处在非在线状态,不能被立刻访问,必须通过相应操作,如恢复等方式使用备份数据。这也解决了高端容灾(实时数据保护)不能解决的问题:人为误操作、恶意性操作等,这类操作,计算机系统是不能区分的,一旦执行,将造成数据中心、灾备中心同时修改;对于数据库系统,在日志方式下,可以通过回滚方式修改,对于文件系统、操作系统等其他配置信息是不能回滚的,将造成毁灭性的结果。因此在建设高端容灾系统的前提,一定要做好本地系统的备份,这是容灾技术的起点。
目前成熟的备份软件有Symantec NetBackup、EMC Legato,IBM TSM,HP Protect Server等等。
1.4.2. 实时数据保护
实时数据保护,就是在多块磁盘上、多个阵列、多台服务器、多个数据中心实时的保存同一份数据的多份存储,目的是为了避免物理故障,数据不会因为一块磁盘、一个阵列、一台服务器、一个数据中心的故障,而不能访问。
1.4.2.1. 数据镜像(Mirroring)
1.4.2.2. 数据复制(Replication)
根据实现机制,数据复制分为软件方式和硬件方式;硬件方式往往又被称为远程镜像。此外还有数据库复制和基于SAN的卷复制。
软件复制有Symantec Volume Replicator(简称VVR)、Datacore 等,软件复制可以跨硬件平台,可以实现多厂商集成,其中VVR是基于卷的复制,复制的数据可以是数据库中的数据(文件方式或裸设备方式),数据库日志,复制的数据也可以是各种文件,如应用和数据库配置文件,应用程序,库文件,等等。Datacore是基于block的复制,类似于硬件的复制,处于卷的更底层,与基于卷的复制不同的是,他具有应用操作系统的独立性,数据的远程复制与操作系统无关,并且不需要远端主机应用系统的运行,支持异步和同步的方式,并且与硬件存储子系统不同的是,Datacore可以实现异构存储子系统的集中管理,打破了单一厂商选择的限制,对于磁盘子系统的选择更加灵活。
硬件复制一般是相同品牌之间的磁盘子系统的操作。具有一定的限制性,纯硬件复制有HDS TrueCopy、EMC SRDF等。硬件复制通过基于硬件的远程磁盘镜像实现,其实现要求严格。只能基于同一厂商、同样容量大小的两个阵列来实现。受光纤线路影响、复制数据量大,在使用间歇性复制时,数据延迟大,磁盘容量要求4倍于源数据,并且在极端情况下,不能保证数据一致性。厂商一般建议使用间歇性复制。远程磁盘镜像(复制),在容灾实现中,支持所有的类型数据同步,包括文件数据、数据库数据、裸设备、应用配置文件、应用程序、库函数等,支持各类应用系统容灾,包括数据库、中间件、客户自己开发的应用,适用于2层架构、3层或多层应用架构。
数据库复制,Oracle Data Guard、Oracle GoldenGate、Quest SharePlex、DSG RealSync等,通过分析数据库Redo Log和Archive Log 实现日志的复制,将分析结果直接或转化为SQL语句传到容灾中心,在容灾中通过心Apply数据库日志或将日志转化的SQL语句重做,来保证容灾中心数据与生产中心数据一致。但数据库复制也存在如下限制:一是数据库复制,是专门针对相应数据库的,只能实现单一的数据库复制。如果有ORACLE、SQLSERVER等多种数据库,就必须采用相互各不相同的数据库复制技术,管理和维护工作非常复杂;二是数据库复制技术不是一个完整的容灾解决方案,只能有限的复制数据库数据,不能复制其他的应用程序,配置文件,就是Oracle自己的tnsnames.ora, listner.ora,initSID.ora, *.ctl也不能复制,一旦这些文件改动过,将需要管员人为操作或者需要其他软件的管理,保证容灾中心与生产中心同步应用、程序、配置文件同步。
基于SAN网络的卷复制是一种新的复制方式,如Datacore的SDS。它是通过特殊的运行于操作系统上的SDS SAN 控制器,实际是将低端的无智能存储变为高端的智能存储,使得他们得以建立基于智能SAN 控制器的卷,通过这种与主机应用无关,但与SDS控制器直接相关的卷实现复制。此种技术较新,目前具有多家厂商均向此方向发展,其中Datacore是较早的研发厂商,当中还有IBM的SVC和HDS的USP系列以及飞康CDP也是采用此种技术。
1.5. 应用和网络容灾
数据复制是容灾的手段,不是目的,容灾的目的是数据的访问,因此应用的恢复和网络的恢复也是容灾的关键。
应用系统恢复,这和系统的应用模式直接相关。需要考虑应用系统的应用架构。是Client/Server架构,还是Broswer/Server架构;是2层架构、还是3层架构、还是多层架构。两层架构,表示容灾中心的应用只要启动数据库就可以服务了。如果是三层架构,就意味着应用系统除数据库以外,还有网络服务程序,如中间件WebLogic。在容灾应用切换时,能够手工或自动化的将这些服务一一启动。
在灾难发生后,应用切换到灾备中心了,本地的应用前端需要重新访问容灾节点的服务,带来另外一个问题,网络如何切换。实际上最简单的办法,就是通过外部DNS服务器,
在灾难发生后,本地应用访问路径如何由指向原生产中心改为指向容灾中心。在灾难修复后,又需要指向原生产中心。最简单得方法就是更改外部DNS服务器得IP映射关系。在灾难发生前,IP映射为生产中心服务器;在灾难发生后,IP由映射为容灾中心得服务器;在灾难修复后,IP又映射为生产中心得服务器。
当然,在一些中间件软件中,支持多服务器、多IP的配置,那也是可以考虑的。
1.6. 容灾切换
1.7. 容灾演练
大部分的容灾方案,在项目实施后,很难有机会来实现预演,因为对于大部分方案来说,这种预演活动,需要耗费大量的人力财力。
但是这种预演是必不可少的,它是实时测试目前的容灾方案的漏洞,保证容灾方案在灾难发生时,能够真正生效。
2. 灾备系统建设
2.1. 灾备系统选型要素
2.2. 灾难事件分析
2.2.1. 数据库逻辑损坏
由于误操作等原因,数据库会出现表的记录丢失或损坏情况。面对这种灾难,需要借助于快照技术将将丢失或损坏的记录导入到生产数据库中。
可采用ORACLE自身的机制或者CDP等快照技术事项,整个过程生产数据库不停止。对于这种灾难,可实现平台RPO=0,RTO=0,但对相关业务有影响。
2.2.2. 存储级故障
磁盘阵列故障是一种极为严重的威胁,对于业务系统具有致命的杀伤力。IDC机房存储故障将直接导致核心数据库宕机,导致相关业务系统的完全瘫痪。
这种情况下必须启动本地灾备系统实现数据库的迁移,或者启动异地灾备系统,实现应用的迁移。
2.2.3. 核心网络设备故障
这种情况下往往导致对外服务完全中断或或者产能受严重影响,必须启用异地灾备中心。
2.2.4. 运营商灾难
主要指运营商机房供电或者核心出口链路发生故障,导致业务系统全线中断,在RTO时间内无法修复的建议需要切换到异地灾备中心。
2.2.5. 地区性灾难
地区性灾难主要指城市级别的灾难,比如地震、海啸等不可抗力,这种情况下往往导致IDC机房对外服务完全中断,必须启用异地的灾备中心。
2.3. 理想的容灾系统
容灾系统的建立,通常需要通过分步实施,逐渐建立一套完善的系统容灾解决方案。理想的容灾系统有如下典型的特征:
一、拥有完备的本地数据备份
通过相应的备份软件,对目前所有的计算机系统,做好完善的数据备份,特别是做好操作系统备份、文件系统备份、数据库系统文件备份、数据库数据文件备份、相关的核心应用程序备份;建立好完善的备份/恢复机制和远程磁带保管机制。
这也是实现远程数据复制容灾的基础,容灾中心与生产中心的数据初始化同步,一般都是通过磁带备份恢复方式,实现一个同步起点。
二、存储、应用整合
存储整合是指通过相关的产品选择,将各服务器的数据、或应用,通过基于一定的管理及后续,实现数据的快照、镜像等技术,迁移到外置基于SAN的阵列库中,通过唯一的管理接口,实现统一管理,屏蔽不同厂商阵列的差异。
三、异地实时数据同步
为了控制RTO,异地灾备中心必须采用有效的数据同步机制和主生产进行实时的数据同步,确保灾难发生时业务系统可以进行高效的切换,而对数据的丢失也控制在合理的水平。
四、拥有可靠的同城堡垒节点
同城灾备中心主要是用于防范生产中心机房或楼宇发生的灾难,异地灾备中心用于防范大规模区域性灾难。同城灾备中心由于其与生产中心处于同一个城市,可采用较好的网络线路如光纤与生产中心进行连接,因此数据复制和应用切换比较容易实现,可实现生产与灾备中心之间数据的实时复制和应用的快速切换。
五、拥有可靠的异地容灾节点
异地灾备中心由于其与生产中心不在同一城市,灾备端与生产端连接的网络线路带宽和质量存在一定的限制,一般适合于数据的异步复制,应用系统的切换也需要一定的时间,因此异地灾备中心可以实现在业务限定的时间内进行恢复和可容忍丢失范围内的数据恢复。
灾备理论-可靠的异地灾备相关推荐
- 异地灾备,利用华为云就可以实现
一.异地灾备防范于未然 2001年的"911事件"中,没有远程备份的企业都遭受了巨大损失,甚至部分公司因为核心业务部署在公司大楼而又没有远程备份,导致公司业务无法继续运营而倒闭.美 ...
- 【MySQL系列】单机热备(主从结构)和双机热备介绍和使用
Mysql数据库没有增量备份的机制,当数据量太大的时候备份是一个很大的问题.还好mysql数据库提供了一种主从备份的机制,其实就是把主数据库的所有的数据同时写到备份的数据库中.实现mysql数据库的热 ...
- mysql异地灾备架构_最佳实践 数据库异地灾备
方案概述 根据企业所在行业.合规要求.数据规模.RPO/RTO要求的不同,数据库灾备目的和要求各不相同,投入成本也是不同的.阿里云数据库灾备解决方案提供实时数据备份能力,满足企业备份多样化选择.通过数 ...
- 优维助力国内某省级商业银行同城异地灾备自动化建设
银监会在<商业银行数据中心监管指引>中明确要求"商业银行每年至少进行一次重要信息系统专项灾备切换演练,每三年至少一次重要信息系统全面灾备切换演练,以真实业务接管为目标,验证灾备系 ...
- 运维必看:低成本数据异地灾备方案
一.前言 大家好,上一期小堂给大家介绍了一个低成本的数据异地灾备方案,适用于数据源位于linux服务器的场景.本期将介绍数据源位于windows服务器场景下的异地数据灾备. 二.部署实施步骤 2.1 ...
- 网络存储技术Windows server 2012 (项目二十二 远程异地灾备中心的部署)
网络云存储技术Windows server 2012 (项目二十二 远程异地灾备中心的部署) 前言 网络存储技术,是以互联网为载体实现数据的传输与存储,它采用面向网络的存储体系结构,使数据处理和数据存 ...
- GBase 8s灾备集群HAC (四) 异地灾备RSS
目录 1.概述 2.安装 3.配置环境 4.连接主库 5.功能测试: 6.可能出现的异常error: 1.概述 前面提到的HAC主备也叫同城备份 为了保证主备双库的数据一致性,HAC的主库备库一般都很 ...
- 异地灾备中心距离要求_讲真,灾备的内涵其实很丰富
如果你愿意一层一层一层地剥开它的心, 你会发现,你会讶异, 灾备的内涵其实很丰富. 譬如下面这些问题,你能说出个123吗? Question 灾备全称是什么?跟容灾一样吗? CDP.HA.双活是什么? ...
- 如何让服务可用性高达99.9999%?异地灾备是关键!
为了保障业务系统在遭受意外的情况下依然能够正常运转,企业往往会在异地部署一套与现有的业务系统一样的生产环境,即异地灾备系统.它可以保障业务安全和稳定,有效提高业务系统抵抗外界因素的容灾能力. (文末附 ...
最新文章
- 英特尔人工智能副总裁:AI不是一种技能,而是一种对于工作的描述
- linux下测试宽带速度
- qq android2.0,取代QQ?腾讯TIM安卓2.0发布:10GB云盘免费用
- 面试题整理19 矩阵Z字形扫描
- vue 带全选和多选的表格怎么写_EXCEL五分钟,批量制作带照片的工地出入证
- 网络通信程序写起来很难专业课没问题
- Chrome 开发工具 Workspace 使用
- 【编撰】linux IPC 002 - 匿名管道PIPE和有名管道FIFO的概念和实例,以及应用比较
- 华为Mate40国行版18点08分开卖:要求12小时内必须卖完
- 用Docker容器自带的tensorflow serving部署模型对外服务(成功率100%)
- python测试嵌入式_用Python测试嵌入式系统的测试框架
- 枚举报错 Syntax error on token enum, interface expected
- blackberry 9630CDMA写号教程
- c语言合并jpg成pdf,如何将JPG图片转换成PDF文件
- 韦伯-费纳希定律,前景理论及其在数据科学中的应用
- matlab课表编排程序实例,编排课程表的一点心得
- Linux学习16 软件包和启动项管理
- fhkldlkfhj
- 电商数仓描述_大数据企业级电商数据仓库架构设计和实现(技术点与企业接轨)...
- 4.7 设置单元格中文本的行间距 [原创Excel教程]
热门文章
- Saber2016安装包和安装详细安装步骤
- 富士通服务器安装操作系统,富士通平板u盘安装系统教程
- fdtd中时间监视器怎么放_FDTDsolutions经典问题集.pdf
- 英语语法---谓语详解
- C++ 标准库类型 string
- python3精要(55)-模块,私有方法
- 【机器学习】人工智能典型应用:班组工作日志转绩效类型
- 【入门基础】写给小白看的入门级 Java 基本语法
- 报道 | AI 2000 人工智能全球最具影响力学者榜单:美国领跑,中国第二,德国第三...
- 常见概率分布的Matplotlib实现