容灾建设在我国已有十多年的历史了,尤其是2007年发布国标GB/T20988-2007《信息系统灾难恢复规范》后,各行各业对容灾建设都非常重视,各种新的容灾技术和产品也得到了快速的发展和应用。在我国容灾发展的前十年,主要都是基于保护IT系统本身的运行而考虑的,与业务需求的关系并不太紧密,甚至在设计容灾系统时都不需要业务部门的参与。

但实际上,灾备建设往往需要从存储层、网络层,安全层、计算层、传输层、应用层等6层考虑,每层之间都有着千丝万缕的联系。然而,近年来,存储层的容灾技术越来越受到客户青睐。

存储是一门既古老有现代的技术,纵观存储计算经历的一体,分离到融合的变迁,完美诠释了从服务器中来到服务器中去的存储服务思想,从DAS到如今的SDS/HCI最大的不同的就是可靠性和有效性的提升。如同宇宙,诞生于宇宙大爆炸前的一个黑洞或高质量天体,随着星系的演变、诞生和消失后,最终还是要被黑洞所吞噬再次回到起点。这两个风马牛不相及的事情都说明过程的重要性

回到存储,从EMC被收购,HDS被整合到传闻NetApp被收购来看,单纯的存储盒子是玩不动了。数据越来越多的被放在虚拟机、容器和公有/混合云上,未来的存储应该站在云平台上来考虑如何满足Cloudnative应用需求,而不是隔离单独拼存储盒子的性能和容量。应该更加专注数据云上云下流动,数据跨厂商共享,智能运维,服务质量遵从和存储即服务等。未来客户将更加青睐如同PayU和PayG的新商业模式,所以未来云计算的所有属性将被完全赋予存储。

但是传统存储盒子自从从大型机上独立出来,在整个漫长发展的过程中,确实给我们带来很多回忆和难以忘却故事,今天还是聚焦分析下数据中心双活部署网络相关要求

建设数据中心双活需要网络系统、存储系统、计算资源、应用系统等多个系统之间紧密合作才能实现。用户业务系统同时在两个数据中心运行,包括前端的全局负载均衡、服务器前端的负载均衡、服务器集群HA技术,后端的数据库系统和存储系统技术,同时为用户提供服务。

当某个数据中心的应用系统出现问题时,由另一个数据中心的应用来持续提供服务。

双活数据中心除了存储双活技术外,最需要考虑的技术因素就是数据中心之间网络互联需求,这些因素主要包括。

· 组网方式:裸光纤直连或DWDM设备;同一城域内通过城域网的核心层进行互联,不同城域间的DC通过骨干网进行互联;DC存储通过密集型光波复用DWDM或裸光纤进行直连。

· 集群心跳:集群心跳要求二层网络

· 虚拟机vMotion:在保持业务连续性的前提下,虚拟机可在跨数据中心间实现动态迁移

· 广播隔离:广播消息需在数据中心间实现隔离

由于VM需要在两个数据中心间漂移,一般情况要求这两个数据中心都是在一个大二层的物理架构里。

· 光纤链路直连,弱化距离,与传统网络架构相同;

· 采用大二层互联,实现大二层网络有多种解决方案。

· 与网络设备解耦,通过软件定义实现数据流的重定向,其原理就是VPN,底层网络只要IP可达,不管是在同一个VLAN还是不同的VLAN,通过再次封装,实现全新统一的隔离域,同时摆脱了VLAN数量的限制。数据中心互联网络一般采用光纤互联。对于大于25km的光纤链路,需要增加DWDM波分设备,用于提高带宽降低时延。DWDM对于数据传输的时延起着关键的作用。

数据复制通过存储实现,所以存储层双活网络时延的限制需要格外关注,要保证两地业务数据的同步复制,就目前的技术水平来看,两地双活数据中心最远支持100km。HDS宣传GAD双活实际部署距离支持500km,测试发现距离每增加100km,时延大约增加1ms。实际上双活距离一直都不是问题,主要看网络时延和误码率,以及应用对RTT时延要求和容忍度。如果当距离超过了500km时,其应用能容忍5ms以上的时延,那所有的问题都不是问题。

当然,数据中心双活除了网络,还要关注其他因素,这些因素我先大致列出来,在后续章节中,将逐一分析解释。

1. 脑裂风险问题:如何避免脑裂是每个双机系统都要重视的问题,存储双活系统尤其如此,脑裂会带来长时间的存储读写IO HANG住,造成重大影响。

2. 性能影响问题:因为双活系统在写入数据时,会写两次数据,尤其是通过复制功能写到远端存储的过程,传输链路的性能也会影响整体性能。

3. 数据一致性风险问题:当写入数据时,在复制过程中,数据传递是在缓存中进行的,这样做的好处是提升了性能,问题是当出现异常宕机事件时,就会导致缓存内的数据不能写入存储中,从而造成数据的不一致。

4. 双中心间通讯不可控问题:一是链路稳定状况不可控;二是IO延时指标不可控。这些不可控因素非常容易造成灾难性影响,轻则导致数据库读写性能灾难,重则导致数据库节点直接处于僵死状态。另外,链路的不稳定会导致存储链路频繁切换,甚至会导致集群仲裁频繁发生,这对于业务连续性更是一个灾难。

5. 数据同步逻辑错误问题:存储层面的复制技术基本以存储块为单位进行的数据复制,假设数据块发生了逻辑错误,那么存储是无法检测到的,它会继续将坏的数据块儿同步到灾备端,如果因此数据库发生宕机,那么灾备端的数据库也同样无法正常启动。

6. 存储网络故障泛滥问题:两个数据中心的SAN网络打通,整合为一张大的SAN网络,可能会因为局部的存储网络故障而波及到整个存储网络,造成重大影响。

7. 集群仲裁一致性问题:所谓的仲裁一致性问题,是指双中心之间的双活存储集群和数据库集群的仲裁结果是否能保证一致性。当不一致时,对业务系统将造成灾难性影响。

8. 存储多路径控制的策略问题:倘若采用存储厂商自己的多路径,可能存在兼容性问题,很多双活方案采用系统自带多路径缓和这一问题。

此外,业务层的等级划(RTO/RPO)分也是灾备方案设计的基础和前提。不同的业务连续性要求不同的容灾技术和等级,在本专题课程中,主要聚焦双活方案(存储层、网络层,安全层、计算层、传输层、应用层等6层双活),其实现的效果:RTO/RPO均为0.

本号专注技术架构和行业解决方案,构建专业交流平台,分享一线技术实践,洞察行业前沿趋势,内容覆盖云计算、大数据、超融合、软件定义网络、数据保护解决方案,订阅即可收听业界主流双活方案设计关键技术内容。

<专栏部分精华内容>

  • 剖析SVC Stretch Cluster双活方案
  • 剖析Clustered Metro Cluster双活方案
  • 剖析PowerHA/SVC HyperSwap双活方案
  • 剖析HAM/GAD双活方案方案
  • 剖析VIS/HyperMetro双活方案方案
  • 剖析Vplex双活数据中心存储方案方案
  • 剖析SRDF/Mtreo和MetroSync双活方案
  • 剖析HPE、Dell和Fujitsu双活方案

第一讲:双活容灾技术和方案概述相关推荐

  1. HP BusinessCopy同城/异地容灾技术方案

    第一章      灾难备份背景及优势.............................................................................. 3 1 ...

  2. 揭阳市人民医院基于对称双数据中心的双活容灾系统建设项目

    第三部分 用户需求 需求分析 信息系统现状 经过近几年的信息化建设,揭阳市人民医院的信息化取得了重要的突破和长足的进步,在医院管理和医疗服务方面发挥了良好作用,信息系统成为我院医疗业务发展中不可缺少的 ...

  3. 容灾技术及建设经验介绍

    1 什么是容灾 容灾系统是指建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换.当一处系统因意外停止工作时,整个系统可以切换到另一处系统,使得系统功能可以继续工作. 容灾即使是系 ...

  4. 【公测中】阿里云发布国内首个大数据双活容灾服务,满足高要求大数据灾备场景...

    在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测 ...

  5. 贵州省新农合业务系统容灾技术支撑服务项目

    2.1项目背景 新农合业务是中国移动贵州公司在医疗卫生行业类的一大重要信息化应用.贵州省新农合项目建设至今,在线运营业务包括68个县(区).1224个乡(镇).16508个村:建档总人数3358.44 ...

  6. 混合云应用双活容灾实践

    作者:远跖 前言 越来越多的企业在数字化转型和上云进程中选择混合云的形态(云+自建 IDC 或云+其他厂商云)来进行容灾建设,一方面不会过度依赖单一云厂商,另一方面还能充分利用已有的线下 IDC 资源 ...

  7. 【公测中】阿里云发布国内首个大数据双活容灾服务,满足高要求大数据灾备场景

    在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测 ...

  8. oracle异地双活距离,再谈异地双活容灾部署(6.24)

    对于数据库异地双活容灾部署在前面博客上也有文章谈到过,这篇文章做一些进一步的分析,对于异地双活容灾推荐阅读下网上的一篇文章,这篇文章介绍的比较全面,可以重点参考,本文配图也来源于该文. 数据库的双活设 ...

  9. ZEGO 最后一公里网络传输的容灾及优化方案

    作为运维,你是否遇到过一些用户域名解析异常,你是否又遇到过某些区域云商加速节点异常导致业务不可用,此时的你一脸茫然,不知所措?作为运维,你是否被最后一公里问题搞得焦头烂额? 那么今天我们就来探讨一下最 ...

最新文章

  1. 去掉星空极速,开通ADSL路由
  2. 探秘区块链 - 头条新闻
  3. 巡检,不再要你磨破机房门槛
  4. 基于SegNet和UNet的遥感图像分割代码解读
  5. boost::graph模块实现bellman-ford算法的测试程序
  6. SAP UI5 binding, property binding and resourceBinding
  7. linux 分区 flags,linux磁盘分区
  8. .NET开源OpenID和OAuth解决方案Thinktecture IdentityServer
  9. 【PAT】2021年冬季考试甲级,摸鱼游记、92分
  10. python19 random随机数 json模块 pickle模块 hashlib模块 hmac模块 shutil模块 shelve模块...
  11. Netcore 及SDK版本号问题
  12. 自建nod32更新服务器,ESET NOD32 官方升级服务器地址
  13. AppCompatActivity设置透明主题
  14. 什么是适用于iPhone和iPad的iOS最新版本?
  15. 学习SQL的侦探游戏
  16. PDPS软件:PSZ格式文件的保存与打开方法
  17. hiredis使用简介
  18. iphone邮箱看不到已发送_不看不知道 教你如何设置iPhone邮箱
  19. AS:另一个程序正在使用此文件,进程无法访问。
  20. java编写火车订票系统_毕业设计(论文)-基于JavaWeb技术的火车订票系统.doc

热门文章

  1. 如何将Ai文件转换成PDF文件
  2. [NFC]NFC 客户 Support 流程
  3. 百度阅读赚钱秘法 人人皆可操作
  4. TensorRT INT8量化原理与实现(非常详细)
  5. 动态规划算法之断句问题
  6. android 横向头像栏,Android实现个人资料页面头像背景模糊显示包(状态栏)
  7. PTA 打印九九口诀表
  8. 运动无线耳机哪款不容易掉、最不容易脱落的蓝牙耳机推荐
  9. 大数据挖掘课程案例资源介绍
  10. AI对项目管理的影响