为什么要考虑hadoop集群异地双活?因为我们一般集群的建设基本上都是部署在同一个地方,为了保证公司业务24小时不间断服务,所以必须要考虑集群的高可用,而我们常见的高可用一般是给A集群搞个灾备集群B集群,A、B集群不会再同一个机房,A、B集群的数据同步依赖于hadoop自身提供的工具distcp,那么discp有什么缺点呢。

1. 长时间占用yarn资源

2. 一般只同步重要的部分数据(这一点其实没毛病)

3. 两个集群必须所有节点必须网络畅通

4. 天级别数据延迟,因为我们可能一天24小时都在同步数据,一般是一天做一次数据同步,也就意味着数据存在天级别丢失的风险

为了解决这个问题,我们来研究下hadoop原来,看看有没有什么搞头

这个图大家一看应该很容易明白,网上也很多人讲这个,我想要说的下面几点

1. NameNode只记录元数据

2. NameNode不关心数据到底在哪个节点存放

3. DataNode自动汇报block信息给两个NameNode

4. 元数据的流转是Active NameNode -> Journal Nodes -> StandBy NameNode

认真理解一下上面的四点,我现在说下面这个结论你看看能不能理解

如果我要把A集群迁移到B集群,我只需要把A集群的NameNode 和journal Node(一个)的元数据拷贝到B集群,然后从A集群DataNode拷贝blcok到 B集群,这个时候B集群就可以启动起来。

什么意思呢,假设现在A集群部署了50个节点,运行了半年时间,有2TB的数据,现在搭建了一个B集群,B集群只有30个节点,现在没有数据,现在我要把A集群的数据完全迁移到B集群,并且我要保证B集群的数据和A集群一模一样,怎么做最快呢,最快的方式是哪一个U盘吧A集群的元数据拷贝到B集群,然后把A集群的 数据盘 拔了直接插到B集群的服务器上,然后重启B集群,B集群能启动起来吗,看起来比较疯狂,其实我可以很负责的说,这个肯定起的起来。

比较可惜的是,这里没有实验截图~

如果是实时同步

元数据同步:

block同步

block同步这里特别注意

这里用到了hadoop的一个特性:机架感知

所以在同步之前需要将A集群编排成3个机架,然后我们只需要同步其中一个机架上的数据过去就可以了,同步到B集群之后,B集群同样是运用机架感知的功能,会自动降数据复制成3分。

其他:块的存储

hadoop原理巧用到异地机房双活相关推荐

  1. 阿里巴巴开源项目:分布式数据库同步系统otter(解决中美异地机房)

    项目背景 阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,同时为了提升用户体验,整个机房的架构为双A,两边均可写,由此诞生了otter ...

  2. 001_阿里巴巴开源项目:分布式数据库同步系统otter(解决中美异地机房)

    项目背景 阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,同时为了提升用户体验,整个机房的架构为双A,两边均可写,由此诞生了otter ...

  3. 虚拟专用网连接异地机房部署方案

    企业在两地三中心或者异地机房时候,往往要实现多个机房之间的直通,所谓直通就是两个机房设备分别属于不同的网段,双方可以互ping对方机房某台服务器的物理IP地址,不做NAT转换,服务器在收到数据包时也可 ...

  4. 从0开始搭建SQL Server AlwaysOn 第四篇(配置异地机房节点)

    从0开始搭建SQL Server AlwaysOn 第四篇(配置异地机房节点) 第一篇 http://www.cnblogs.com/lyhabc/p/4678330.html 第二篇 http:// ...

  5. 柳州市第一职业技术学校中心机房双活虚拟引擎容灾备份系统需求

    广西新宇建设项目管理有限公司受柳州市第一职业技术学校委托,根据<×××政府采购法>及其实施条例.<政府采购货物和服务招标投标管理办法>等法律法规,经财政部门批准的政府采购计划( ...

  6. Hadoop 原理和架构

    04 | 移动计算比移动数据更划算 那么如何解决 PB 级数据进行计算的问题呢? 这个问题的解决思路其实跟大型网站的分布式架构思路是一样的,采用分布式集群的解决方案,用数千台甚至上万台计算机构建一个大 ...

  7. Hadoop原理 之 数据完整性

    Hadoop的数据完整性,包括两个方面:一是,数据传输的完整性,也就是读写数据的完整性:二是,数据存储的完整性.     受网络不稳定.硬件损坏等因素,在数据传输和数据存储上,难免会出现数据丢失或脏数 ...

  8. 分布式计算框架Hadoop原理及架构全解

    Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统.最核心的模块包括Hadoop Common.HDFS与MapReduce. HDFS HDFS是Hadoop分布式文件系统(H ...

  9. hadoop原理学习笔记 不含命令

    hadoop海量数据实现原理 如何将机器学习与hadoop对接 不考虑安装二次开发运行 数据是机器学习的核心 hadoop框架 谷歌100亿网页 2011年谷歌100万台服务器 双十一购物信息统计机 ...

  10. Hadoop原理及部署初探

    Hadoop Hadoop为何物 Hadoop是一个分布式系统基础架构,由Apache基金会所开发. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储. Had ...

最新文章

  1. ckedit 文本编辑器
  2. Redis中RedisTemplate和Redisson管道的使用
  3. css 选择一列表菜单,css实现菜单列表随滚动条指定到对应内容
  4. 内存的动态分配过程分析
  5. Centos7安装并配置mysql5.6
  6. c++11 多线程 2c++ concurrency in action
  7. word vba 读出光标所在的列数_word高效技巧:这几个表格操作让工作更快速
  8. 【MyBatis-Plus】第一章 快速入门
  9. ASP.“.NET研究”NET MVC 3 —— Model的使用?
  10. Python实现学生出勤记录
  11. java web-inf_对JavaWeb项目中WEB-INF目录的理解
  12. 测试用例设计方法——正交表详解
  13. Cnskype移动办公现状分析管理
  14. amr 转mp3 android,安卓批量amr转mp3 微信amr批量转换
  15. c语言中指数常量注意什么意思,C语言入门知识:常量
  16. 《Visual Basic.Net 循序渐进》阅读器说明
  17. 悬挂缩进 java,c#Word Interop - 设置段落缩进
  18. 加州理工学院宋飏老师招收机器学习全奖博士生|2023秋季
  19. 一个清包网友的装修清单3--给广大TX参考!清包路漫漫啊!~~~
  20. 百度搜狗神马搜索劫持 来源网站跳转 快照霸屏 竞价劫持 霸屏代码

热门文章

  1. SSM框架---开发免费小说网站(h5+电脑端)
  2. wpsmac历史版本_wps mac版|wps for mac官方下载免费完整版-太平洋下载中心
  3. 计算机图形和ps的区别,PS CC和PS CC有什么区别?
  4. C++ | 虚函数表内存布局
  5. PHP实现倒计时插件代码
  6. 数据结构之二叉平衡树
  7. 如何清空redis中的数据
  8. 信息论相对熵的凸性证明
  9. JanusGraph安装和配置教程
  10. 【备忘】最新区块链开发入门到精通视频教程下载