hadoop原理巧用到异地机房双活
为什么要考虑hadoop集群异地双活?因为我们一般集群的建设基本上都是部署在同一个地方,为了保证公司业务24小时不间断服务,所以必须要考虑集群的高可用,而我们常见的高可用一般是给A集群搞个灾备集群B集群,A、B集群不会再同一个机房,A、B集群的数据同步依赖于hadoop自身提供的工具distcp,那么discp有什么缺点呢。
1. 长时间占用yarn资源
2. 一般只同步重要的部分数据(这一点其实没毛病)
3. 两个集群必须所有节点必须网络畅通
4. 天级别数据延迟,因为我们可能一天24小时都在同步数据,一般是一天做一次数据同步,也就意味着数据存在天级别丢失的风险
为了解决这个问题,我们来研究下hadoop原来,看看有没有什么搞头
这个图大家一看应该很容易明白,网上也很多人讲这个,我想要说的下面几点
1. NameNode只记录元数据
2. NameNode不关心数据到底在哪个节点存放
3. DataNode自动汇报block信息给两个NameNode
4. 元数据的流转是Active NameNode -> Journal Nodes -> StandBy NameNode
认真理解一下上面的四点,我现在说下面这个结论你看看能不能理解
如果我要把A集群迁移到B集群,我只需要把A集群的NameNode 和journal Node(一个)的元数据拷贝到B集群,然后从A集群DataNode拷贝blcok到 B集群,这个时候B集群就可以启动起来。
什么意思呢,假设现在A集群部署了50个节点,运行了半年时间,有2TB的数据,现在搭建了一个B集群,B集群只有30个节点,现在没有数据,现在我要把A集群的数据完全迁移到B集群,并且我要保证B集群的数据和A集群一模一样,怎么做最快呢,最快的方式是哪一个U盘吧A集群的元数据拷贝到B集群,然后把A集群的 数据盘 拔了直接插到B集群的服务器上,然后重启B集群,B集群能启动起来吗,看起来比较疯狂,其实我可以很负责的说,这个肯定起的起来。
比较可惜的是,这里没有实验截图~
如果是实时同步
元数据同步:
block同步
block同步这里特别注意
这里用到了hadoop的一个特性:机架感知
所以在同步之前需要将A集群编排成3个机架,然后我们只需要同步其中一个机架上的数据过去就可以了,同步到B集群之后,B集群同样是运用机架感知的功能,会自动降数据复制成3分。
其他:块的存储
hadoop原理巧用到异地机房双活相关推荐
- 阿里巴巴开源项目:分布式数据库同步系统otter(解决中美异地机房)
项目背景 阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,同时为了提升用户体验,整个机房的架构为双A,两边均可写,由此诞生了otter ...
- 001_阿里巴巴开源项目:分布式数据库同步系统otter(解决中美异地机房)
项目背景 阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,同时为了提升用户体验,整个机房的架构为双A,两边均可写,由此诞生了otter ...
- 虚拟专用网连接异地机房部署方案
企业在两地三中心或者异地机房时候,往往要实现多个机房之间的直通,所谓直通就是两个机房设备分别属于不同的网段,双方可以互ping对方机房某台服务器的物理IP地址,不做NAT转换,服务器在收到数据包时也可 ...
- 从0开始搭建SQL Server AlwaysOn 第四篇(配置异地机房节点)
从0开始搭建SQL Server AlwaysOn 第四篇(配置异地机房节点) 第一篇 http://www.cnblogs.com/lyhabc/p/4678330.html 第二篇 http:// ...
- 柳州市第一职业技术学校中心机房双活虚拟引擎容灾备份系统需求
广西新宇建设项目管理有限公司受柳州市第一职业技术学校委托,根据<×××政府采购法>及其实施条例.<政府采购货物和服务招标投标管理办法>等法律法规,经财政部门批准的政府采购计划( ...
- Hadoop 原理和架构
04 | 移动计算比移动数据更划算 那么如何解决 PB 级数据进行计算的问题呢? 这个问题的解决思路其实跟大型网站的分布式架构思路是一样的,采用分布式集群的解决方案,用数千台甚至上万台计算机构建一个大 ...
- Hadoop原理 之 数据完整性
Hadoop的数据完整性,包括两个方面:一是,数据传输的完整性,也就是读写数据的完整性:二是,数据存储的完整性. 受网络不稳定.硬件损坏等因素,在数据传输和数据存储上,难免会出现数据丢失或脏数 ...
- 分布式计算框架Hadoop原理及架构全解
Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统.最核心的模块包括Hadoop Common.HDFS与MapReduce. HDFS HDFS是Hadoop分布式文件系统(H ...
- hadoop原理学习笔记 不含命令
hadoop海量数据实现原理 如何将机器学习与hadoop对接 不考虑安装二次开发运行 数据是机器学习的核心 hadoop框架 谷歌100亿网页 2011年谷歌100万台服务器 双十一购物信息统计机 ...
- Hadoop原理及部署初探
Hadoop Hadoop为何物 Hadoop是一个分布式系统基础架构,由Apache基金会所开发. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储. Had ...
最新文章
- ckedit 文本编辑器
- Redis中RedisTemplate和Redisson管道的使用
- css 选择一列表菜单,css实现菜单列表随滚动条指定到对应内容
- 内存的动态分配过程分析
- Centos7安装并配置mysql5.6
- c++11 多线程 2c++ concurrency in action
- word vba 读出光标所在的列数_word高效技巧:这几个表格操作让工作更快速
- 【MyBatis-Plus】第一章 快速入门
- ASP.“.NET研究”NET MVC 3 —— Model的使用?
- Python实现学生出勤记录
- java web-inf_对JavaWeb项目中WEB-INF目录的理解
- 测试用例设计方法——正交表详解
- Cnskype移动办公现状分析管理
- amr 转mp3 android,安卓批量amr转mp3 微信amr批量转换
- c语言中指数常量注意什么意思,C语言入门知识:常量
- 《Visual Basic.Net 循序渐进》阅读器说明
- 悬挂缩进 java,c#Word Interop - 设置段落缩进
- 加州理工学院宋飏老师招收机器学习全奖博士生|2023秋季
- 一个清包网友的装修清单3--给广大TX参考!清包路漫漫啊!~~~
- 百度搜狗神马搜索劫持 来源网站跳转 快照霸屏 竞价劫持 霸屏代码