【大数据之Hadoop】三十一、HDFS集群迁移之Apache和Apache集群间数据拷贝
数据迁移场景:
冷热集群数据分类存储;集群数据整体迁移;数据的准实时同步,目的在于数据的双备份可用。
数据迁移需要考虑的因素:
带宽、性能、增量同步(原始数据文件进行了追加写、被删除或重命名)、数据迁移的同步性。
1 scp实现两个远程主机间的文件复制
语法:scp -r 源数据 目标地址
scp -r hello.txt root@hadoop104:/user/liaoyanxia/hello.txt //推
scp -r root@hadoop103/user/liaoyanxia/hello.txt hello.txt //拉
scp- r root@hadoop103/user/liaoyanxia/hello.txt root@hadoop104/user/liaoyanxia/hello.txt //是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。
2 distcp实现两个Hadoop集群间的数据复制
bin/hadoop distcp hdfs://hadoop102:8020/user/liaoyanxia/hello.txt hdfs://hadoop105/user/liaoyanxia/hello.txt
DistCP的本质是一个 MapReduce 任务,只有 Map 阶段,没有 Reduce 阶段,具备分布式执行的特性,在 Map 任务中从老集群读取数据,然后写入新集群。
DistCP 支持带宽限流,可以通过参数 bandwidth 来控制。
增量同步数据,通过 update、append、diff 这 3 个参数来控制:
Update:更新目标路径,只拷贝相对于源端,目标端不存在的文件或目录。
Append:追加写目标路径下已经存在的文件,如果这个文件在源端已经发生了追加写操作。
Diff:通过快照的diff对比信息来同步源路径与目标路径。
高效的性能:执行的分布式特性(纯 map 任务构成的 job)、高效的 MR 组件。
【大数据之Hadoop】三十一、HDFS集群迁移之Apache和Apache集群间数据拷贝相关推荐
- JAVA大数据(二) Hadoop 分布式文件系统HDFS 架构,MapReduce介绍,Yarn资源调度
文章目录 1.分布式文件系统HDFS 1.HDFS的来源 2.HDFS的架构图之基础架构 2.1 master/slave 架构 2.2 名字空间(NameSpace) 2.3 文件操作 2.4副本机 ...
- 打怪升级之小白的大数据之旅(三十一)<JavaSE总结>
打怪升级之小白的大数据之旅(三十) JavaSE总结 引言 Java这只小怪物我们已经练级差不多了,明天我们将进入新的旅程了,所以,我要对前面的整个JavaSE知识点进行总结,就像积攒够了经验升级一样 ...
- Apache Durid 数据存储(Hadoop概述 安装 HDFS概述 数据存储遇到的问题)
Apache Durid 数据存储 Apache Durid 数据存储 1. 分布式技术 1.1 为什么需要分布式 1.1.1 计算问题 1.1.2 存储问题 1.2 分布式系统概述 1.3 分布式实 ...
- 2021年大数据Spark(三十一):Spark On Hive
目录 Spark On Hive spark-sql中集成Hive Spark代码中集成Hive Spark On Hive Spark SQL模块从发展来说,从Apache Hive框架而来,发展历 ...
- 大数据学习(三十一)数据仓库如何处理缓慢变化维
以下内容结合了<大数据之路-阿里巴巴大数据实践>书中的内容,就如何处理缓慢变化维话题进行展开. 前言:维度的属性也是会发生变化的,只不过相较于事实表而言,变化的速度是极其缓慢的,那我们是否 ...
- 2021年大数据Flink(三十一):Table与SQL案例准备 依赖和程序结构
目录 案例准备 依赖 程序结构 案例准备 依赖 https://ci.apache.org/projects/flink/flink-docs-release-1.12/d ...
- 大数据Spark(三十一):Spark On Hive
文章目录 Spark On Hive spark-sql中集成Hive Spark代码中集成Hive Spark On Hive Spark SQL模块从发展来说,从Apache Hive框架而来,发 ...
- 大数据处理实验(三)HDFS基本操作实验
HDFS基本操作实验 1.Hadoop配置环境变量 2.列出当前目录下的文件 3.级联创建一个文件夹,类似这样一个目录:/mybook/input 4.上传文件至HDFS 5.从HDFS上下载文件 6 ...
- Hadoop分布式文件系统——HDFS
一.介绍 HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错.高吞吐量等特性,可以部署在低成本的硬件上. 二.HDFS 设计原理 ...
- Hadoop分布式文件系统——HDFS原理简介
阅读前必看 这篇文章与其说是一篇文章,不如说是一篇在家学习的笔记,其中大部分内容来自于github上一个大神的开源笔记,在此附上链接,表达版权所属以及敬意:github源地址 一.介绍 HDFS(Ha ...
最新文章
- 7-26晚上实现mystring
- 迭代器 生成器 装饰器 匿名函数
- 80后创业故事之:兄弟散伙,创业失败(转)
- 入门云数据库Redis,满足你的高读写性能场景需求
- 阿里云物联网边缘计算加载MQTT驱动
- 02-CSS基础与进阶-day4__2018-08-31-21-33-03
- 计算机科学的知识领域
- bzoj3196 二逼平衡树——线段树套平衡树
- 《Smynes游戏模拟器官方版》
- 子列和列_最大子列和的四种算法总结
- wordpress如何获取文章图片及图片路径
- 【无标题】adsa da das
- 世硕电子发放员工证件随手扔地上,其实是一种服从性测试
- php 多关键字搜索,php 多关键字搜索示例
- 【渝粤题库】广东开放大学 风险投资 形成性考核
- AppleParty(苹果派)v3 支持 App Store 新定价机制 - 批量配置自定价格和销售范围
- Android:EditText 输入字母时小写自动转为大写
- pip 查看可安装版本
- windows关机与重启bat脚本
- CSS 给背景图加颜色遮罩
热门文章
- (ZT) 职场话题:我拿什么来留住你?我的员工!
- 扇形电容半径究竟多大?
- splinterlands链游开发 链游开发app 链游开发公司
- Excel 2016从一列中筛选全是字母或者中文的单元格
- java不可以修改的修饰语,在Java程序中,用关键字_修饰的常量对象创建后就不能再修改了。...
- 使用蜻蜓安全挖掘漏洞实践(一)
- 如何恢复手机误删的短信?只需三招就能恢复
- 百度智能云产业智能化新生态,新在哪里?
- PyTorch 迁移学习 (Transfer Learning) 代码详解
- 标签模板(Template)