【大数据之Hadoop】三十一、HDFS集群迁移之Apache和Apache集群间数据拷贝

数据迁移场景：
冷热集群数据分类存储；集群数据整体迁移；数据的准实时同步，目的在于数据的双备份可用。
数据迁移需要考虑的因素：
带宽、性能、增量同步（原始数据文件进行了追加写、被删除或重命名）、数据迁移的同步性。

1 scp实现两个远程主机间的文件复制

语法：scp -r 源数据目标地址

scp -r hello.txt root@hadoop104:/user/liaoyanxia/hello.txt   //推
scp -r root@hadoop103/user/liaoyanxia/hello.txt hello.txt   //拉
scp- r root@hadoop103/user/liaoyanxia/hello.txt root@hadoop104/user/liaoyanxia/hello.txt   //是通过本地主机中转实现两个远程主机的文件复制；如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。

2 distcp实现两个Hadoop集群间的数据复制

bin/hadoop distcp hdfs://hadoop102:8020/user/liaoyanxia/hello.txt hdfs://hadoop105/user/liaoyanxia/hello.txt

DistCP的本质是一个 MapReduce 任务，只有 Map 阶段，没有 Reduce 阶段，具备分布式执行的特性，在 Map 任务中从老集群读取数据，然后写入新集群。

DistCP 支持带宽限流，可以通过参数 bandwidth 来控制。

增量同步数据，通过 update、append、diff 这 3 个参数来控制：
Update：更新目标路径，只拷贝相对于源端，目标端不存在的文件或目录。
Append：追加写目标路径下已经存在的文件，如果这个文件在源端已经发生了追加写操作。
Diff：通过快照的diff对比信息来同步源路径与目标路径。

高效的性能：执行的分布式特性（纯 map 任务构成的 job）、高效的 MR 组件。

【大数据之Hadoop】三十一、HDFS集群迁移之Apache和Apache集群间数据拷贝相关推荐

JAVA大数据(二) Hadoop 分布式文件系统HDFS 架构，MapReduce介绍，Yarn资源调度
文章目录 1.分布式文件系统HDFS 1.HDFS的来源 2.HDFS的架构图之基础架构 2.1 master/slave 架构 2.2 名字空间(NameSpace) 2.3 文件操作 2.4副本机 ...
打怪升级之小白的大数据之旅(三十一)＜JavaSE总结＞
打怪升级之小白的大数据之旅(三十) JavaSE总结引言 Java这只小怪物我们已经练级差不多了,明天我们将进入新的旅程了,所以,我要对前面的整个JavaSE知识点进行总结,就像积攒够了经验升级一样 ...
Apache Durid 数据存储(Hadoop概述安装 HDFS概述数据存储遇到的问题)
Apache Durid 数据存储 Apache Durid 数据存储 1. 分布式技术 1.1 为什么需要分布式 1.1.1 计算问题 1.1.2 存储问题 1.2 分布式系统概述 1.3 分布式实 ...
2021年大数据Spark（三十一）：Spark On Hive
目录 Spark On Hive spark-sql中集成Hive Spark代码中集成Hive Spark On Hive Spark SQL模块从发展来说,从Apache Hive框架而来,发展历 ...
大数据学习（三十一）数据仓库如何处理缓慢变化维
以下内容结合了<大数据之路-阿里巴巴大数据实践>书中的内容,就如何处理缓慢变化维话题进行展开. 前言:维度的属性也是会发生变化的,只不过相较于事实表而言,变化的速度是极其缓慢的,那我们是否 ...
2021年大数据Flink（三十一）：Table与SQL案例准备依赖和程序结构
目录案例准备依赖程序结构案例准备依赖 https://ci.apache.org/projects/flink/flink-docs-release-1.12/d ...
大数据Spark（三十一）：Spark On Hive
文章目录 Spark On Hive spark-sql中集成Hive Spark代码中集成Hive Spark On Hive Spark SQL模块从发展来说,从Apache Hive框架而来,发 ...
大数据处理实验（三）HDFS基本操作实验
HDFS基本操作实验 1.Hadoop配置环境变量 2.列出当前目录下的文件 3.级联创建一个文件夹,类似这样一个目录:/mybook/input 4.上传文件至HDFS 5.从HDFS上下载文件 6 ...
Hadoop分布式文件系统——HDFS
一.介绍 HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错.高吞吐量等特性,可以部署在低成本的硬件上. 二.HDFS 设计原理 ...
Hadoop分布式文件系统——HDFS原理简介
阅读前必看这篇文章与其说是一篇文章,不如说是一篇在家学习的笔记,其中大部分内容来自于github上一个大神的开源笔记,在此附上链接,表达版权所属以及敬意:github源地址一.介绍 HDFS(Ha ...

【大数据之Hadoop】三十一、HDFS集群迁移之Apache和Apache集群间数据拷贝

1 scp实现两个远程主机间的文件复制

2 distcp实现两个Hadoop集群间的数据复制

【大数据之Hadoop】三十一、HDFS集群迁移之Apache和Apache集群间数据拷贝相关推荐

最新文章

热门文章