数据迁移场景:
  冷热集群数据分类存储;集群数据整体迁移;数据的准实时同步,目的在于数据的双备份可用。
数据迁移需要考虑的因素:
  带宽、性能、增量同步(原始数据文件进行了追加写、被删除或重命名)、数据迁移的同步性。

1 scp实现两个远程主机间的文件复制

语法:scp -r 源数据 目标地址

scp -r hello.txt root@hadoop104:/user/liaoyanxia/hello.txt   //推
scp -r root@hadoop103/user/liaoyanxia/hello.txt hello.txt   //拉
scp- r root@hadoop103/user/liaoyanxia/hello.txt root@hadoop104/user/liaoyanxia/hello.txt   //是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。

2 distcp实现两个Hadoop集群间的数据复制

bin/hadoop distcp hdfs://hadoop102:8020/user/liaoyanxia/hello.txt hdfs://hadoop105/user/liaoyanxia/hello.txt

  DistCP的本质是一个 MapReduce 任务,只有 Map 阶段,没有 Reduce 阶段,具备分布式执行的特性,在 Map 任务中从老集群读取数据,然后写入新集群。

DistCP 支持带宽限流,可以通过参数 bandwidth 来控制。

增量同步数据,通过 update、append、diff 这 3 个参数来控制:
  Update:更新目标路径,只拷贝相对于源端,目标端不存在的文件或目录。
  Append:追加写目标路径下已经存在的文件,如果这个文件在源端已经发生了追加写操作。
  Diff:通过快照的diff对比信息来同步源路径与目标路径。

高效的性能:执行的分布式特性(纯 map 任务构成的 job)、高效的 MR 组件。

【大数据之Hadoop】三十一、HDFS集群迁移之Apache和Apache集群间数据拷贝相关推荐

  1. JAVA大数据(二) Hadoop 分布式文件系统HDFS 架构,MapReduce介绍,Yarn资源调度

    文章目录 1.分布式文件系统HDFS 1.HDFS的来源 2.HDFS的架构图之基础架构 2.1 master/slave 架构 2.2 名字空间(NameSpace) 2.3 文件操作 2.4副本机 ...

  2. 打怪升级之小白的大数据之旅(三十一)<JavaSE总结>

    打怪升级之小白的大数据之旅(三十) JavaSE总结 引言 Java这只小怪物我们已经练级差不多了,明天我们将进入新的旅程了,所以,我要对前面的整个JavaSE知识点进行总结,就像积攒够了经验升级一样 ...

  3. Apache Durid 数据存储(Hadoop概述 安装 HDFS概述 数据存储遇到的问题)

    Apache Durid 数据存储 Apache Durid 数据存储 1. 分布式技术 1.1 为什么需要分布式 1.1.1 计算问题 1.1.2 存储问题 1.2 分布式系统概述 1.3 分布式实 ...

  4. 2021年大数据Spark(三十一):Spark On Hive

    目录 Spark On Hive spark-sql中集成Hive Spark代码中集成Hive Spark On Hive Spark SQL模块从发展来说,从Apache Hive框架而来,发展历 ...

  5. 大数据学习(三十一)数据仓库如何处理缓慢变化维

    以下内容结合了<大数据之路-阿里巴巴大数据实践>书中的内容,就如何处理缓慢变化维话题进行展开. 前言:维度的属性也是会发生变化的,只不过相较于事实表而言,变化的速度是极其缓慢的,那我们是否 ...

  6. 2021年大数据Flink(三十一):​​​​​​​Table与SQL案例准备 依赖和​​​​​​​程序结构

    目录 案例准备 依赖 ​​​​​​​程序结构 ​​​​​​​案例准备 依赖 https://ci.apache.org/projects/flink/flink-docs-release-1.12/d ...

  7. 大数据Spark(三十一):Spark On Hive

    文章目录 Spark On Hive spark-sql中集成Hive Spark代码中集成Hive Spark On Hive Spark SQL模块从发展来说,从Apache Hive框架而来,发 ...

  8. 大数据处理实验(三)HDFS基本操作实验

    HDFS基本操作实验 1.Hadoop配置环境变量 2.列出当前目录下的文件 3.级联创建一个文件夹,类似这样一个目录:/mybook/input 4.上传文件至HDFS 5.从HDFS上下载文件 6 ...

  9. Hadoop分布式文件系统——HDFS

    一.介绍 HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错.高吞吐量等特性,可以部署在低成本的硬件上. 二.HDFS 设计原理 ...

  10. Hadoop分布式文件系统——HDFS原理简介

    阅读前必看 这篇文章与其说是一篇文章,不如说是一篇在家学习的笔记,其中大部分内容来自于github上一个大神的开源笔记,在此附上链接,表达版权所属以及敬意:github源地址 一.介绍 HDFS(Ha ...

最新文章

  1. 7-26晚上实现mystring
  2. 迭代器 生成器 装饰器 匿名函数
  3. 80后创业故事之:兄弟散伙,创业失败(转)
  4. 入门云数据库Redis,满足你的高读写性能场景需求
  5. 阿里云物联网边缘计算加载MQTT驱动
  6. 02-CSS基础与进阶-day4__2018-08-31-21-33-03
  7. 计算机科学的知识领域
  8. bzoj3196 二逼平衡树——线段树套平衡树
  9. 《Smynes游戏模拟器官方版》
  10. 子列和列_最大子列和的四种算法总结
  11. wordpress如何获取文章图片及图片路径
  12. 【无标题】adsa da das
  13. 世硕电子发放员工证件随手扔地上,其实是一种服从性测试
  14. php 多关键字搜索,php 多关键字搜索示例
  15. 【渝粤题库】广东开放大学 风险投资 形成性考核
  16. AppleParty(苹果派)v3 支持 App Store 新定价机制 - 批量配置自定价格和销售范围
  17. Android:EditText 输入字母时小写自动转为大写
  18. pip 查看可安装版本
  19. windows关机与重启bat脚本
  20. CSS 给背景图加颜色遮罩

热门文章

  1. (ZT) 职场话题:我拿什么来留住你?我的员工!
  2. 扇形电容半径究竟多大?
  3. splinterlands链游开发 链游开发app 链游开发公司
  4. Excel 2016从一列中筛选全是字母或者中文的单元格
  5. java不可以修改的修饰语,在Java程序中,用关键字_修饰的常量对象创建后就不能再修改了。...
  6. 使用蜻蜓安全挖掘漏洞实践(一)
  7. 如何恢复手机误删的短信?只需三招就能恢复
  8. 百度智能云产业智能化新生态,新在哪里?
  9. PyTorch 迁移学习 (Transfer Learning) 代码详解
  10. 标签模板(Template)