一、OVERVIEW

就是让在集群1中认证的主体可以访问集群2中的服务
trips:

1. 2个集群的realm的名字必须不同,realm名要唯一

https://superuser.com/questions/1465073/how-to-enable-trust-between-two-kdcs-with-same-kerberos-realm-and-same-domain-n

2. distcpConf目录下必须含有yarn-site.xml和mapred-site.xml,否则会报cant get master kerberos principal,生产中的z4节点没有yarn的gateway,所以z4的/etc/hadoop/conf中也没有yarn-site.xml和mapred-site.xml。解决方法有2个,从别的节点复制这些配文或者给z4加个yarn的gateway。

3. distcp会自动创建目的地不存在的目录,但会把最后一级目录当成文件名。如果加-overwrite参数,则最后一级会当做目录,文件名从源集群取。

hadoop distcp /distcp-test/* hdfs://192.168.233.106/distp-test2/dist-cp-test3/
#   目标目录distp-test2/会自动创建,而下一级的dist-cp-test3/会当成文件名

hadoop distcp -overwrite  /distcp-test/* hdfs://192.168.233.106/distp-test2/dist-cp-test4/

4. 传闻2个CDH版本差距过大就不能同时用hdfs协议,一个用hdfs一个用webhdfs

二、配置kerberos互信

1.在2个集群中分别创建2个krbtgt的主体

kadmin.local
addprinc -e "des3-hmac-sha1:normal des-cbc-crc:normal" krbtgt/XYYH.COM@XYYH2.COM
addprinc -e "des3-hmac-sha1:normal des-cbc-crc:normal" krbtgt/XYYH2.COM@XYYH.COM

2. 在源、目标2个集群分别配置krb5.conf

[realm]添加realm

[domain_realm]中添加自己和要互信的集群的所有主机名和realm的映射。同时配置为任务域名都能映射(添加一条前面带点的条目)

[capaths]中添加

分发到所有节点

3. 在/etc/hosts中添加自己和对方的 ip -> 主机名 -> 别名 映射


分发到所有节点
如果只配了NN上的hosts,则有可能会报错:对方的主机名找不到

4.CM配置

添加收信人的kerberos realm
添加kv对


5.创建接受数据的目录,在hdfs上

6.创建HA配置文件

用应用用户登陆源集群的工具节点(有hdfs、hive、yarn的gateway)

mkdir /cib/distcpConf
cd /cib/distcpConf
cp /etc/hadoop/conf/* ./

用应用用户登陆目标集群的工具节点(有hdfs、hive、yarn的gateway),

vim /etc/hadoop/conf/hdfs-site.xml

复制如下属性粘贴在源集群的distcpConf目录下的hdfs-ste.xml中

7.验证

hadoop --config /distcpConf distcp
-Dmapreduce.job.hdfs-servers.token-renewal.exclude=nameservice2
-overwrite -delete
源目录(可设多个)
hdfs://nameservice2:8020/目标目录

此时,在源集群认证的用户,在目标集群也可以得到认证的Ticket cache

三、distcp的语法

自动创建目录
可以多源对一目,如果源不存在,则会报错终止执行

1. args

distcp [OPTIONS] <srcurl> * <desturl>选项:
-p [rbugp]             状态r:复制数b:块大小u:用户g:组p:权限t:修改和访问时间-p单独相当于-prbugpt-i                     忽略失败-basedir <basedir>     从<srcurl>复制文件时,使用<basedir>作为基本目录-log <logdir>          将日志写入<logdir>-m <num_maps>          最大并发副本数-overwrite             覆盖目的地-update                如果src大小与dst大小不同,则覆盖-skipcrccheck          不要使用CRC检查来确定src是否是 不同于dest。-copybychunk           剁碎和复制的文件-f <urilist_uri>       将<urilist_uri>中的列表用作src列表-filelimit <n>         将文件的总数限制为<= n-filelimitpermap <n>   每个地图要复制的最大文件数-sizelimit <n>         将总大小限制为<= n个字节-sizelimitpermap <n>   每个映射要复制的最大字节数-delete                删除dst中存在的文件,但不在src中注:很有用的参数,可以保证dst目录和src目录一致,比如传输hive的数据文件时,有的文件名中有随机数字导致每次的结果文件都不一样,此时用这个参数,可以避免每次都追加-mapredSslConf <f>     映射器任务的SSL配置文件名-usefastcopy           使用FastCopy(仅适用于DFS)注1:如果设置了-overwrite或-update,则每个源URI和目标URI保持同级一致。例如:hadoop distcp -p -update hdfs://A:9000//home/aa  hdfs://B:9000//home/bb支持的通用选项是-conf <configuration file>指定应用程序配置文件-D <property = value>给定属性的使用值-fs <local | namenode:port>指定一个namenode-jt <local | jobtracker:port>指定jobtracker在corona上-jtold <local | jobtracker:port>指定jobtracker在mapreduce上-files <逗号分隔的文件列表>指定要复制到map reduce cluster的逗号分隔文件-libjars <逗号分隔的jars列表> 指定要包含在类路径中的逗号分隔的jar文件。-archives <逗号分隔的归档列表> 指定要在计算机上取消归档的逗号分隔的归档。

CDH-distcp相关推荐

  1. cloudera manager 及CDH卸载

    记录用户数据路径 删除用户数据 中列出的用户数据路径 /var/lib/flume-ng /var/lib/hadoop* /var/lib/hue /var/lib/navigator /var/l ...

  2. cdh官方文档看后小结(含优化项)001

    2019/3/22 星期五 1.安装后,能装getway的都要装getway 2.静态资源分配默认不打开 3.Cloudera使用以下版本控制约定:major.minor.maintenance. 如 ...

  3. [CDH安装]--CDH5和Cloudera Manager 5要求和支持的版本

    原文: https://www.cloudera.com/documentation/enterprise/release-notes/topics/rn_consolidated_pcm.html# ...

  4. 10.CM与CDH的卸载

    10.1 实验内容环境介绍 基于CDH使用parcels安装且未配置安全(AD/LDAP, Kerberos, Data Encryption)的集群 测试环境: 操作系统版本:CENTOS6.5 M ...

  5. CDH 丢失块及副本不足的块

    备注: CDH 6.3.1 文章目录 一.问题描述 二.解决方案 2.1 丢失块查找 2.2 解决oozie副本块不足的问题 2.2.1 设置3个副本模式 2.2.2 删除坏的块: 参考 一.问题描述 ...

  6. CDH大数据集群安全风险汇总

    一,风险分为内部和外部 首先内部: CDH大数据集群部署过程中会自动创建以服务命名的用户,如图所示 用户名(login_name):口令位置(passwd):用户标识号(UID):用户组标识号(GID ...

  7. 离线部署 CDH 5.12.1 及使用 CDH 部署 Hadoop 大数据平台集群服务

    Cloudera Manager Cloudera Manager 分为两个部分:CDH和CM. CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera ...

  8. cdh 安装_0623-6.2.0-如何在CDH中安装CFM

    1.文档编写目的 2019年4月15日,Cloudera在其官网宣布GA两款新的产品Cloudera Flow Management和Cloudera Edge Management,即CFM和CEM ...

  9. cdh的集成phoenix安装_环境篇:Kylin3.0.1集成CDH6.2.0

    环境篇:Kylin3.0.1集成CDH6.2.0 Kylin是什么? Apache Kylin™是一个开源的.分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析( ...

  10. 02搭建cdh版本控制

    cdh版本控制 CDH安装包下载地址 http://archive.cloudera.com/cdh5/parcels/5.13.0/ Cloudera Manager下载地址 http://arch ...

最新文章

  1. Watir-webdriver处理table
  2. Windows/Linux中手动添加路由
  3. 语音识别插件_2D动画唇动合成,根据语音自动生成动画人物口型
  4. 前端学习(2483):修改文章
  5. Linux系统编程10:进程入门之系统编程中最重要的概念之进程进程的相关操作使用fork创建进程
  6. 聊聊redisson的分布式锁
  7. 微信公号“架构师之路”学习笔记(三)-MQ消息可达性_幂等性_延时性架构设计(应用场景、可靠投递、流量冲击)
  8. 从零开始学ArcGIS Server(三)--如何创建一个个人地理数据库ArcSDE Personal geodatabase...
  9. 利用python获取tushare 财经数据
  10. 形式化验证学习——什么是形式化?Formal
  11. 手机最好的html5浏览器,哪款浏览器最好用:六款主流手机浏览器横评
  12. Java线程的状态及主要转化方法
  13. python爬虫面试自我介绍范文_程序员求职面试自我介绍范文4篇
  14. CST电磁仿真GPU计算工作站、集群最新配置推荐2022
  15. 10度角的三角函数计算
  16. 计算机设备不能正常启动怎么办,电脑没有找到可引导设备怎么办
  17. 教你使用SQLite Autoincrement(自动递增)
  18. 【AIGC使用教程】Notion AI 从注册到体验:如何免费使用
  19. linux bios设置界面,BIOS怎么设置 史上最详细的bios设置图解教程
  20. 仿视频字幕弹幕网站Miko二次元动漫视频网站源码

热门文章

  1. 《液晶显示器和液晶电视维修核心教程》——2.2 电容类
  2. 时间管理之四象限法则
  3. 二、Redis数据结构
  4. 虫食算-详解-noip2004-深搜
  5. 这样的简历,到哪里都是被淘汰的命!
  6. h3c端口聚合实现服务器增加带宽,H3C动态链路聚合对接服务器双网卡
  7. 电源系统分析之电源综合分析
  8. 使用nginx反向代理实现隐藏端口号
  9. html红绿灯倒计时,百度地图红绿灯倒计时怎么设置? 红绿灯倒计时设置方法教程...
  10. 屏蔽各类弹窗广告(WPS、智能云输入法)