CDH-distcp
一、OVERVIEW
就是让在集群1中认证的主体可以访问集群2中的服务
trips:
1. 2个集群的realm的名字必须不同,realm名要唯一
https://superuser.com/questions/1465073/how-to-enable-trust-between-two-kdcs-with-same-kerberos-realm-and-same-domain-n
2. distcpConf目录下必须含有yarn-site.xml和mapred-site.xml,否则会报cant get master kerberos principal
,生产中的z4节点没有yarn的gateway,所以z4的/etc/hadoop/conf中也没有yarn-site.xml和mapred-site.xml。解决方法有2个,从别的节点复制这些配文或者给z4加个yarn的gateway。
3. distcp会自动创建目的地不存在的目录,但会把最后一级目录当成文件名
。如果加-overwrite参数,则最后一级会当做目录,文件名从源集群取。
hadoop distcp /distcp-test/* hdfs://192.168.233.106/distp-test2/dist-cp-test3/
# 目标目录distp-test2/会自动创建,而下一级的dist-cp-test3/会当成文件名
hadoop distcp -overwrite /distcp-test/* hdfs://192.168.233.106/distp-test2/dist-cp-test4/
4. 传闻2个CDH版本差距过大就不能同时用hdfs协议,一个用hdfs一个用webhdfs
二、配置kerberos互信
1.在2个集群中分别创建2个krbtgt的主体
kadmin.local
addprinc -e "des3-hmac-sha1:normal des-cbc-crc:normal" krbtgt/XYYH.COM@XYYH2.COM
addprinc -e "des3-hmac-sha1:normal des-cbc-crc:normal" krbtgt/XYYH2.COM@XYYH.COM
2. 在源、目标2个集群分别配置krb5.conf
[realm]添加realm
[domain_realm]中添加自己和要互信的集群的所有主机名和realm的映射。同时配置为任务域名都能映射(添加一条前面带点的条目)
[capaths]中添加
分发到所有节点
3. 在/etc/hosts中添加自己和对方的 ip -> 主机名 -> 别名 映射
分发到所有节点
如果只配了NN上的hosts,则有可能会报错:对方的主机名找不到
4.CM配置
添加收信人的kerberos realm
添加kv对
5.创建接受数据的目录,在hdfs上
6.创建HA配置文件
用应用用户登陆源集群
的工具节点(有hdfs、hive、yarn的gateway)
mkdir /cib/distcpConf
cd /cib/distcpConf
cp /etc/hadoop/conf/* ./
用应用用户登陆目标集群
的工具节点(有hdfs、hive、yarn的gateway),
vim /etc/hadoop/conf/hdfs-site.xml
复制如下属性粘贴在源集群的distcpConf目录下的hdfs-ste.xml中
7.验证
hadoop --config /distcpConf distcp
-Dmapreduce.job.hdfs-servers.token-renewal.exclude=nameservice2
-overwrite -delete
源目录(可设多个)
hdfs://nameservice2:8020/目标目录
此时,在源集群认证的用户,在目标集群也可以得到认证的Ticket cache
三、distcp的语法
自动创建目录
可以多源对一目,如果源不存在,则会报错终止执行
1. args
distcp [OPTIONS] <srcurl> * <desturl>选项:
-p [rbugp] 状态r:复制数b:块大小u:用户g:组p:权限t:修改和访问时间-p单独相当于-prbugpt-i 忽略失败-basedir <basedir> 从<srcurl>复制文件时,使用<basedir>作为基本目录-log <logdir> 将日志写入<logdir>-m <num_maps> 最大并发副本数-overwrite 覆盖目的地-update 如果src大小与dst大小不同,则覆盖-skipcrccheck 不要使用CRC检查来确定src是否是 不同于dest。-copybychunk 剁碎和复制的文件-f <urilist_uri> 将<urilist_uri>中的列表用作src列表-filelimit <n> 将文件的总数限制为<= n-filelimitpermap <n> 每个地图要复制的最大文件数-sizelimit <n> 将总大小限制为<= n个字节-sizelimitpermap <n> 每个映射要复制的最大字节数-delete 删除dst中存在的文件,但不在src中注:很有用的参数,可以保证dst目录和src目录一致,比如传输hive的数据文件时,有的文件名中有随机数字导致每次的结果文件都不一样,此时用这个参数,可以避免每次都追加-mapredSslConf <f> 映射器任务的SSL配置文件名-usefastcopy 使用FastCopy(仅适用于DFS)注1:如果设置了-overwrite或-update,则每个源URI和目标URI保持同级一致。例如:hadoop distcp -p -update hdfs://A:9000//home/aa hdfs://B:9000//home/bb支持的通用选项是-conf <configuration file>指定应用程序配置文件-D <property = value>给定属性的使用值-fs <local | namenode:port>指定一个namenode-jt <local | jobtracker:port>指定jobtracker在corona上-jtold <local | jobtracker:port>指定jobtracker在mapreduce上-files <逗号分隔的文件列表>指定要复制到map reduce cluster的逗号分隔文件-libjars <逗号分隔的jars列表> 指定要包含在类路径中的逗号分隔的jar文件。-archives <逗号分隔的归档列表> 指定要在计算机上取消归档的逗号分隔的归档。
CDH-distcp相关推荐
- cloudera manager 及CDH卸载
记录用户数据路径 删除用户数据 中列出的用户数据路径 /var/lib/flume-ng /var/lib/hadoop* /var/lib/hue /var/lib/navigator /var/l ...
- cdh官方文档看后小结(含优化项)001
2019/3/22 星期五 1.安装后,能装getway的都要装getway 2.静态资源分配默认不打开 3.Cloudera使用以下版本控制约定:major.minor.maintenance. 如 ...
- [CDH安装]--CDH5和Cloudera Manager 5要求和支持的版本
原文: https://www.cloudera.com/documentation/enterprise/release-notes/topics/rn_consolidated_pcm.html# ...
- 10.CM与CDH的卸载
10.1 实验内容环境介绍 基于CDH使用parcels安装且未配置安全(AD/LDAP, Kerberos, Data Encryption)的集群 测试环境: 操作系统版本:CENTOS6.5 M ...
- CDH 丢失块及副本不足的块
备注: CDH 6.3.1 文章目录 一.问题描述 二.解决方案 2.1 丢失块查找 2.2 解决oozie副本块不足的问题 2.2.1 设置3个副本模式 2.2.2 删除坏的块: 参考 一.问题描述 ...
- CDH大数据集群安全风险汇总
一,风险分为内部和外部 首先内部: CDH大数据集群部署过程中会自动创建以服务命名的用户,如图所示 用户名(login_name):口令位置(passwd):用户标识号(UID):用户组标识号(GID ...
- 离线部署 CDH 5.12.1 及使用 CDH 部署 Hadoop 大数据平台集群服务
Cloudera Manager Cloudera Manager 分为两个部分:CDH和CM. CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera ...
- cdh 安装_0623-6.2.0-如何在CDH中安装CFM
1.文档编写目的 2019年4月15日,Cloudera在其官网宣布GA两款新的产品Cloudera Flow Management和Cloudera Edge Management,即CFM和CEM ...
- cdh的集成phoenix安装_环境篇:Kylin3.0.1集成CDH6.2.0
环境篇:Kylin3.0.1集成CDH6.2.0 Kylin是什么? Apache Kylin™是一个开源的.分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析( ...
- 02搭建cdh版本控制
cdh版本控制 CDH安装包下载地址 http://archive.cloudera.com/cdh5/parcels/5.13.0/ Cloudera Manager下载地址 http://arch ...
最新文章
- Watir-webdriver处理table
- Windows/Linux中手动添加路由
- 语音识别插件_2D动画唇动合成,根据语音自动生成动画人物口型
- 前端学习(2483):修改文章
- Linux系统编程10:进程入门之系统编程中最重要的概念之进程进程的相关操作使用fork创建进程
- 聊聊redisson的分布式锁
- 微信公号“架构师之路”学习笔记(三)-MQ消息可达性_幂等性_延时性架构设计(应用场景、可靠投递、流量冲击)
- 从零开始学ArcGIS Server(三)--如何创建一个个人地理数据库ArcSDE Personal geodatabase...
- 利用python获取tushare 财经数据
- 形式化验证学习——什么是形式化?Formal
- 手机最好的html5浏览器,哪款浏览器最好用:六款主流手机浏览器横评
- Java线程的状态及主要转化方法
- python爬虫面试自我介绍范文_程序员求职面试自我介绍范文4篇
- CST电磁仿真GPU计算工作站、集群最新配置推荐2022
- 10度角的三角函数计算
- 计算机设备不能正常启动怎么办,电脑没有找到可引导设备怎么办
- 教你使用SQLite Autoincrement(自动递增)
- 【AIGC使用教程】Notion AI 从注册到体验:如何免费使用
- linux bios设置界面,BIOS怎么设置 史上最详细的bios设置图解教程
- 仿视频字幕弹幕网站Miko二次元动漫视频网站源码