CDH简单了解

CDH: C:cloudera(公司) D:distribute H:Hadoop

解决了大数据Hadoop 2.x生态系统中各个框架的版本兼容问题,不用自己编译, CDH适合商用,版本更新比较慢,也可以选择其他版本。

CDH版本的安装

在线:不推荐,受网速影响

离线:rpm包,tar包

之前已经安装使用过Apache版本的Hadoop,这次为了区分,我们再单独见一个cdh目录,用于安装cdh版本的Hadoop、Hive和Sqoop。在使用sqoop需要先部署CDH版本的Hadoop&Hive,CDH版本和apache版本的服务不要混用,只开启CDH或者只开启apache服务就可以。

安装过程(YUM源已安装好、系统版本CentOS6.5、java版本是1.7)

首先我们先创建好目录

准备好安装包

创建目录 mkdir –p /opt/bigdata

解压安装包

tar -zxvf sqoop-1.4.5-cdh5.3.6.tar.gz -C /opt/bigdata/

tar -zxvf hive-0.13.1-cdh5.3.6.tar.gz -C /opt/bigdata/

tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz -C /opt/bigdata/

我们进入hadoop目录,把share下doc目录东西删除掉,这个用处不大

配置三个env(hadoop,mapred,yarn)文件

export JAVA_HOME= /usr/lib/jvm/java-1.7.0-openjdk.x86_64

编辑三个文件

编辑内容

4个site.xml文件

core:(修改主机名,tmp.dir目录并在linux下创建相应目录,用户名)

hdfs:(修改主机名)

mapred:需先重命名(修改主机名)

yarn:(修改主机名)

core-site.xml

fs.defaultFS

hdfs://mastercdh:8020

hadoop.tmp.dir

/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp

hdfs-site.xml

dfs.replication

1

dfs.permissions.enabled

false

dfs.namenode.secondary.http-address

mastercdh:50090

将这个文件重命名为mapred-site.xml

mapred-site.xml

mapreduce.framework.name

yarn

mapreduce.jobhistory.address

mastercdh:10020

mapreduce.jobhistory.webapp.address

mastercdh:19888

yarn-site.xml

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.resourcemanager.hostname

mastercdh

yarn.log-aggregation-enable

true

yarn.log-aggregation.retain-seconds

106800

格式化namenode

$ bin/hdfs namenode –format

启动服务

开启各服务:

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

sbin/hadoop-daemon.sh start secondarynamenode

sbin/mr-jobhistory-daemon.sh start historyserver

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

关闭服务

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh stop datanode

sbin/hadoop-daemon.sh stop secondarynamenode

sbin/mr-jobhistory-daemon.sh stop historyserver

sbin/yarn-daemon.sh stop resourcemanager

sbin/yarn-daemon.sh stop nodemanager

我们开启服务

配置SSH免密登陆可使用:

$ sbin/start-dfs.sh

$ sbin/start-yarn.sh

$ sbin/start-all.sh

我们访问下,和apache版本相比,页面颜色有变化

安装mysql

检查下是否已下载还有卸载残留

rpm -qa | grep mysql

find / -name mysql

看来还是有的,通过rm -rf将以上目录删掉即可,另外顺便把配置文件/etc/my.cnf也删掉吧,用rm –f

安装mysql

yum -y install mysql mysql-server

安装mysql扩展

yum -y install mysql-connector-odbc mysql-devel libdbi-dbd-mysql

启动mysql

service mysqld start

设置开启启动: chkconfig mysqld on

检查下

chkconfig | grep mysql

设置登录密码:mysqladmin -u root password 'password'

进入数据库,查询用户信息

设置远程登录权限

grant all privileges on *.* to 'root'@'%' identified by 'password' with grant option;

删除用户信息

delete from user where user='root' and host='127.0.0.1';

刷新信息

flush privileges;

update user set password = password("password") where user ="root" and host = "mastercdh";

flush privileges;

重启mysqld服务

service mysqld restart

进入解压的hive目录中配置文件目录

先重命名hive-default.xml.template

mv hive-default.xml.template hive-site.xml

再重命名hive-env.sh.template

mv hive-env.sh.template hive-env.sh

再重命名hive-log4j.properties.template

mv hive-log4j.properties.template hive-log4j.properties

依次配置

首先hive-env.sh

HADOOP_HOME=/opt/bigdata/hadoop-2.5.0-cdh5.3.6

export HIVE_CONF_DIR=/opt/bigdata/hadoop-2.5.0-cdh5.3.6

编辑hive-site.xml,我们输入4000dd删除原来的内容

输入配置文件

j

javax.jdo.option.ConnectionURL

jdbc:mysql://mastercdh:3306/cdhmetastore?createDatabaseIfNotExist=true

javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

javax.jdo.option.ConnectionUserName

root

javax.jdo.option.ConnectionPassword

password

hive.cli.print.current.db

true

hive.cli.print.header

true

配置hive-log4j.properties

hive.log.dir=/opt/bigdata/hive-0.13.1-cdh5.3.6/logs

我们将准备好的mysql的jar包上传到lib目录下

mysql-connector-java-5.1.27-bin.jar

切换到Hadoop目录,建立目录,并修改权限

/user/hive/warehouse为Hive存放数据的目录

bin/hdfs dfs -mkdir -p /user/hive/warehouse

bin/hdfs dfs -chmod g+w /user/hive/warehouse

bin/hdfs dfs -chmod g+w /tmp

启动客户端使用Hive bin/hive就可以了

解压zookeeper

tar -zxvf zookeeper-3.4.5-cdh5.3.6.tar.gz -C /opt/bigdata/

进入zookkeeper目录,创建存放数据的目录

在conf目录里

cp -a zoo_sample.cfg zoo.cfg

然后修改:dataDir= /opt/bigdata/zookeeper-3.4.5-cdh5.3.6/zkData

启动

sbin/zkServer.sh start

可以去查看状态:sbin/zkServer.sh status

部署sqoop

解压sqoop后

配置conf/sqoop-env.sh

复制: cp -a sqoop-env-template.sh sqoop-env.sh

或直接重命名重命名hive-env.sh (去掉.template)

编辑文件

export HADOOP_COMMON_HOME=/opt/bigdata/hadoop-2.5.0-cdh5.3.6

export HADOOP_MAPRED_HOME=/opt/bigdata/hadoop-2.5.0-cdh5.3.6

export HIVE_HOME=/opt/bigdata/hive-0.13.1-cdh5.3.6

export ZOOCFGDIR=/opt/bigdata/zookeeper-3.4.5-cdh5.3.6

拷贝jdbc驱动包达到lib目录

查看帮助信息:bin/sqoop help

测试:sqoop连接mysql

bin/sqoop list-databases --connect jdbc:mysql://mastercdh:3306/ --username root --password password

hadoop jar包_快速搭建Hadoop-Hive-Zoopkeeper-Sqoop环境进入Sqoop学习环境相关推荐

  1. hadoop jar包_计算机毕业设计中hadoop上运行Java程序

    点击上方"蓝字",关注我们. 第一种:原生态运行jar包 1,利用eclipse编写Map-Reduce方法,一般引入Hadoop-core-1.1.2.jar.注意这里eclip ...

  2. hadoop jar包_【大数据学习】Hadoop的MR分布式开发小实战

    前提:hadoop集群应部署完毕. 一.实战科目 做一个Map Reduce分布式开发,开发内容为统计文件中的单词出现次数. 二.战前准备 1.本人在本地创建了一个用于执行MR的的文件,文件中有209 ...

  3. [hadoop笔记]基于CentOS7虚拟机搭建Hadoop完全分布模式(3个节点)

    文章目录 1. 安装前准备 ① 虚拟机配置 ⑤克隆虚拟机 ⑥ 对每个主机固定IP地址,修改主机名,做主机映射 ⑦ 免密登录设置 2. 搭建Hadoop完全分布模式 ① 修改Hadoop配置文件 ③ 分 ...

  4. flink sql udf jar包_编写Hive的UDF(查询平台数据同时向mysql添加数据)

    可能会有一些截图中会有错误提示,是因为本地的包一直包下载有问题,截完图已经下载好了. 创建包结构 创建一个基础信息类 所有输出到mysql数据库中的自定义MR任务的自定义key均需要实现该抽象类 代码 ...

  5. linux hadoop测试,快速搭建Hadoop环境并测试mapreduce

    目标: 安装测试本地单机Hadoop. 花费时间:10分钟 前提: java环境已经准备好 hadoop有三种运行方式,单机版包括直接本地运行,假多点环境,多点集群环境.本文测试第一种方法,快速部署h ...

  6. hadoop jar包_Hadoop学习之路(5)Mapreduce程序完成wordcount

    程序使用的测试文本数据: Dear RiverDear River Bear Spark Car Dear Car Bear CarDear Car River Car Spark Spark Dea ...

  7. kafka jar包_和同事交流不会kafka怎么行,API奉上,不是大神也能编

    对于kafka真的是又爱又恨,作为架构和大数据两个方面的通用者, 在这个数据量称雄的时代,越来越起到至关重要的作用,在和同事进行交流的时候,kafka在开发的过程中如何使用能起到最大的效果成为话题之一 ...

  8. 外部jar包_大数据系列之PySpark读写外部数据库

    本文以MySQL和HBASE为例,简要介绍Spark通过PyMySQL和HadoopAPI算子对外部数据库的读写操作 1.PySpark读写MySQL MySQL环境准备参考"数据库系列之M ...

  9. k8s部署jar包_学习K8S之路.6--- 在K8S中部署Jenkins,并使用Jenkins打包jar包

    一:部署jenkins jenkins官网:https://jenkins.io/download/ jenkins镜像:https://hub.docker.com/r/jenkins/jenkin ...

最新文章

  1. 转存储过程实现分页1
  2. P3830-[SHOI2012]随机树【数学期望,dp】
  3. 勇于尝鲜,感受世界——对话阿里云 MVP黄坤
  4. 模型调参(AutoML)— optuna
  5. java vuehello wotld,Vue Hello World
  6. I2C总线协议/地址详解
  7. 计算机二级黑板板书书写,清华老师们的板书惊艳朋友圈!8个板书技巧让黑板亮起来!...
  8. 具有免校准和带漏电检测功能的计量芯片HLW8112
  9. light动名词_英语里有些动词有名词形式,那还用不用它的动名词?怎么区分?...
  10. 2021全国电子设计大赛 D题 基于互联网的摄像测量系统 源码解析
  11. python scratch unity_极客晨星:少儿编程热门语言,除了Scratch还有哪些
  12. Win10联想拯救者如何打开和关闭键盘背光灯
  13. (一)微信小程序云开发之上传图片(全流程讲解)
  14. 图像信息隐藏(索引图象)
  15. inventor2五子棋游戏apk_五子棋大师2中文版游戏
  16. Keil报错:Undefined symbol GPIO_Init
  17. php快速搭建后台,基于thinkphp的后台管理系统模板快速搭建,thinkphp后台模板_PHP教程...
  18. python冷知识—程序员的快乐“\a“
  19. HHVM 是如何提升 PHP 性能的?
  20. 大众eagit_APR出品|APR重改高尔夫GIT 见证大众车型改装潜力 - 有车一族汽车网

热门文章

  1. 流式计算优化:时效性 [王方浩视角]
  2. 由一个小库存软件想到的
  3. hdc和hwnd的区别
  4. 网络分层模型OSI和TCP/IP四层模型
  5. ATPCS和AAPCS
  6. 不通过寄存器确定数据的长度 + 案例
  7. 安装好了pytorch,但不知道安装路径怎么办?——快速找到pytorch安装路径
  8. DM8168 开发环境搭建
  9. hdu-2066(Dijkstra)
  10. python有限循环_Python循环