CentOS7下部署CDH5.9(HA)

文件下载
1.Cloudera Manager
http://archive.cloudera.com/cm5/cm/5/cloudera-manager-centos7-cm5.9.0_x86_64.tar.gz
2.CDH安装包
地址：http://archive.cloudera.com/cdh5/parcels/5.9.0/
本文基于CentOS7，下载的parcels包及manifest文件对应的版本为el7：
CDH-5.9.0-1.cdh5.9.0.p0.23-el7.parcel
CDH-5.9.0-1.cdh5.9.0.p0.23-el7.parcel.sha1
manifest.json
3.JDBC
http://download.softagency.net/MySQL/Downloads/Connector-J/mysql-connector-java-5.1.42.tar.gz
JDBC目前已经有6.x，但与CDH 5.x存在不兼容
环境搭建

master1-2   28G内存           6核      800G硬盘
worker1-2   24G内存           4核      800G硬盘

1.网络配置(所有节点)
修改主机名：

vi /etc/hostname

hadoop-master1
或者

hostnamectl set-hostname hadoop-master1

查看hostname

hostname

配置ip地址

vi /etc/sysconfig/network-scripts/ifcfg-eth33/

TYPE=Ethernet
BOOTPROTO=static                # 设置为静态
DEFROUTE=yes
PEERDNS=yes
PEERROUTES=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_PEERDNS=yes
IPV6_PEERROUTES=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
DEVICE=ens33
ONBOOT=yes              # 开机启用
IPADDR=xxx.xxx.xxx.201                  # ip地址
GATEWAY= xxx.xxx.xxx.xxx                # 网关
NETMASK= xxx.xxx.xxx.xxx                # 子网掩码
重启服务

systemctl restart network

查看ip

ip addr

修改hosts：

vi /etc/hosts

xxx.xxx.xxx.201 hadoop-master1
xxx.xxx.xxx.202 hadoop-master2
xxx.xxx.xxx.203 hadoop-worker1
xxx.xxx.xxx.204 hadoop-worker2

2.关闭防火墙（所有节点）

systemctl stop firewalld.service #关闭防火墙

systemctl disable firewalld.service #关闭开机自动启动

3.关闭SELinux（所有节点）
修改/etc/selinux/config 文件，将SELINUX=enforcing改为SELINUX=disabled，修改完成后重启机器生效。

reboot

4.配置SSH免密码登录
查看ssh服务状态

service sshd status

启动ssh服务(如果已经安装ssh,不用执行此步骤)

service sshd start

生成私钥和公钥(所有节点)

ssh-keygen -t rsa

cd ~/.ssh

在master2节点

cp id_rsa.pub master2.id_rsa.pub

scp master2.id_rsa.pub root@hadoop-master1:~/.ssh

在worker1节点

cp id_rsa.pub worker1.id_rsa.pub

scp worker1.id_rsa.pub root@hadoop-master1:~/.ssh

在worker2节点

cp id_rsa.pub worker2.id_rsa.pub

scp worker2.id_rsa.pub root@hadoop-master1:~/.ssh

在master1节点
将所有节点的公钥信息保存到主节点下的authorized_keys（新生成的）文件中

cat id_rsa.pub >> authorized_keys

cat master2.id_rsa.pub >> authorized_keys

cat worker1.id_rsa.pub >> authorized_keys

cat worker2.id_rsa.pub >> authorized_keys

再把authorized_keys文件拷贝到其它节点上去

scp authorized_keys root@hadoop-master2:~/.ssh

scp authorized_keys root@hadoop-worker1:~/.ssh

scp authorized_keys root@hadoop-worker2:~/.ssh

测试SSH

5.配置NTP服务(所有节点)
集群中所有节点必须保持时间同步，如果时间相差较大会引起问题(如Hbase服务无法正常启动)
实现方法：master1节点作为ntp服务器，对其它节点提供时间同步服务。所有其它节点以master节点为基础同步时间。所有节点安装相关ntp组件

yum install ntp/或者手动安装rpm包

所有节点设置时区,中国上海:

timedatectl set-timezone Asia/Shanghai

启动ntp，以及设置开机启动

systemctl start ntpd

systemctl enable ntpd

在master1节点上设置现在的准确时间

date -s “2017-06-15 09:10:00”

配置ntp服务器(master1节点)

vi /etc/ntp.conf

配置文件修改完毕后，重启ntp服务

systemctl restart ntpd

在其它节点上设置ntp服务器为server节点

vi /etc/ntp.conf

启动ntpd服务

v systemctl start ntpd

systemctl enable ntpd

在其它节点上手动同步master1的时间

ntpdate -u xx.xx.xx.201

所有节点启动时间同步

timedatectl set-ntp yes

查看同步状态

ntpstat

6.禁用Transparent Hugepage (所有节点)
查看当前是否启用(启用状态可能会严重降低Hadoop集群性能)
注意: 不修改的话后面部署集群检查主机时可能会报出警告

cat /sys/kernel/mm/transparent_hugepage/enabled

[always] madvise never  表示已启用
always madvise [never]  表示已禁用

禁用Transparent Hugepage

vi /etc/rc.local

echo never > /sys/kernel/mm/transparent_hugepage/defrag
echo never > /sys/kernel/mm/transparent_hugepage/enabled

赋予rc.local文件可执行权限

chmod +x /etc/rc.d/rc.local

重启操作系统
7.调整vm.swappiness Linux内核参数 (所有节点)
该值用于控制从物理内存到磁盘上的虚拟内存的应用数据的交换。值越高，内存交换越积极。值越低，交换的次数越少。
大多数系统默认为60，但不适用于Hadoop集群，因为即使有足够的内存，Hadoop进程也有可能会被交换到磁盘，影响集群稳定性和性能。
注意: 不修改的话后面部署集群检查主机时可能会报出警告
查看当前的参数

cat /proc/sys/vm/swappiness

30 当前是30，cloudera建议设置为1-10之间，最好为1
设置vm.swappiness值为1

vi /etc/sysctl.conf

vm.swappiness = 1

MySQL 5.6安装
1.检查MySQL及相关RPM包，是否安装，如果有安装，则移除

rpm -qa | grep -i mysql

yum -y remove mysql-libxxxx

2.下载MySQL包：MySQL-5.6.36-1.linux_glibc2.5.x86_64.rpm-bundle.tar
https://dev.mysql.com/downloads/mysql/5.6.html#downloads
解压

tar -xvf MySQL-5.6.36-1.linux_glibc2.5.x86_64.rpm-bundle.tar

3.安装mysql-server

rpm -ivh MySQL-server-5.6.36-1.linux_glibc2.5.x86_64.rpm

与已安装的软件有冲突，需要卸载有冲突的软件

yum -y remove xxxxxxxxx

再次安装mysql-server
安装成功，但是下面执行数据库初始化会报错，缺少一个模块

需要安装autoconf库(需要联网或者搭建本地yum仓库或者从CentOS7安装包里拷出autoconf的rpm包及其依赖包，手动安装)

yum -y install autoconf

4.安装客户端

rpm -ivh MySQL-client-5.6.36-1.linux_glibc2.5.x86_64.rpm

5.初始化mysql

/usr/bin/mysql_install_db

6.启动mysql服务

service mysql start

设置开机启动

chkconfig mysql on

chkconfig –list | grep mysql

7.对mysql进行安全设置

/usr/bin/mysql_secure_installation

a)为root用户设置密码 Y
b)删除匿名账号 Y
c)取消root用户远程登录 N
d)删除test库和对test库的访问权限 Y
e)刷新授权表使修改生效 Y
8. 进入mysql

mysql -uroot -p

开放远程登陆权限

mysql> GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;
mysql> FLUSH PRIVILEGES;
10.MySQL的默认安装位置
/var/lib/mysql/         #数据库目录
/usr/share/mysql            #配置文件目录
/usr/bin                    #相关命令目录
/etc/init.d/mysql           #启动脚本

11.如果需要修改字符集则需配置/etc/my.cnf文件
若etc目录下没有该文件则从/usr/share/mysql/下复制一个过来

cp /usr/share/mysql/my-default.cnf /etc/my.cnf

查看字符集

mysql> show variables like '%collation%';
mysql> show variables like '%char%';
mysql> show create database databaseName;
mysql> show create table tableName;

安装jdk
卸载CentOS自带的JDK (所有节点)
查看系统自带java版本

java -version

查看OpenJDK相关包

rpm -qa | grep java

移除OpenJDK相关包

rpm -e –nodeps xxxxxxxxx

安装Oracle官网下载jdk的rpm安装包，并使用rpm -ivh packageName安装
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
修改环境变量

vim /etc/profile

添加如下(使用rpm安装的java在/usr/java/jdk1.8XXXX)

export JAVA_HOME=/usr/java/jdk1.8.0_131
export JRE_HOME=/usr/java/jdk1.8.0_131/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

执行命令使环境变量生效

source /etc/profile

测试

java -version

Cloudera Manager安装与集群配置
1.创建cloudera-scm用户(所有节点)

useradd –home=/opt/cm-5.9.0/run/cloudera-scm-server/ –shell=/bin/false –comment “Cloudera SCM User” cloudera-scm

查看是否创建成功

cat /etc/passwd

最后一行

cloudera-scm:x:501:502:Cloudera SCM User:/opt/cm-5.9.0/run/cloudera-scm-server/:/bin/false

则说明创建成功

手动创建文件夹(所有节点)

mkdir /opt/cm-5.9.0/run/cloudera-scm-agent

2.安装cloudera-manager
解压 (所有节点)

tar -zxvf cloudera-manager-centos7-cm5.9.0_x86_64.tar.gz /opt

更改用户及用户组(所有节点)

chown -R cloudera-scm:cloudera-scm cloudera

chown -R cloudera-scm:cloudera-scm cm-5.9.0

解压mysql-connector-java-5.1.42.tar.gz，将mysql-connector-java-5.1.42-bin.jar放到/opt/cm-5.9.0/share/cmf/lib/中。
初始化数据库：(主节点)

/opt/cm-5.9.0/share/cmf/schema/scm_prepare_database.sh mysql -h xxx.xxx.xxx.201 -uroot -pxxxxx –scm-host xxx.xxx.xxx.201 scm scm scm

note：在这里后面的参数分别是：’数据库类型’ ‘数据库主机ip’ ‘数据库用户名’ ‘密码’ –scm-host ‘cmserver主机ip’ scm scm scm

提示下面这个说明成功

All done, your SCM database is configured correctly!

3.Agent配置(所有节点)
修改/opt/cm-5.9.0/etc/cloudera-scm-agent/config.ini中的server_host为主节点的主机名。
4.安装CDH5
将CHD5相关的Parcel包放到主节点的/opt/cloudera/parcel-repo/目录中。
相关的文件如下：

CDH-5.9.0-1.cdh5.9.0.p0.23-el7.parcel
CDH-5.9.0-1.cdh5.9.0.p0.23-el7.parcel.sha1

manifest.json
执行命令，重命名.sha文件

mv CDH-5.9.0-1.cdh5.9.0.p0.23-el7.parcel.sha1 CDH-5.9.0-1.cdh5.9.0.p0.23-el7.parcel.sha

启动CM
主节点:

/opt/cm-5.9.0/etc/init.d/cloudera-scm-server start

/opt/cm-5.9.0/etc/init.d/cloudera-scm-agent start

其它节点:

/opt/cm-5.9.0/etc/init.d/cloudera-scm-agent start

其余命令还有stop(停止)， status(状态)， restart(重启)

CDH集群配置
Cloudera Manager Server和Agent都启动以后，就可以进行CDH5的安装配置。
打开浏览器，访问http://hadoop-master:7180
由于CM Server的启动需要花点时间，这里可能要等待一会才能访问成功，可能需要3-5分钟，默认的用户名和密码均为admin

当各Agent节点正常启动后，可以在当前管理的主机列表中看到对应的节点。选择要安装的节点，点继续。

下一步，出现parcel自检测包名，如果本地Parcel包配置无误，选目标版本CDH5.9.0，直接点继续就可以了

继续，如果配置本地Parcel包无误，下载步骤应该是瞬间完成的，然后就是耐心等待分配解压过程，分配过程的速度取决于节点之间的传输速度。

然后是主机检查。前面不禁用transparent hugepage和调整vm.swappiness参数的话，这里可能会有警告信息
继续之后，进入到安装服务页面
这里选择分步安装：
点击页面上Cloudera MANAGER，回到主页

出现Cluster1，点击下拉，选择“添加服务”

HDFS，Hive, Hbase, YARN, ZOOKEEPER是核心Hadoop的几个服务，分别安装，由于这些节点存在依赖关系，需注意先后顺序，顺序是：
Zookeeper, hdfs, yarn, hbase, hive
注意：在安装hive时，要将MySQL驱动文件拷贝到相应位置，还要在mysql里预先创建好hive数据库

cp/opt/cm-5.9.0/share/cmf/lib/mysql-connector-java-5.1.42-bin.jar opt/cloudera/parcels/CDH-5.9.0-1.cdh5.9.0.p0.23/lib/hive/lib/

mysql> create database hive;
6. 启用HDFS和YARN HA（High Availability）
自动故障切换依赖于Zookeeper和ZKFailoverController(ZKFC)，因此启用HA需要确保Zookeeper服务已开启。
硬件要求:

    NameNode: 活动主机和备用主机(硬件配置相同)JournalNode: 至少3个(奇数个)，系统最多可以承受 (JN个数-1)/2个故障Zookeeper: 至少3个(奇数个)

注意:在HA群集中，备用NameNode还执行命名空间状态的检查点，因此无需在HA群集中运行Secondary NameNode，CheckpointNode或BackupNode
注意:启用或禁用HA会导致HDFS服务和所有依赖于HDFS 的服务的服务中断。在启用或禁用HA之前，请确保您的群集上没有运行作业
注意:启用或禁用HA会导致以前的监视历史记录不可用
1. 使用Cloudera Manager启用HDFS HA(需要集群管理员权限)

    -- 转到HDFS，操作->启用High Availability-- 设置备用NameNode主机(硬件配置与活动主机相同)-- 设置JournalNode主机(至少三个),建议放在活动NameNode和备用NameNode以及另外一个硬件类似的机器-- 指定每个JournalNode的Edits目录(需要手动创建，要求为空，且拥有适当的权限<hdfs用户：hadoop用户组>)

根据提示，停掉Hive服务，备份元数据库，更新Hive Metastore NameNode

最后重启Hive服务。
2. 使用Cloudera Manager启用YARN(MRv2) ResourceManager HA(需要集群管理员权限)

    -- 转至YARN,操作->启用High Availability-- 选择备用ResourceManager-- 重新部署客户端配置

部署Presto集群
1.安装Presto
在202,203,204三个节点上部署，其中202是老大

mkdir /opt/presto

tar -zxvf presto-server-0.178.tar.gz -C /opt/presto/

2.配置Presto
在202节点

mkdir -p /var/presto/data

cd /opt/presto/presto-server-0.178

mkdir etc

cd etc/

v vi node.properties

node.environment=production
node.id=coordinator
node.data-dir=/var/presto/data

vi jvm.config

-server
-Xmx16G
-XX:+UseG1GC
-XX:G1HeapRegionSize=32M
-XX:+UseGCOverheadLimit
-XX:+ExplicitGCInvokesConcurrent
-XX:+HeapDumpOnOutOfMemoryError
-XX:OnOutOfMemoryError=kill -9 %p

vi config.properties

coordinator=true
node-scheduler.include-coordinator=true
http-server.http.port=1083
query.max-memory=8GB
discovery-server.enabled=true
discovery.uri=http://xxx.xxx.xxx.202:1083

vi log.properties

com.facebook.presto=INFO

mkdir catlog

cd catlog

vi hive.properties

使用Hive连接器

connector.name=hive-cdh5        # 与plugin目录下的hive-cdh5文件夹名称一致
hive.metastore.uri=thrift://hadoop-master1:9083  # hive metastore url
hive.config.resources=/etc/hadoop/conf/core-site.xml,/etc/hadoop/conf/hdfs-site.xml
hive.allow-drop-table=true

使用Hive连接器的话，需要下载presto-hive-cdh5-0.178.zip
解压（需要先安装unzip，可以下载rpm包手动安装）

unzip presto-hive-cdh5-0.178.zip

复制到presto plugin目录

cp presto-hive-cdh5-0.178 /opt/presto/presto-server-0.178/plugin/

重命名

mv presto-hive-cdh5-0.178 hive-cdh5 #与connector.name=hive-cdh5保持一致

配置完毕，复制到其他(worker)节点，并修改配置

scp -r presto-server-0.178 hadoop-worker1:/opt/presto/

scp -r presto-server-0.178 hadoop-worker2:/opt/presto/

mkdir -p /var/presto/data

cd etc

vi node.properties

node.environment=production
node.id=worker1(worker2)
node.data-dir=/var/presto/data

vi config.properties

coordinator=false
http-server.http.port=1083
query.max-memory=8GB
discovery-server.enabled=true
discovery.uri=http://xxx.xxx.xxx.202:1083

3.运行Presto

cd /opt/presto/presto-server-0.178/

./bin/launcher start

但是jps发现并没有PrestoServer进程
进入log目录下查看日志

cd /var/presto/data/var/log/

cat launcher.log

发现错误信息，系统允许的文件描述符数量过低，需要增大(所有节点)

vi /etc/security/limits.conf

添加:

*   soft    nofile  65536
*   hard    nofile  131072

关掉当前会话，重连xxx.xxx.xxx.202，再次启动

cd /opt/presto/ presto-server-0.177

./bin/laucher start

访问web:hadoop-master2:1083
等待一会儿，工作节点变为3个后，说明Presto集群已正常启动

4.测试 Presto CLI
下载 presto-cli-0.178-executable.jar 并将其重命名为 presto-cli.jar然后使用chmod +x添加可执行权限。

chmod +x presto-cli.jar

运行下面命令进行测试：

./presto-cli.jar –server master2-ip:1083 –catalog hive –schema default

5.安装配置yanagishima(Web UI for presto)
在204节点上安装
解压 unzip yanagishima-4.0.zip
修改配置文件vim conf/yanagishima.properties

jetty.port=8080
presto.query.max-run-time-seconds=1800
presto.max-result-file-byte-size=1073741824
presto.datasources=hnzs
presto.coordinator.server.hnzs=http://master2-ip:1083
presto.redirect.server.hnzs=http://master2-ip:1083
catalog.hnzs=hive
schema.hnzs=default
select.limit=500
audit.http.header.name=some.auth.header
to.values.query.limit=500
check.datasource=false

后台启动

nohup bin/yanagishima-start.sh >y.log 2>&1 &

访问网页 http://hadoop-worker2:8080/
如果无法连接外网的话，这个网页打开是空白的，因为有些css与js需要联网才能加载

所以需要在有网环境下下载好这些文件放入web目录，再修改index.html中这些文件的路径即可。下载url原index.html中都有

安装Kylin
下载http://kylin.apache.org/cn/download/
要求:
* 已安装Tomcat，添加环境变量CATALINA_HOME（with CATALINA_HOME exported).
* Kylin 二进制文件拷贝至本地并解压，添加环境变量KYLIN_HOME

1、解压
tar –zxvf apache-kylin-1.6.0-cdh5.7-bin.tar.gz
2、配置kylin环境变量
vim /etc/profile
然后添加

export CATALINA_HOME=/opt/apache-tomcat-8.0.37
export HADOOP_HOME=/opt/cloudera/parcels/CDH-5.9.0-1.cdh5.9.0.p0.23/lib/hadoop
export HBASE_HOME=/opt/cloudera/parcels/CDH-5.9.0-1.cdh5.9.0.p0.23/lib/hbase
export HIVE_HOME=/opt/cloudera/parcels/CDH-5.9.0-1.cdh5.9.0.p0.23/lib/hive
export KYLIN_HOME=/opt/kylin-1.6.0-cdh5.7
export PATH=:$HADOOP_HOME/bin:$HBASE_HOME/bin:$HIVE_HOME/bin:$PATH

soruce /etc/profile使kylin的环境变量生效

echo $KYLIN_HOME一下，看看环境变量是否生效。

3、修改配置文件kylin.properties，添加

kylin.rest.servers=IP:7070
kylin.job.jar=/tmp/kylin/kylin-job-latest.jar
kylin.coprocessor.local.jar=/tmp/kylin/kylin-coprocessor-latest.jar

拷贝jar到/tmp/kylin目录下(如果没有对应的目录则手工创建)

cp /opt/apache-kylin-1.6.0-cdh5.7-bin/lib/kylin-coprocessor-1.6.0.jar /tmp/kylin/kylin-coprocessor-latest.jar

cp /opt/apache-kylin-1.6.0-cdh5.7-bin/lib/kylin-job-1.6.0.jar /tmp/kylin/kylin-job-latest.jar

4、检查环境

$KYLIN_HOME/bin/check-env.sh

正常情况下，只会输出kylin环境变量地址
5、需要开启hive的远程thrift的metastare服务 (CDH已经自动开启)。

nohup hive --service metastore -p 9083 &

6、启动:

$KYLIN_HOME/bin/kylin.sh start

输出日志，同时在$KYLIN_HOME/logs也会打出日志

访问web: http://ip:7070/kylin
默认帐号密码是ADMIN/KYLIN

8、$KYLIN_HOME/bin/kylin.sh stop进行停止
9、问题处理：
当执行 ./check_env.sh 或./kylin.sh start时遇到

解决方法：
kylin会在HDFS上创建/kylin目录，需要hdfs权限
可以在check-env.sh中将hadoop fs -mkdir -p WORKINGDIR变成sudo−uhdfshadoopfs−mkdir−pWORKING_DIR 变成 sudo -u hdfs hadoop fs -mkdir -p WORKING_DIR,得以解决
或者关闭HDFS权限检查(dfs.permissions=false)

部署Elasticsearch
要求
根据官方文档，Elasticsearch至少需要Java 8，并且建议使用Oracle JDK版本1.8.0_121或更高，在安装之前，先检查Java版本：

java -version
echo $ JAVA_HOME

安装
下载elasticsearch-5.2.1.tar.gz

解压

mkdir /usr/local/elasticsearch
tar -zxvf elasticsearch-5.2.1.tar.gz -C /usr/local/elasticsearch/

创建目录

cd /usr/local/elasticsearch/
mkdir -p datas/data
mkdir datas/logs

配置
创建es用户,并把elasticsearch授权给es用户

useradd es
passwd es
...
chown -R es:es elasticsearch

设置系统参数(root用户)

vim /etc/security/limits.conf

添加如下内容:

* soft nofile 65536
* hard nofile 131072
* soft nproc 2048
* hard nproc 4096
es soft memlock unlimited    # 给予es用户内存锁权限
es hard memlock unlimited

通过jvm.options设置JVM堆大小
良好的经验原则是：
最小堆大小和最大堆大小设置相等的值；
不应超过可用物理RAM的50%。
-Xms2g
-Xmx2g # 设置最小和最大堆大小为2G

vim /etc/sysctl.conf
添加下面配置：

vm.max_map_count=262144

保存后执行命令

sysctl -p

修改配置文件(es用户)

vi /elasticsearch-5.2.1/config/elasticsearch.yml

cluster.name: es-cluster                      # 集群名称
node.name: es-node1                        # 节点名字
path.data: /usr/local/elasticsearch/datas/data    # 数据目录
path.logs: /usr/local/elasticsearch/datas/logs     # 日志目录
bootstrap.memory_lock:true              # 禁用swapping，防止JVM内存被交换到磁盘
network.host: 192.168.0.141
http.port: 9200
discovery.zen.ping.unicast.hosts: ["192.168.0.141", "192.168.0.144","192.168.0.145"] #节点ip
discovery.zen.minimum_master_nodes: 2    # 最小主节点数(master候选节点数/2+1)

启动(不能用root账户启动，这里在es用户下启动)

cd elasticsearch-5.2.1/        # $ES_HOME
./bin/elasticsearch -d         # 后台启动

测试
访问网页http://ip:9200/

集成IK分词工具
必须安装在集群中的每个节点上。安装完成后，必须重新启动每个节点才能使插件变得可见。

下载ES的IK插件源码(v5.2.1)或者直接下载release版本,避免再打包
release版本: elasticsearch-analysis-ik-5.2.1.zip
源码: https://github.com/medcl/elasticsearch-analysis-ik/tree/v5.2.1
使用maven编译(release版本跳过这一步)
mvn clean package
复制解压编译后的文件到es插件目录
“`shell
cd ESHOME/plugins/mkdirikcpelasticsearch−analysis−ik−5.2.1.zipES_HOME/plugins/ mkdir ik cp elasticsearch-analysis-ik-5.2.1.zip ES_HOME/plugins/ik
unzip elasticsearch-analysis-ik-5.2.1.zip

4. 重启ES服务5. 查看已加载的插件列表
```shell
./bin/elasticsearch-plugin list<div class="se-preview-section-delimiter"></div>

12.测试

默认的分词工具：
IK分词插件ik_smart模式
IK分词插件ik_max_word模式

安装Sqoop1.4.6
安装
下载http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.9.0.tar.gz
解压到opt目录

tar -zxvf sqoop-1.4.6-cdh5.9.0.tar.gz /opt/

复制mysql-connector jar包到sqoop-1.4.6-cdh5.9.0/lib目录下
配置环境变量

vi /etc/profile

“`
export SQOOP_HOME=/opt/sqoop-1.4.6-cdh5.9.0
export PATH=PATH:PATH:SQOOP_HOME/bin

“`

12.测试

默认的分词工具：
IK分词插件ik_smart模式
IK分词插件ik_max_word模式

安装Sqoop1.4.6
安装
下载http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.9.0.tar.gz
解压到opt目录

tar -zxvf sqoop-1.4.6-cdh5.9.0.tar.gz /opt/

复制mysql-connector jar包到sqoop-1.4.6-cdh5.9.0/lib目录下
配置环境变量

vi /etc/profile

“`shell
export SQOOP_HOME=/opt/sqoop-1.4.6-cdh5.9.0
export PATH=PATH:PATH:SQOOP_HOME/bin

## source /etc/profile
修改配置文件
## cd $SQOOP_HOME/conf
## cp sqoop-env-template.sh sqoop-env.sh
## vi sqoop-env.sh

export HADOOP_COMMON_HOME=/opt/cloudera/parcels/CDH-5.9.0***/lib/hadoop
export HADOOP_MAPRED_HOME=/opt/cloudera/parcels/CDH-5.9.0***/lib/hadoop
export HBASE_HOME=
export HIVE_HOME=
expoer ZOOCFGDIR=

测试

sqoop version

发现有警告
修改$SQOOP_HOME/bin/configure-sqoop
注释掉含有警告信息的行…
其实可以不用理会警告的…
连接mysql测试

sqoop-list-databases –connect jdbc:mysql://192.168.0.141:3306/ –username root –password 123456

Warning: /opt/cloudera/parcels/CDH-5.9.0-1.cdh5.9.0.p0.23/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports will fail.
Please set $ACCUMULO_HOME to the root of your Accumulo installation.
17/06/08 11:20:15 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6-cdh5.9.0
17/06/08 11:20:15 WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead.
17/06/08 11:20:16 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.
information_schema
azkaban
hive
mysql
performance_schema

成功!!!

CentOS7下部署CDH5.9(HA)相关推荐

【新手教程】Centos7下部署zabbix
文章目录前言一.zabbix部署操作 1.关闭SELinux和防火墙 1.1关SELinux 1.2关防火墙 2.安装LAMP平台 2.1安装httpd服务并启动 2.2安装mysql社区版 2. ...
Centos7 下部署PPTP
1 虚拟专用网 1.1 PPTP介绍 PPTP(Point to Point Tunneling Protocol),即点对点隧道协议.该协议是在PPP协议的基础上开发的一种新的增强型安全协议,支 ...
CentOS7下部署敏捷项目管理软件JIAR-7.13.18
文章目录第1章操作系统环境的基本说明 1.1 准备的服务器 1.2 操作系统环境 1.3 准备普通用户第2章安装MySQL软件及初始3306实例 2.1 安装MySQL软件 2.2 初始化33 ...
CentOS7下部署CloudStack遇到的错误汇总
经过多次测试...建议安装4.12.0版本.系统模板选择4.11.2... http://download.cloudstack.org/centos/7/4.12/ http://download. ...
Centos7下部署ceph 12.2.1 （luminous）集群及RBD使用
原创,本文地址http://www.cnblogs.com/pcxie/p/7799372.html 前言本文搭建了一个由三节点(master.slave1.slave2)构成的ceph分布式集群, ...
centos7下部署gitlab
查看linux版本 [lijintao@localhost ~]$ cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) 配置固定网 ...
Linux|centos7下部署安装alertmanager并实现邮箱和微信告警（基础篇---二）
前言: 一个成熟的符合一般人预想的资源监控平台应该是能够多维度的展示各种各样的数据,比如,服务器的内存使用率,磁盘io状态,磁盘使用率,CPU的负载状态,某个服务的状态(比如,MySQL数据库的使用情 ...
Centos7下部署本地的gitlab(CE版本)
1)操作步骤(基本参照官方文档https://about.gitlab.com/downloads/#centos7) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 ...
centos7下部署区块链浏览器BlockScount：v4.1.1
1.查看安装需要的版本进入官方源码https://github.com/blockscout/blockscout 查看.tool-versions里的内容不然会导致版本错误的原因若是安装以 ...