hadoop全家桶部署手册hadoop-solr-ranger-atlas-hive-hbase...

文章目录

说明
安装环境
组件版本
部署步骤
- zookeeper安装（单机/伪集群）
- Kakfa安装（单机/伪集群）
- Hbase环境安装
- Solr安装
- Ranger安装
- - ranger-admin安装
  - ranger-usersync安装
  - ranger-atlas安装
  - tagsync安装
- Atlas安装

说明

安装环境

名称	版本	建议
JDK	1.8.0_181
maven	apache-maven-3.6.3-bin	使用较新版本
git	1.8.3.1	使用较新版本
gcc	gcc 版本 4.8.5 20150623	使用较新版本
python	Python 2.7.5	使用较新版本

组件版本

组件名称	版本
hadoop	hadoop-3.1.4.tar
hbase	hbase-2.3.5-bin.tar
zookeeper	apache-zookeeper-3.7.0-bin.tar
kafka	kafka_2.13-2.8.0
hive	apache-hive-3.1.2-bin.tar
ranger	ranger-release-ranger-2.0.0.tar
hue
cas
ladp

注意配置Hadoop Hbase Maven JDK Solr环境变量信息，环境变量配置完成后即可开始修改配置文件

文中出现的用户信息及路径请认真检查，根据自己的服务器修改，不要直接复制，会爆炸！！！
文中出现的用户信息及路径请认真检查，根据自己的服务器修改，不要直接复制，会爆炸！！！
文中出现的用户信息及路径请认真检查，根据自己的服务器修改，不要直接复制，会爆炸！！！

部署步骤

zookeeper安装（单机/伪集群）

下载地址：https://github.com/apache/zookeeper/releases

#将文件上传至用户目录下，使用tar命令解压编译好的安装包
tar -xzvf apache-zookeeper-3.7.0-bin.tar.gz
# 重命名文件夹
mv apache-zookeeper-3.7.0-bin zookeeper
# 伪分布式部署需要拷贝三个副本#进入zookeeper目录下创建data目录，并创建myid文件 写入内容为当前节点的序号，第一个节点就写1，同一个集群下的id不能重复
cd zookeeper
mkdir data
cd data
touch myid
vi myid
# 写入1
echo "1" > myid
# 修改zookeeper配置信息
cd ..
cd conf
cp zoo_example.cfg zoo.cfg
vi zoo.conf
# 修改配置信息
# zookeeper数据持久化存储位置，该位置下包含节点id信息
dataDir=/home/user/zookeeper1/data
# zookeeper对外（客户端连接端口）自行配置，避免端口冲突
clientPort=2181
# 端口默认为8080，为避免与其他应用端口冲突 ，建议修改
admin.serverPort=8080
# 增加以下内容，根据实际集群节点数量修改  hostname为机器访问地址（域名或IP）
server.1=hostname:2888:3888
server.2=hostname:2889:3889
server.3=hostname:2890:3890
# 单节点或集群配置完成后启动即可 集群部署逐个节点启动即可
shift : wq保存文件后前往bin目录
pwd
/home/user/zookeeper/conf
cd ..
cd bin
./zkServer.sh satrt

Kakfa安装（单机/伪集群）

参考尾部安装链接
3. ##### Hadoop环境安装-单节点
上传安装包至用户目录下
重命名为hadoop

# 解压安装包
tar -xzvf

core-site.xml

<configuration><property><description>hdfs服务端口</description><name>fs.defaultFS</name><value>hdfs://hostname:8020</value></property><property><name>hadoop.tmp.dir</name><value>/home/user/hadoop/data</value></property><property><name>hadoop.proxyuser.user.hosts</name><value>*</value></property><property><name>hadoop.proxyuser.user.groups</name><value>*</value></property>
</configuration>

hdfs-site.xml

<configuration><property><name>dfs.namenode.name.dir</name><!-- 根据实际情况配置 --><value>/home/user/hadoop/tmp/name</value></property><property><description>该节点数据存放位置</description><name>dfs.datanode.data.dir</name><value>/home/user/hadoop/tmp/data</value></property><property><description>分片大小</description><name>dfs.replication</name><value>1</value></property><property><description>HADOOP界面访问端口0.0.0.0可被外部访问.</description><name>dfs.http.address</name><value>0.0.0.0:50070</value></property><property><description>To enable RM web ui2 application.</description><name>dfs.permissions.enabled</name><value>true</value></property><property><description>是否开启认证管理.</description><name>dfs.permissions</name><value>true</value></property><property><description>ranger权限管理.</description><name>dfs.namenode.inode.attributes.provider.class</name><value>org.apache.ranger.authorization.hadoop.RangerHdfsAuthorizer</value></property><property><description>To enable RM web ui2 application.</description><name>dfs.permissions.ContentSummary.subAccess</name><value>true</value></property>
</configuration>

mapred-site.xml

<configuration><property><description>To enable RM web ui2 application.</description><name>mapreduce.framework.name</name><value>yarn</value></property>
</configuration>

yarn-site.xml

<configuration><property><description>To enable RM web ui2 application.</description><name>yarn.webapp.ui2.enable</name><value>true</value></property>
</configuration>

Hbase环境安装

参考底部安装部署方式

cd hbase
cd conf
vi hbase-env.sh
# 使用外部自己安装的zookeeper
export HBASE_MANAGES_ZK=false
# 保存
vi hbase-site.xml

<configuration><property><name>hbase.cluster.distributed</name><value>true</value></property><property><name>hbase.rootdir</name><value>hdfs://hadoopip:8020/hbase</value></property><property><name>hbase.zookeeper.quorum</name><value>zk1:2181,zk2:2182,zk3:2183</value></property><property><name>hbase.unsafe.stream.capability.enforce</name><value>false</value></property><property><name>hbase.master.distributed.log.splitting</name><value>false</value></property><property><name>hbase.master.ipc.address</name><value>0.0.0.0</value></property><property><name>hbase.regionserver.ipc.address</name><value>0.0.0.0</value></property>
</configuration>

hbase启动需要依赖hadoop

cd ..
cd bin
# 启动hbase
./start-hbase.sh

Solr安装

参考底部安装部署方式

LInux 启动Solr
# 使用zookeeper同步节点信息
./solr start -c -z zk1:2181 -p 8983 -force######### 创建索引
solr create -c vertex_index -force -d conf/solr/
solr create -c edge_index -force -d conf/solr/
solr create -c fulltext_index -force -d conf/solr/

默认用户solr 密码 solr@123456

Ranger安装

下载地址：https://github.com/apache/ranger/releases
上传代码至服务器用户目录下（和hadoop同服务器）

解压文件信息
tar -xzvf ranger-release-ranger-2.0.0.tar.gz
# 重命名文件夹
mv ranger-release-ranger-2.0.0 ranger
# 进入ranger目录
cd ranger
执行打包编译命令
mvn clean compile package assembly:assembly install -DskipTests -Drat.skip=true 该命令不适用2.1.0版本
mvn clean compile package install -DskipTests -Drat.skip=true
# 首次编译耗时约30分钟至1小时，视网络情况
编译成功后会出现[INFO] BUILD SUCCESS

ranger-admin安装

复制编译后的安装包至用户目录下

pwd
/home/user/ranger
cd ..
cp ranger/target/ranger-2.0.0-admin.tar.gz ./
tar -xzvf ranger-2.0.0-admin.tar.gz
mv ranger-2.0.0-admin ranger_admin
cd ranger_admin
vi install.properties
#配置数据库
DB_FLAVOR=MYSQL
#驱动信息 此处需要上传对应版本的MySQL驱动包至服务器目录下
SQL_CONNECTOR_JAR=/home/user/mysql-connector-java-8.0.23.jar
# root用户/密码、ip地址 使用root用户创建数据库及数据库用户
db_root_user=root
db_root_password=MC:4smu8ZA1C
db_host=dbip
# DB UserId used for the Ranger schema
# 需要创建的数据库名、用户名、用户密码
db_name=ranger
db_user=ranger
db_password=MC:4smu8ZA1C
# 管理密码 此处使用默认值，若自行配置则所有组件的对应键值都应一致
rangerAdmin_password=
rangerTagsync_password=
rangerUsersync_password=
keyadmin_password=policymgr_external_url=http://localhost:6080
# ------- UNIX User CONFIG ----------------
unix_user=user
unix_user_pwd=passwd
unix_group=user#------------ Kerberos Config -----------------
#配置hadoop的core-site.xml路径
hadoop_conf=/home/user/hadoop/etc/hadoop注意：检查/home/user/admin/ews/webapp/WEB-INF/classes/下是否存在conf 目录，若没有则copy当前目录下conf.dist ->conf
cp -r conf.dist conf
pwd
/home/user/ranger_admin/
#初始化admin
./setup.sh
# 完成后启动admin
./ews/start-ranger-admin.sh

检查数据库

执行完setup.sh后会更新hadoop配置文件信息 hdfs-site.xml及新增ranger-开头的配置文件

ranger-usersync安装

复制编译后的安装包至用户目录下

pwd
/home/user/ranger
cd ..
cp ranger/target/ranger-2.0.0-usersync.tar.gz ./
tar -xzvf ranger-2.0.0-usersync.tar.gz
mv ranger-2.0.0-admin ranger_usersync
cd ranger_usersync
vi install.properties
# The base path for the usersync process
ranger_base_dir = /home/user/usersync
# ranger管理端ip
POLICY_MGR_URL =http://ranger_adminip:6080
LDAP 方式认证
# 数据同步源
SYNC_SOURCE = ldap#User and group for the usersync process
unix_user=user
unix_group=user
# core-site.xml
hadoop_conf=/home/user/hadoop/etc/hadoop
SYNC_LDAP_URL = ldap://ldapip:389
# ldap地址信息
SYNC_LDAP_BIND_DN = cn=admin,dc=yaobili,dc=com
# ldap管理员密码
SYNC_LDAP_BIND_PASSWORD = 123456
#
SYNC_LDAP_SEARCH_BASE = dc=yaobili,dc=com
#
SYNC_LDAP_USER_SEARCH_BASE = ou=People,dc=yaobili,dc=com#配置完成后初始化usersync
pwd
/home/user/ranger_usersync
./setup.sh
#执行完成后检查是否异常
#启动usersync
./ranger-usersync-services.sh start

ranger-atlas安装

复制编译后的安装包至用户目录下

pwd
/home/user/ranger
cd ..
cp ranger/target/ranger-2.0.0-atlas-plugin.tar.gz ./
tar -xzvf ranger-2.0.0-atlas-plugin.tar.gz
mv ranger-2.0.0-admin ranger_atlas
cd ranger_atlas
vi install.properties
# ranger管理页面地址
POLICY_MGR_URL= http://10.252.252.220:6080
# ranger管理页面添加的配置信息，见下图
REPOSITORY_NAME=atlas01
# Atlas installation directory atlas安装目录
COMPONENT_INSTALL_DIR_NAME=/home/user/atlas/distro/target/apache-atlas-2.1.0-server/apache-atlas-2.1.0
# 当前用户
CUSTOM_USER=user
# 当前用户所属用户组
CUSTOM_GROUP=user
:wq 保存当前文件
./enable-atlas-plugin.sh

注意: 在atlas编译完成后，执行enable-atlas-plugin.sh 会更新atlas conf目录下的配置文件信息
同时会在安装目录下生成一个libext目录存放ranger相关依赖包，注意该依赖包的用户所属权限问题

ranger同步ldap用户信息

tagsync安装

拷贝ranger目录下ranger-2.0.0-tagsync.tar.gz 文件至用户目录下

cp ~/ranger/target/ranger-2.0.0-tagsync.tar.gz ./
tar -xzvf ranger-2.0.0-tagsync.tar.gz
mv ranger-2.0.0-tagsync tagsync
vi install.properties

Atlas安装

下载地址：https://github.com/apache/atlas/releases
当前使用版本为2.1.0

# 上传源码至用户目录下，重命名文件夹
内嵌Hbase和solr编译命令：mvn clean -DskipTests package -Pdist,embedded-hbase-solr
不内嵌：                mvn clean -DskipTests package -Pdist   -Drat.skip=true
# 这里我们使用不内嵌的方式
mvn clean -DskipTests package -Pdist   -Drat.skip=true
# 当第一次编译时服务器上仓库为空，下载依赖耗时较久
当出现[INFO] BUILD SUCCESS 时编译成功

进入atlas启动目录
cd atlas/distro/target/apache-atlas-2.1.0-server/apache-atlas-2.1.0/
[devdev@devdev02 apache-atlas-2.1.0]$ ll
总用量 32
drwxrwxr-x 2 devdev devdev 314 6月  15 13:31 bin
drwxrwxr-x 5 devdev devdev 4096 6月  15 19:04 conf
drwxrwxr-x 2 devdev devdev 6 6月  15 13:31 data
-rw-rw-r-- 1 devdev devdev 217 5月  25 14:40 DISCLAIMER.txt
drwxr-xr-x 2 devdev devdev 288 6月  15 18:02 libext
-rw-rw-r-- 1 devdev devdev 14557 5月  25 14:41 LICENSE
drwxrwxr-x 2 devdev devdev 4096 6月  15 18:04 logs
drwxrwxr-x 8 devdev devdev 132 6月  15 13:29 models
-rw-rw-r-- 1 devdev devdev 175 5月  25 14:41 NOTICE
drwxrwxr-x 3 devdev devdev 20 6月  15 13:29 server
drwxrwxr-x 4 devdev devdev 62 6月  15 13:29 tools
[devdev @devdev 02 apache-atlas-2.1.0]$
cd conf
vi atlas-application.propertiesatlas.authentication.method.kerberos=false
atlas.authentication.method.file=false
#atlas.authentication.method.ldap = false
atlas.authentication.method.ldap = false
atlas.authentication.method.ldap.type=none
#zookeeper集群地址
atlas.graph.storage.hostname=zookeeper1,zookeeper2,zookeeper3
#zookeeper访问端口
#atlas.graph.storage.port=2181
#
atlas.graph.index.search.solr.zookeeper-url=zookeeper1:2181,zookeeper2:2182,zookeeper3:2183
#
atlas.graph.index.search.solr.http-urls=http://solrip:8983/solr
#
atlas.kafka.zookeeper.connect=zookeeper1:2181,zookeeper2:2182,zookeeper3:2183
#
atlas.kafka.bootstrap.servers=zookeeper1:19092,zookeeper2:29092,zookeeper3:39092
#########  Server Properties  #########
atlas.audit.hbase.zookeeper.quorum=zookeeper1:2181,zookeeper2:2182,zookeeper3:2183######### Atlas Authorization #########^M
atlas.authorizer.impl=org.apache.ranger.authorization.atlas.authorizer.RangerAtlasAuthorizer
atlas.authorizer.simple.authz.policy.file=atlas-simple-authz-policy.json

Atlas 集成ranger/cas/ldap配置
注意：代码中需要增加对cas的处理机制

##########  Cas Configs  #########
atlas.authentication.cas.serverUrl = http://casip:8888/cas
atlas.authentication.cas.serverLoginUrl = http://casip:8888/cas/login
atlas.authentication.cas.serverLogoutUrl = http://casip:8888/cas/logout?service=http://atlasip:21000/index.html
#
atlas.authentication.cas.appServerUrl = http://atlasip:21000
atlas.authentication.cas.loginUrl = /login/cas
atlas.authentication.cas.logoutUrl = /logout.html
##########  Hue Registry Configs  #########
atlas.add.hue.config.url=http://hueip:8000/desktop/api2/get_config_directly
atlas.add.hue.add.db.url=http://hueip:8000/desktop/api/add_db

pwd
/home/user/atlas/distro/target/apache-atlas-2.1.0-server/apache-atlas-2.1.0/conf
将hbase-site.xml 复制到当前目录下
cp /home/user/hadoop/etc/hadoop/hbase-site.xml ./
cd ..
cd bin
python atlas_start.py
等待启动完成后访问http://ip:21000

注意：使用root用户生成的文件需要更改权限，避免启动时加载不到配置信息

参考文档：
Atlas安装部署
安装Ranger UserSync for LDAP
Zookeeper安装
Kafka安装
JDK安装
GIT安装
Maven安装
Hadoop安装
Hbase安装
Solr安装