HDFS HA HADOOP集群部署

1.集群环境节点分布

JournalNode: bigdatasvr01 , bigdatasvr02,bigdatasvr03
namenode: bigdatasvr02(active),bigdatasvr03(standby)
datanode: bigdatasvr01, bigdatasvr03
nodemanager: bigdatasvr01, bigdatasvr03
ResourceManager:   bigdatasvr02

2.修改主机名

3.设置免密码登录

每台机器上都执行命令:
ssh-keygen -t rsa -P ''
将bigdatasvr02的公钥拷贝到bigdatasvr01 ,bigdatasvr03上
ssh-copy-id hadoop@bigdatasvr01
ssh-copy-id hadoop@bigdatasvr03
至少要保证bigdatasvr02免密码登录到bigdatasvr01 ,bigdatasvr03上

4.设置环境变量

1.设置JDK环境变量
2.设置hadoop环境变量,在/etc/profile.d下新建一个hadoop.sh:
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
使其生效:
source hadoop.sh

5.搭建hadoop集群

用的hadoop是apache原生包hadoop-2.7.1.tar.gz

5.1 修改配置文件

把下面6个文件修改好,然后拷贝到所有节点。

hadoop-env.sh,core-stie.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml,slaves

5.1.1修改core-stie.xml

 <property><name>fs.defaultFS</name><value>hdfs://bigdatasvr02:9000</value></property><property><name>io.file.buffer.size</name><value>131072</value></property><property><name>hadoop.tmp.dir</name><value>file:/home/hadoop/hadoop/tmp</value><description>Abasefor other temporary directories.</description></property>

5.1.2修改hdfs-site.xml

    <property><name>dfs.nameservices</name><value>hadoopcluster</value></property><property><name>dfs.ha.namenodes.hadoopcluster</name><value>nn1,nn2</value></property><property><name>dfs.namenode.rpc-address.hadoopcluster.nn1</name><value>bigdatasvr02:9000</value></property><property><name>dfs.namenode.rpc-address.hadoopcluster.nn2</name><value>bigdatasvr03:9000</value></property><property><name>dfs.namenode.http-address.hadoopcluster.nn1</name><value>bigdatasvr02:50070</value></property><property><name>dfs.namenode.http-address.hadoopcluster.nn2</name><value>bigdatasvr03:50070</value></property><property><name>dfs.namenode.name.dir</name><value>file:/home/hadoop/hadoop/ha/hdfs/name</value><description>allow multiple directory split by ,</description></property><property><name>dfs.namenode.shared.edits.dir</name><value>qjournal://bigdatasvr01:8485;bigdatasvr02:8485;bigdatasvr03:8485/hadoopcluster</value></property><property><name>dfs.datanode.data.dir</name><value>file:/home/hadoop/hadoop/ha/hdfs/data</value><description>allow multiple directory split by ,</description></property><property><name>dfs.ha.automatic-failover.enabled</name><value>false</value><description>Whether automatic failover is enabled. See the HDFS High
Availability documentation for details on automatic HA configuration.</description></property><property><name>dfs.journalnode.edits.dir</name><value>/home/hadoop/hadoop/ha/hdfs/journal</value></property><property><name>dfs.replication</name><value>2</value></property><property><name>dfs.webhdfs.enabled</name><value>true</value></property>

5.1.3修改mapred-site.xml

 <property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>bigdatasvr03:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>bigdatasvr03:19888</value></property>

5.1.4修改yarn-site.xml

   <property><description>The hostname of the RM.</description><name>yarn.resourcemanager.hostname</name><value>bigdatasvr02</value></property>    <property><description>The address of the applications manager interface in the RM.</description><name>yarn.resourcemanager.address</name><value>${yarn.resourcemanager.hostname}:8032</value></property><property><description>The http address of the RM web application.</description><name>yarn.resourcemanager.webapp.address</name><value>${yarn.resourcemanager.hostname}:8088</value></property><property><description>The https adddress of the RM web application.</description><name>yarn.resourcemanager.webapp.https.address</name><value>${yarn.resourcemanager.hostname}:8090</value></property><property><name>yarn.resourcemanager.resource-tracker.address</name><value>${yarn.resourcemanager.hostname}:8031</value></property><property><name>yarn.resourcemanager.scheduler.address</name><value>${yarn.resourcemanager.hostname}:8030</value></property><property><description>The address of the RM admin interface.</description><name>yarn.resourcemanager.admin.address</name><value>${yarn.resourcemanager.hostname}:8033</value></property><property><description>List of directories to store localized files in. An application's localized file directory will be found in:
${yarn.nodemanager.local-dirs}/usercache/${user}/appcache/application_${appid}.
Individual containers' work directories, called container_${contid}, will
be subdirectories of this.</description><name>yarn.nodemanager.local-dirs</name><value>/home/hadoop/hadoop/ha/yarn/local</value></property><property><description>Whether to enable log aggregation</description><name>yarn.log-aggregation-enable</name><value>true</value></property><property><description>Where to aggregate logs to.</description><name>yarn.nodemanager.remote-app-log-dir</name><value>/home/hadoop/logs</value></property><property><description>Number of CPU cores that can be allocated for containers.</description><name>yarn.nodemanager.resource.cpu-vcores</name><value>4</value></property><property><description>the valid service name should only contain a-zA-Z0-9_ and can not start with numbers</description><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>

5.1.5修改slaves

bigdatasvr01
bigdatasvr03

修改完配置文件后,将修改好的安装包分别拷贝到bigdatasvr01,bigdatasvr02,bigdatasvr03节点的/home/hadoop目录下.

5.2 启动journalnode(每个节点上都运行)

运行命令:sbin/hadoop-daemon.sh start journalnode

5.3 格式化namenode(nn1)

在 bigdatasvr02 上运行命令: bin/hdfs namenode -format

5.4 启动namenode (nn1)

只有当namenode格式化成功之后才能正常启动namenode
在bigdatasvr02 上运行命令:sbin/hadoop-daemon.sh start namenode

5.5格式化namenode(nn2)

在bigdatasvr03 上运行命令:bin/hdfs namenode -bootstrapStandby 

5.6启动namenode (nn2)

在bigdatasvr03 上运行命令:sbin/hadoop-daemon.sh start namenode

在浏览器上访问http://bigdatasvr02:50070/当前是standby状态
在浏览器上访问http://bigdatasvr03:50070/当前是standby状态

5.7激活namenode

在bigdatasvr02 上运行命令:bin/hdfs haadmin -transitionToActive nn1
在浏览器上访问http://bigdatasvr02:50070

5.8启动datanode

在bigdatasvr02 上运行命令:sbin/hadoop-daemons.sh start datanode

5.9启动yarn

在bigdatasvr02 上运行命令:sbin/start-yarn.sh
在bigdatasvr02生成ResourceManager进程
在datanode节点上生成NodeManager进程
5.10执行一个MapReduce
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar pi 2 10  

5.11启动日志记录服务

在bigdatasvr03 上运行命令:sbin/mr-jobhistory-daemon.sh   start historyserver
在浏览器中输入:http://bigdatasvr03:19888/

6.停止hadoop集群

sbin/stop-all.sh
查看集群状态:
bin/hdfs dfsadmin -report

7.Hive部署安装

7.1安装mysql

7.2创建hive数据库和用户

1.登录mysql  以root用户身份登录

mysql -uroot -p123123

2.创建hive用户,数据库

insert into user(Host,User,Password,ssl_cipher,x509_issuer,x509_subject) values("localhost","hive",password("hive"),"","","");
create database hive;
grant all on hive.* to hive@'%'  identified by 'hive';
grant all on hive.* to hive@'localhost'  identified by 'hive';
flush privileges; 

7.3验证hive用户

7.4安装Hive

使用安装包为:hive-1.2.1-bin.tar.gz

1.下载解压安装包

2.配置hive环境变量:vi /etc/profile.d/hadoop.sh

使其生效:source /etc/profile.d/hadoop.sh

3.修改hive-site.xml

4.启动hive的metastore

nohup hive --service metastore >> metaserver_logs/nohup.out 2>&1 & 

5.启动hive的jdbc等服务程序,提供jdbc、beeline远端连接服务

hive --service hiveserver2 >> hiveserver_logs/nohup.out 2>&1 &

6.启动测试hive

执行hive命令:hive

7.创建hive表

create table inter_table(id int,
        name string,
        age int,
        tele string)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '\t'
    STORED AS TEXTFILE;
如果在创建表的时候卡很久一段时间并报错则需要设置mysql中hive数据库的编码为latin1.

HA HADOOP集群和HIVE部署相关推荐

  1. hadoop集群搭建+hive安装

    1.系统环境 VMware-workstation:VMware-workstation-full-16.2.3 ubuntu:ubuntu-21.10 hadoop:hadoop2.7.2 mysq ...

  2. Hadoop集群搭建Hive集群

    Hive介绍 hive是基于Hadoop的一个数据仓库工具,用来进行数据提取.转化.加载,这是一种可以存储.查询和分析存储在Hadoop中的大规模数据的机制.hive数据仓库工具能将结构化的数据文件映 ...

  3. 基于CentOs的Hadoop集群全分布式部署

    转自:http://blog.csdn.net/inte_sleeper/article/details/6569985 参考资料: http://www.michael-noll.com/tutor ...

  4. 利用闲置电脑安装虚拟机搭建hadoop集群

    文章目录 前言 一.虚拟机环境的准备 二.连接虚拟机上的集群 1.整理需要连接的端口 2.配置VMware上虚拟机的端口转发 3.测试连接 总结 前言 本人刚开始学习大数据,记录自己的一些学习笔记.大 ...

  5. Ambari安装之部署3个节点的HA分布式集群

    前期博客 Ambari安装之部署单节点集群 其实,按照这个步骤是一样的.只是按照好3个节点后,再做下HA即可. 部署3个节点的HA分布式集群 (1)添加机器 和添加服务的操作类似,如下图 之后的添加a ...

  6. Hadoop集群部署权限总结

    这是一篇总结的文章,主要介绍 Hadoop 集群快速部署权限的步骤以及一些注意事项.如果你想了解详细的过程,请参考本博客中其他的文章. 1. 开始之前 hadoop 集群一共有三个节点,每个节点的 i ...

  7. Hadoop集群搭建(五:Hadoop HA集群模式的安装)

    实验 目的 要求 目的: 1.Hadoop的高可用完全分布模式的安装和验证 要求: 完成Hadoop的高可用完全分布模式的安装: Hadoop的相关服务进程能够正常的启动: HDFS能够正常的使用: ...

  8. Hadoop集群部署模型纵览1

    vSphere Big Data Extensions(简称BDE)支持多种部署方式来构建Hadoop集群.按: 存储/计算绑定模型:将存储节点(Data Node)和计算节点(Task Tracke ...

  9. 阿里云ECS服务器部署HADOOP集群(三):ZooKeeper 完全分布式集群搭建

    本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建的基础上搭建,多添加了一个 datanode 节点 . 1 节点环境介绍: 1.1 环境介绍: 服务器:三台阿里 ...

最新文章

  1. 过滤请求绝技,布隆过滤器与布谷鸟过滤器
  2. 赋值、浅拷贝、深拷贝
  3. 一路去**ddss第二天
  4. 用SQL删除重复记录的N种方法
  5. 最萌办公室采访 | 网易程序员灵魂大拷问(文末有福利)
  6. 使用Configuration Manager部署及管理软件更新(2)
  7. linux c++连接mysql示例
  8. TensorFlow笔记(11) GoolgeNet
  9. 整数的素因子分解:Pollard rho method
  10. 总结一些开源的网站检测扫描器源码(未完)
  11. 关于PHP会话:session和cookie
  12. java设计模式--简单工厂模式
  13. 数据结构—栈的应用(括号匹配、表达式求值、递归)
  14. 【5分钟paper】基于近似动态规划的学习、规划和反应的集成架构
  15. _beginThread如何传递多个参数
  16. 【参考文献】平滑肌细胞生长培养
  17. knn.predict()报错 Expected 2D array, got 1D array instead: array=[18 90]. Reshape your data either usi
  18. AUTOSAR BSW介绍
  19. 14考虑电动汽车可调度潜力的充电站两阶段市场投标策略
  20. 华为服务器gpu芯片怎么样,云服务器gpu有多大

热门文章

  1. HIve窗口函数之CUME_DIST,PERCENT_RANK
  2. Error using symconvertChar (sym使用报错)
  3. [BUUCTF]PWN——[HarekazeCTF2019]baby_rop2
  4. 百度联盟与Google AdSense的比较
  5. img图片加载失败时,展示默认图片的方法
  6. ATA并口硬盘接口图解
  7. orgchart实现组织结构图
  8. Python 爬虫 数据提取
  9. 三角形的决策表优化问题
  10. esb和eai的区别