大数据分布式集群搭建(5)
下面我们来操作大数据中的重头戏Hadoop
1. HADOOP背景介绍
1.1 什么是HADOOP
1.HADOOP是apache旗下的一套开源软件平台
2.HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理
3.HADOOP的核心组件有
A.HDFS(分布式文件系统)
B.YARN(运算资源调度系统)
C.MAPREDUCE(分布式运算编程框架)
4.广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈
1.2 HADOOP产生背景
1.HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
2.2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。
——分布式文件系统(GFS),可用于处理海量网页的存储
——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。
3.Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。
1.3 HADOOP在大数据、云计算中的位置和关系
1.云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合发展的产物。借助IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等业务模式,把强大的计算能力提供给终端用户。
2.现阶段,云计算的两大底层支撑技术为“虚拟化”和“大数据技术”
3.而HADOOP则是云计算的PaaS层的解决方案之一,并不等同于PaaS,更不等同于云计算本身。
一、安装Hadoop及配置
目标配置:
hdp01: Namenode ResourceManager SecondaryNameNode
hdp02: Datanode NodeManager
hdp03: Datanode NodeManager
hdp04: Datanode NodeManager
Step1:
首先依旧上传压缩包到root目录下面
tar -zxvf centos-6.5-hadoop-2.6.4.tar.gz -C /apps/
解压到apps下面
cd hadoop-2.6.4/etc/hadoop/
vi hadoop-env.sh
修改如下:
# The java implementation to use.
export JAVA_HOME=/apps/jdk1.8.0_60
(补充上回的zookee批量启动方法)
编辑一个批量启动shell脚本
vi zkStart.sh
#!bin/bash
for host in hdp01 hdp02 hdp03 hdp04
do
ssh $host “source /etc/profile;/apps/zookeeper/bin/zkServer.sh start”
done
chmod u+x zkStart.sh
sh zkStart.sh启动
言归正传,接下来vi core-site.xml
设置如下:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hdp01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/apps/hadoop-2.6.4/tmp</value>
</property>
</configuration>
接着
vi hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/apps/hdpdata/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/apps/hdpdata/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.blocksize</name>
<value>128m</value>
</property>
<property>
<name>dfs.secondary.http.address</name>
<value>hdp01:50090</value>
</property>
</configuration>
接着
vi mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://hdp01:9001</value>
</property>
</configuration>
接着
vi yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hdp01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
slaves文件指定datanodes列表
vi slaves
hdp02
hdp03
hdp04
分发到其他3台机器上面
scp -r /apps/hadoop-2.6.4 root@hdp02:/apps/
scp -r /apps/hadoop-2.6.4 root@hdp03:/apps/
scp -r /apps/hadoop-2.6.4 root@hdp04:/apps/
启动集群
初始化HDFS
bin/hadoop namenode -format
单独启动namenode或者datanode
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
启动HDFS
sbin/start-dfs.sh
单独启动resourcemanager或者nodemanager
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
启动YARN
sbin/start-yarn.sh
最终完成启动效果
hdp01 master
hdp02 slaves
。。。
我们可以通过hdp01:50070查看Namenode information
可以通过hdp01:8088查看Nodes of the Cluster
大数据文档:http://www.superkingdom.cn/bigdata
大数据分布式集群搭建(5)相关推荐
- 大数据分布式集群搭建(1)
在学习了几天的hadoop分布式集群搭建之后想写写文章记录一下一路以来遇到的困难和解决方案. 闲话不多说,进入正题. 一.环境及准备 因为只有一台电脑,所以需要用虚拟机来模拟环境. 本地机器用到软件: ...
- 大数据分布式集群搭建(4)
下面我们准备安装zookeeper 一.Zookeeper介绍(动物园管理) Zookeeper是一个分布式协调服务:就是为用户的分布式应用程序提供协调服务 1.zookeeper是为别的分布式程序服 ...
- 大数据分布式集群搭建(7)
HBASE --先部署一个zookeeper集群 (1)上传hbase安装包 (2)解压 (3)配置hbase集群,要修改3个文件 注意:要把hadoop的hdfs-site.xml和core-sit ...
- 大数据分布式集群搭建(3)
下面开始安装redis 首先介绍一下nosql NoSQL:一类新出现的数据库(not only sql),它的特点: 1.不支持SQL语法 2.存储结构跟传统关系型数据库中的那种关系表完全不同,no ...
- 大数据分布式集群搭建(9)
Sqoop相比于其他的工具搭建起来很容易 需要用到下面的东西 sqoop-1.4.6.tar.gz sqoop-1.4.6.jar mysql-connector-java-5.1.21.jar 首先 ...
- 大数据分布式集群搭建(6)
尝试运行mapreduce例子 先进到mapreduce文件夹中 (上次忘记了配hadoop环境变量,现在补上) 从本地上传一个文本文件到hdfs的/wordcount/input目录下 创建inpu ...
- 大数据分布式集群搭建(8)
安装hive Hive只在一个节点上安装即可,这里在主节点hdp01上面安装 首先上传安装包apache-hive-1.2.1-bin.tar.gz 解压到/apps/下面 如图所示 下一步安装Mys ...
- 大数据分布式集群搭建(插曲)
一.SFTP服务配置 如何用手上的机器来连接linux并通过ftp端口交互文件呢 这里需要在linux上面安装ftp服务端 首先检查安装vsftpd软件 使用如下命令#rpm -qa |grep vs ...
- 大数据分布式集群搭建(2)
之前已经配置好了初始化的内容,接下来开始安装三神器(jdk,tomcat,mysql) 一.JDK安装 首先通过sftp传文件到linux上面,Alt+P键调出sftp 拖拽文件进去即可,注意不要有中 ...
最新文章
- Django基础知识
- (36)FPGA面试题D触发器实现4进制计数器
- 固定顶部(广告栏效果)
- APPCAN学习笔记005---AppCan IDE安装下载,AppCan IDE启动
- 错误 执行Transact-SQL语句批处理时发生了异常。无法设置主体'sa'的凭据
- windows C盘自动清理bat脚本
- 3d max2012 安装加破解
- IB数学考试真题题型解析
- 国内外知名的21个Logo设计工具
- 隐形交通指挥员:浅述城市轨交信号系统
- AI人工智能在当前和未来社会的应用领域
- 印象笔记如何取消首字母大写
- 数据库表设置外键VS不设置外键,哪个更好?
- 情人节程序员用HTML网页表白【告白气球,飞入我的心扉】 HTML5七夕情人节表白网页源码 HTML+CSS+JavaScript
- 数字电路基础04(查找表LUT)
- (十六)【模电】(放大电路中的反馈)反馈的概念及判断
- 【???】【???】小麦亩产一百八
- 微信小程序 滚动列表(无限滚动)
- 【数据结构与算法】之动态规划经典问题
- 你要去做一个大人,不要回头,不要难过
热门文章
- SpringBoot 拦截器和过滤器
- GraphDTA | 基于图卷积网络预测药物-靶标结合亲和力
- bcftools安装
- Windows10+Python3.6(Anaconda3)+OpenCV3.4安装配置
- RMSD:通过旋转计算两个分子间的最小rmsd
- python中的下划线_Python中的下划线详解
- 如何在golang中关闭bufio.reader_Golang 并发模型系列:1. 轻松入门流水线模型
- ESTL:新型多重扩增子测序法可实现污水中 SARS-CoV-2 RNA 的精确定量和病毒溯源...
- ISME:中大李文均组在放线菌生命暗物质的生态功能与进化上取得进展
- NanoPlot:三代纳米孔测序数据质量评估