Apache Hadoop 2.4.1 单节点安装
2019独角兽企业重金招聘Python工程师标准>>>
一、目的
这篇文档描述了怎样去安装和配置一个单节点的Hadoop,因此您可以使用Hadoop MapReduce 和 Hadoop Distributed File System (HDFS) 快速展现一个简单的运算。
二、安装的先决条件
支持的平台
Hadoop支持GNU/Linux系统,并被作为开发和产品平台。经证实,在GNU/Linux平台上Hadoop可以支持2000个节点的集群。
Windows系统也是被支持的,但是下面的文档仅描述Hadoop在Linux上的安装,Hadoop在Windws系统的安装请参考 wiki page。
所需软件
Linux需求的软件包含:
Java™ 必须被安装,推荐的Java版本请参考 HadoopJavaVersions. ssh 必须被安装并且sshd是运行状态, 因为需要用Hadoop脚本去管理远程守护进程。
安装软件
如果你的集群中没有上述软件,请安装它。
例如在Ubuntu下:
$ sudo apt-get install ssh
$ sudo apt-get install rsync
三、下载所需软件
获取Hadoop 分布式集群软件,从 Apache Download Mirrors上下载一个最近的稳定版本(当期稳定版本是2.4.1)。
四、准备开始Hadoop集群
解压下载好的Hadoop软件。 在安装目录里,编辑文件etc/hadoop/hadoop-env.sh,并定义下面一些参数:
# 设置JAVA的安装目录export JAVA_HOME=/usr/java/latest
# 设置hadoop的安装目录,假如您的安装目录是 /usr/local/hadoopexport HADOOP_PREFIX=/usr/local/hadoop
在Termimal中尝试输入以下命令:
$ bin/hadoop
输入上述命令后,Terminal中将会显示hadoop scripts的使用帮助文档。
接下来,你可以在下面三种模式中开始您的Hadoop集群
- 本地模式(单机模式)
- 为分布式模式
- 完全分布式模式
五、单机安装(运行一个例子)
默认情况下,Hadoop作为一个简单的Java程序,被运行在一个没有分布式的模式。更多的是被用来调式程序。
在下面的例子中,复制Hadoop安装文件中的conf目录,使用它作为输入。然后再conf文件中找出与给定正则表达式匹配的文件。输出被写到给定的output目录。
$ mkdir input$ cp etc/hadoop/*.xml input$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'$ cat output/*
六、伪分布式安装
Hadoop也可以在一个单节点中运行伪分布式模式,Hadoop守护进程运行在一个分割的Java程序中。
配置
配置的文件和属性如下:
etc/hadoop/core-site.xml:
<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>
etc/hadoop/hdfs-site.xml:
<configuration><property><name>dfs.replication</name><value>1</value></property>
</configuration>
配置ssh无秘钥登录
使用如下命令检查您的ssh是否可以无秘钥登录
$ ssh localhost
如果不能使用无秘钥登录到localhost,请执行下面的命令:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
执行
下面这些命令运行一个MapReduce作业,如果您想执行一个YARN作业,请参考下一节的内容: 在单节点上运行YARN。
- 格式化文件系统:
$ bin/hdfs namenode -format
- 开启NameNode守护进程和DataNode守护进程:
$ sbin/start-dfs.sh
Hadoop守护进程日志输出在$HADOOP_LOG-DIRdiewctory目录(默认在 $HADOOP_HOME/logs 目录中)。
浏览NameNode的web接口; at:
- NameNode -http://localhost:50070/
$ bin/hdfs dfs -mkdir /user $ bin/hdfs dfs -mkdir /user/<username>
上传输入文件(etc/hadoop)到HDFS,并重新命名为input:
$ bin/hdfs dfs -put etc/hadoop input
运行Hadoop提供的例子:
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'
检查输出文件:
从HDFS中复制出输出文件到本地文件系统并检查他们:
$ bin/hdfs dfs -get output output$ cat output/*
或者
直接在HDFS中查看输出文件:
$ bin/hdfs dfs -cat output/*
当你完成后,可以使用下面命令停止守护进程 :
$ sbin/stop-dfs.sh
在单节点上运行YARN
你可以在伪分布式模式下通过设置一些参数,并运行ResourceManager和NodeMangaer守护进程的条件下,来运行一个在YARN上的MapReduce作业。
执行下面的命令,要确保以上的1~4个步骤已经被执行。
- 配置下面文件的参数:
etc/hadoop/mapred-site.xml:
<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property> </configuration>
etc/hadoop/yarn-site.xml:
<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property> </configuration>
- 开启 ResourceManager 守护进程和NodeManager守护进程:
$ sbin/start-yarn.sh
- 浏览ResourceManager的web接口; 默认的有效路径是:
- ResourceManager -http://localhost:8088/
- 运行一个MapReduce作业。
- 当你完成的时候, 可以使用以下命令停止YARN守护进程:
$ sbin/stop-yarn.sh
七、完全分布式安装
完全分布式更详细的安装文档请参考 Cluster Setup 。
转载于:https://my.oschina.net/997155658/blog/313420
Apache Hadoop 2.4.1 单节点安装相关推荐
- Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装
Hadoop介绍 Hadoop是一个能对大量数据进行分布式处理的软件框架.其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapR ...
- 大数据单机学习环境搭建(9)Spark单节点安装与pyspark使用
包含sparksql的完整使用案例,请务必耐心看完 专题:大数据单机学习环境搭建和使用 1.Spark安装 2.Spark配置 2.1配置环境变量 2.2spark客户端 3.Spark使用 3.1环 ...
- Docker安装zookeeper 单节点安装
基于Docker安装zookeeper 一.单节点安装 拉取最新版本 docker pull zookeeper 启动zookeeper并添加映射 语法:docker run --privileged ...
- 【大数据系列】hadoop单节点安装官方文档翻译
Hadoop: Setting up a Single Node Cluster. HADOOP:建立单节点集群 Purpose Prerequisites Supported Platforms R ...
- 菜鸟也学hadoop(1)_搭建单节点的hadoop
其实跟官方的教程一样 只是 我想写下来 避免自己搞忘记了,,,,好记性不如烂笔头 首先确认自己是否安装了 java, ssh 以及 rsync 没有装的直接就 apt-get install 了嘛,, ...
- Hbase单节点安装
zookeeper单节点部署 实验环境 操作系统:Ubuntu 16.04 Hadoop:Hadoop 2.7.5 Zookeeper:zookeeper 3.4.12 Java:java versi ...
- ceph单节点安装部署
目录 背景 第一步.创建虚拟机 第二步.启动虚拟机 第三步.更新源 第四步.修改hosts 第五步,关闭selinux 第六步,安装软件 第七步,开始部署 第八步,部署其他服务 背景 在学习Ceph基 ...
- gaussDB200 单节点安装
** ## 安装环境 redhat7.1 ** 一.安装前准备: 1.软件包: FusionInsight_Manager_6.5.1_RHEL.tar.gz FusionInsight_BASE_6 ...
- kylin-1.6.0单节点安装
Hadoop-2.5.1-HA搭建 Hbase-1.1.3-HA搭建 hive-1.2集群搭建 kylin下载地址 [root@hadoop1 ~]# tar -zxvf apache-kylin-1 ...
最新文章
- [Android Pro] ScrollView使用fillViewport设置高度为MatchParent
- router OS (ROS)命令中文手册
- element-ui button组件 radio组件源码分析整理笔记(一)
- golang 判断 两个slice 是否相等
- 烟台大学计算机专业最低分,烟台大学计算机科学与技术专业2016年在河南理科高考录取最低分数线...
- 迁移学习---inceptionV3
- 新手手册:Pytorch分布式训练
- ruby mysql 驱动_windows下Rails安装MySql驱动的配置
- 日常问题——VMware下的CentOS7 Ping不通百度
- Hadoop前期准备--centos6.4
- 关于nova-manage service list检测服务状态原理
- Filezilla:建立远程与阿里云交互的FTP
- Luogu5889 跳树
- 计算机教室网络连接示意图,多媒体电教室解决方案
- python实现自动开机_python自动循环定时开关机(非重启)测试
- SpotMicro 12自由度四足机器人制作(两套方案)
- 监视注册表变化 - Registry Auditing
- Invalid bound statement (not found)错误的几种解决方法
- 智能汽车预期功能安全保障关键技术
- 《第四周RFID作业》物联112118 林家辉
热门文章
- 浅谈JavaScript错误
- postfix+mysql 发件服务
- mysql游标循环的使用
- PHP的htmlspecialchars、strip_tags、addslashes解释
- 像我这种背景的人跑到微软来干什么?
- 关于kali相关的参考文章
- 全网唯一的Microsoft?NETFramework3?5SP1简体中文完整版离线安装包安装netframewo
- mysql主从复制、redis基础、持久化和主从复制
- fatal: Unable to find remote helper for 'https'
- Window Server 2008 R2系统备份