2019独角兽企业重金招聘Python工程师标准>>>

一、目的

这篇文档描述了怎样去安装和配置一个单节点的Hadoop,因此您可以使用Hadoop MapReduce 和 Hadoop Distributed File System (HDFS) 快速展现一个简单的运算。

二、安装的先决条件

支持的平台

Hadoop支持GNU/Linux系统,并被作为开发和产品平台。经证实,在GNU/Linux平台上Hadoop可以支持2000个节点的集群。

Windows系统也是被支持的,但是下面的文档仅描述Hadoop在Linux上的安装,Hadoop在Windws系统的安装请参考 wiki page。

所需软件

Linux需求的软件包含:

Java™ 必须被安装,推荐的Java版本请参考 HadoopJavaVersions. ssh 必须被安装并且sshd是运行状态, 因为需要用Hadoop脚本去管理远程守护进程。

安装软件

如果你的集群中没有上述软件,请安装它。

例如在Ubuntu下:

$ sudo apt-get install ssh
$ sudo apt-get install rsync

三、下载所需软件

获取Hadoop 分布式集群软件,从 Apache Download Mirrors上下载一个最近的稳定版本(当期稳定版本是2.4.1)。

四、准备开始Hadoop集群

解压下载好的Hadoop软件。 在安装目录里,编辑文件etc/hadoop/hadoop-env.sh,并定义下面一些参数:

# 设置JAVA的安装目录export JAVA_HOME=/usr/java/latest
# 设置hadoop的安装目录,假如您的安装目录是 /usr/local/hadoopexport HADOOP_PREFIX=/usr/local/hadoop

在Termimal中尝试输入以下命令:

$ bin/hadoop

输入上述命令后,Terminal中将会显示hadoop scripts的使用帮助文档。

接下来,你可以在下面三种模式中开始您的Hadoop集群

  • 本地模式(单机模式)
  • 为分布式模式
  • 完全分布式模式

五、单机安装(运行一个例子)

默认情况下,Hadoop作为一个简单的Java程序,被运行在一个没有分布式的模式。更多的是被用来调式程序。

在下面的例子中,复制Hadoop安装文件中的conf目录,使用它作为输入。然后再conf文件中找出与给定正则表达式匹配的文件。输出被写到给定的output目录。

$ mkdir input$ cp etc/hadoop/*.xml input$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'$ cat output/*

六、伪分布式安装

Hadoop也可以在一个单节点中运行伪分布式模式,Hadoop守护进程运行在一个分割的Java程序中。

配置

 配置的文件和属性如下:

etc/hadoop/core-site.xml:

<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration><property><name>dfs.replication</name><value>1</value></property>
</configuration>

配置ssh无秘钥登录

使用如下命令检查您的ssh是否可以无秘钥登录

$ ssh localhost

如果不能使用无秘钥登录到localhost,请执行下面的命令:

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

执行

下面这些命令运行一个MapReduce作业,如果您想执行一个YARN作业,请参考下一节的内容: 在单节点上运行YARN。

  1. 格式化文件系统:

    $ bin/hdfs namenode -format

  2. 开启NameNode守护进程和DataNode守护进程:
    $ sbin/start-dfs.sh

    Hadoop守护进程日志输出在$HADOOP_LOG-DIRdiewctory目录(默认在 $HADOOP_HOME/logs 目录中)。

浏览NameNode的web接口; at:

  • NameNode -http://localhost:50070/
生成执行MapReduce作业需要的HDFS目录 :

$ bin/hdfs dfs -mkdir /user $ bin/hdfs dfs -mkdir /user/<username>

上传输入文件(etc/hadoop)到HDFS,并重新命名为input:

$ bin/hdfs dfs -put etc/hadoop input

运行Hadoop提供的例子:

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'

检查输出文件:

从HDFS中复制出输出文件到本地文件系统并检查他们:

$ bin/hdfs dfs -get output output$ cat output/*

或者

直接在HDFS中查看输出文件:

$ bin/hdfs dfs -cat output/*

当你完成后,可以使用下面命令停止守护进程 :

$ sbin/stop-dfs.sh

在单节点上运行YARN

你可以在伪分布式模式下通过设置一些参数,并运行ResourceManager和NodeMangaer守护进程的条件下,来运行一个在YARN上的MapReduce作业。

执行下面的命令,要确保以上的1~4个步骤已经被执行。

  1. 配置下面文件的参数:

    etc/hadoop/mapred-site.xml:

    <configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property>
    </configuration>

    etc/hadoop/yarn-site.xml:

    <configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
    </configuration>

  2. 开启 ResourceManager 守护进程和NodeManager守护进程:
    $ sbin/start-yarn.sh

  3. 浏览ResourceManager的web接口; 默认的有效路径是:
    • ResourceManager -http://localhost:8088/
  4. 运行一个MapReduce作业。
  5. 当你完成的时候, 可以使用以下命令停止YARN守护进程:
    $ sbin/stop-yarn.sh

七、完全分布式安装

完全分布式更详细的安装文档请参考 Cluster Setup  。

转载于:https://my.oschina.net/997155658/blog/313420

Apache Hadoop 2.4.1 单节点安装相关推荐

  1. Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装

     Hadoop介绍 Hadoop是一个能对大量数据进行分布式处理的软件框架.其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapR ...

  2. 大数据单机学习环境搭建(9)Spark单节点安装与pyspark使用

    包含sparksql的完整使用案例,请务必耐心看完 专题:大数据单机学习环境搭建和使用 1.Spark安装 2.Spark配置 2.1配置环境变量 2.2spark客户端 3.Spark使用 3.1环 ...

  3. Docker安装zookeeper 单节点安装

    基于Docker安装zookeeper 一.单节点安装 拉取最新版本 docker pull zookeeper 启动zookeeper并添加映射 语法:docker run --privileged ...

  4. 【大数据系列】hadoop单节点安装官方文档翻译

    Hadoop: Setting up a Single Node Cluster. HADOOP:建立单节点集群 Purpose Prerequisites Supported Platforms R ...

  5. 菜鸟也学hadoop(1)_搭建单节点的hadoop

    其实跟官方的教程一样 只是 我想写下来 避免自己搞忘记了,,,,好记性不如烂笔头 首先确认自己是否安装了 java, ssh 以及 rsync 没有装的直接就 apt-get install 了嘛,, ...

  6. Hbase单节点安装

    zookeeper单节点部署 实验环境 操作系统:Ubuntu 16.04 Hadoop:Hadoop 2.7.5 Zookeeper:zookeeper 3.4.12 Java:java versi ...

  7. ceph单节点安装部署

    目录 背景 第一步.创建虚拟机 第二步.启动虚拟机 第三步.更新源 第四步.修改hosts 第五步,关闭selinux 第六步,安装软件 第七步,开始部署 第八步,部署其他服务 背景 在学习Ceph基 ...

  8. gaussDB200 单节点安装

    ** ## 安装环境 redhat7.1 ** 一.安装前准备: 1.软件包: FusionInsight_Manager_6.5.1_RHEL.tar.gz FusionInsight_BASE_6 ...

  9. kylin-1.6.0单节点安装

    Hadoop-2.5.1-HA搭建 Hbase-1.1.3-HA搭建 hive-1.2集群搭建 kylin下载地址 [root@hadoop1 ~]# tar -zxvf apache-kylin-1 ...

最新文章

  1. [Android Pro] ScrollView使用fillViewport设置高度为MatchParent
  2. router OS (ROS)命令中文手册
  3. element-ui button组件 radio组件源码分析整理笔记(一)
  4. golang 判断 两个slice 是否相等
  5. 烟台大学计算机专业最低分,烟台大学计算机科学与技术专业2016年在河南理科高考录取最低分数线...
  6. 迁移学习---inceptionV3
  7. 新手手册:Pytorch分布式训练
  8. ruby mysql 驱动_windows下Rails安装MySql驱动的配置
  9. 日常问题——VMware下的CentOS7 Ping不通百度
  10. Hadoop前期准备--centos6.4
  11. 关于nova-manage service list检测服务状态原理
  12. Filezilla:建立远程与阿里云交互的FTP
  13. Luogu5889 跳树
  14. 计算机教室网络连接示意图,多媒体电教室解决方案
  15. python实现自动开机_python自动循环定时开关机(非重启)测试
  16. SpotMicro 12自由度四足机器人制作(两套方案)
  17. 监视注册表变化 - Registry Auditing
  18. Invalid bound statement (not found)错误的几种解决方法
  19. 智能汽车预期功能安全保障关键技术
  20. 《第四周RFID作业》物联112118 林家辉

热门文章

  1. 浅谈JavaScript错误
  2. postfix+mysql 发件服务
  3. mysql游标循环的使用
  4. PHP的htmlspecialchars、strip_tags、addslashes解释
  5. 像我这种背景的人跑到微软来干什么?
  6. 关于kali相关的参考文章
  7. 全网唯一的Microsoft?NETFramework3?5SP1简体中文完整版离线安装包安装netframewo
  8. mysql主从复制、redis基础、持久化和主从复制
  9. fatal: Unable to find remote helper for 'https'
  10. Window Server 2008 R2系统备份