1:软件环境准备

1.1Hadoop:

我们使用hadoop Release 1.2.1(stable)版本,下载链接:

http://mirrors.ustc.edu.cn/apache/hadoop/common/hadoop-1.2.1/

我们选择hadoop-1.2.1-bin.tar.gz文件下载。

1.2Java:

Java在这里使用的是jdk1.7版本的,当然也可以使用1.6的,下载链接:

http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

我们选择Linux x86的 jdk-7u40-linux-i586.tar.gz版本下载,因为我的Linux机器是32位的;如果Linux机器是64的就必须选择64位的下载,可以选择jdk-7u40-linux-x64.tar.gz;这个步骤非常重要,不同的机器必须要配置不同的jdk版本。

2:安装到Linux中

2.1创建目录:

首先我们创建一个目录:

mkdir /data/installation,该目录存储下载好的的两个安装文件包。

mkdir /data/software/hadoop,该目录存储hadoop程序文件。

mkdir /data/software/java,该目录存储jdk的文件。

mkdir /data/software/eclipse,该目录存储eclipse的文件。

注意:在实际安装的时候我们最好单独为运行hadoop程序建立一个账号,并赋予相关权限。在这里我直接以root身份安装。

2.2解压安装包文件:

把刚刚下载好的文件都放到/data/installation/目录下。

首先解压java安装包文件,运行以下命令:

tar -xzvf /data/installation/jdk-7u40-linux-x64.tar.gz -C /data/software/java/

然后解压hadoop安装包文件,运行以下命令:

tar -xzvf /data/installation/hadoop-1.2.1-bin.tar.gz -C /data/software/hadoop/

最后解压eclipse安装包文件,运行以下命令:

tar -xzvf /data/installation/eclipse-standard-kepler-SR1-linux-gtk.tar.gz -C /data/software/eclipse/

3:配置Hadoop

Hadoop环境的配置关重要,首先必须要配置java运行环境。

3.1配置java环境:

添加JAVA_HOME,CLASSPATH环境变量:

使用vi /etc/profile命令编辑profile文件,在文件末尾加上以下内容:

HADOOP_INSTALL=/data/software/hadoop/hadoop-1.2.1/

JAVA_HOME=/data/software/java/jdk1.7.0_40

PATH=$JAVA_HOME/bin:$HADOOP_INSTALL/bin:$PATH

CLASSPATH=$JAVA_HOME/lib

export JAVA_HOME PATH CLASSPATH HADOOP_INSTALL

然后保存,退出,使用source /etc/profile使刚刚的更改立即生效。

然后使用java –version命令,查看是否配置成功,如果成功会出现以下信息:

java version "1.7.0_40"

Java(TM) SE Runtime Environment (build 1.7.0_40-b43)

Java HotSpot(TM) Client VM (build 24.0-b56, mixed mode)

3.2配置ssh环境:

使用以下命令设置ssh无密码连接:

ssh-keygen -t dsa -P "" -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

测试ssh配置是否成功:

ssh localhost

可以看到配置成功了,连接无需使用密码了;

配置ssh无密码访问有很多种方法,以上只是其中一种,以下是另外一种方法:

cd ~

ssh-keygen -t rsa

cd .ssh

cp id_rsa.pub authorized_keys

ssh hostname  //测试连接hostname是否成功

3.3配置hadoop环境:

我们首先进入到/data/software/hadoop/hadoop-1.2.1/conf这个目录,然后可以看到haddoop-env.sh,core-site.xml,mapred-site.xml,hdfs-site.xml这四个文件以及需要在完全分布模式配置的slaves和masters文件:

3.3.1配置hadoop-env.sh:

首先我们用vi hadoop-env.sh命令编辑打开hadoop-env.sh文件,找到JAVA_HOME关键字所在的行,把前面的#号去掉,然后填写实际的JAVA_HOME地址:

export  JAVA_HOME=/data/software/java/jdk1.7.0_40

3.3.2配置core-site.xml:

vi core-site.xml打开core-site.xml文件,然后在configuration标签中加入以下内容:

<property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</propety>

<!—fs.default.name:用来配置namenode,指定HDFS文件系统的URL,通过该URL我们可以访问文件系统的内容,也可以把localhost换成本机IP地址;如果是完全分布模式,则必须把localhost改为实际namenode机器的IP地址;如果不写端口,则使用默认端口8020。 -->

<property>

<name>hadoop.tmp.dir</name>

<value>/data/tmp/hadoop_tmp</value>

</property>

<!-- hadoop.tmp.dir:Hadoop的默认临时路径,这个最好配置,如果在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式化的命令。该目录必须预先手工创建。-->

3.3.3配置hdfs-site.xml:

在configuration标签中加入以下内容,所有不存在的目录都要预先创建:

<property>

<name>dfs.data.dir</name>

<value>/data/appdata/hadoopdata</value>

</property>

<!--配置HDFS存储目录,数据存放目录,用于datanode存放数据-->

<property>

<name>dfs.name.dir</name>

<value>/data/appdata/hadoopname</value>

</property>

<!—用来存储namenode的文件系统元数据,包括编辑日志和文件系统映像,如果更换地址的话,则需要重新使用hadoop namenode –format命令格式化namenode-->

<property>

<name>dfs.replication</name>

<value>1</value>

</proerty>

<!—用来设置文件系统冗余备份数量,因为只有一个节点,所有设置为1,系统默认数量为3-->

3.3.4配置mapred-site.xml:

在configuration标签中加入以下内容:

<property>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

<!—该项配置用来配置jobtracker节点,localhost也可以换成本机的IP地址;真实分布模式下注意更改成实际jobtracker机器的IP地址-->

4:启动hadoop

4.1:测试hadoop配置是否成功:

4.2:格式化namenode:

cd /data/software/hadoop/hadoop-1.2.1/bin

./hadoop namenode –format

4.3:启动hadoop进程,运行start-all.sh:

cd /data/software/hadoop/hadoop-1.2.1/bin

./start-all.sh

我们可以通过java的jps命令来查看进程是否启动成功,从下图可以看到,我们已经成功启动SecondaryNamenode,JobTracker,NameNode,DataNode,TraskTracker五个进程,而刚好这五个进程是hadoop所需要的。如果有一个进程没有启动成功,就表示整个集群没有正常工作,我们可以进入/data/software/hadoop/hadoop-1.2.1/libexec/../logs/目录下查看失败日记。

4.4:从浏览器查看hadoop信息:

我们可以从本机或者其他机器的浏览器访问hadoop。

查看jobtracker信息:

http://192.168.0.107:50030/jobtracker.jsp

上图显示的只是该页面的部分信息。

查看namenode信息:

http://192.168.0.107:50070/dfshealth.jsp

上图显示的只是该页面的部分信息。

查看trasktracker信息:

http://192.168.0.107:50060/tasktracker.jsp

5:hadoop实例

在这里我们来测试下hadoop自带的examples例子,该例子里面有个wordcount类,wordcount用来计算文件里面每一个单词出现了多少次数。examples jar包位于hadoop安装目录下,名称叫做hadoop-examples-1.2.1.jar:

5.1:进入到bin目录中去

首先我们进入到bin目录中去:

cd /data/software/hadoop/hadoop-1.2.1/bin

5.2:创建文件夹

然后我们创建一个input文件夹,并且创建3个文件,给每个文件写一些内容:

mkdir input

echo “hello hadoop” >input/f1.txt

echo “hello word” >input/f2.txt

echo “hello java” >input/f3.txt

5.3:在hadoop中创建文件夹

使用以下命令在hadoop中创建文件夹:

hadoop dfs –mkdir input

然后我们查看在hadoop中是否已经创建该文件夹:

hadoop dfs –ls /user/root

我们可以看到已经成功在hadoop中创建了input文件夹。

5.4:把文件复制到hadoop中

使用以下命令把文件从Linux中复制到hadoop中:

hadoop dfs –put input/* input

查看文件是否在hadoop中:

hadoop dfs –ls input

查看文件内容是否一致:

hadoop dfs –cat input/f1.txt

可以看到,文件已经成功放入hadoop文件系统中了。

5.5:从浏览器中查看文件内容

我们也可以从浏览器中浏览整个hdfs文件系统的目录,打开namenode链接:

http://192.168.0.107:50070/dfshealth.jsp

然后里面会有个Browse the filesystem超级链接,点击进去就可以看到相应的目录结构了。

5.6:运行examples例子

我们使用以下命令来运行wordcount程序:

hadoop jar ../hadoop-examples-1.2.1.jar wordcount input output

注意当前目录是bin目录,而jar包在上一级目录中,则定位jar包需要用到..来表示上级目录,wordcount表示jar包中的类名,表示要执行这个类,input是输入文件夹,output是输出文件夹,必须不存在,它由程序自动创建,如果预先存在output文件夹,则会报错。

我们可以看到程序已经运行成功,接下来就是查看运行结果了。

5.7:查看运行结果

我们可以查看output文件夹的内容来检查程序是否成功创建文件夹,通过查看output文件里面的part-r-00000文件的内容来检查程序执行结果:

我们可以看到hadoop出现一次,hello出现3次,java出现一次,world出现一次,这跟预期是一样的,说明执行成功。

6:关闭hadoop进程

如果我们要关闭hadoop集群,则只需要运行stop-all.sh:

cd /data/software/hadoop/hadoop-1.2.1/bin

./stop-all.sh

可以看到只有一个jps进程在运行,其它hadoop的进程都已经关闭了。

hadoop1.2.1伪分布模式安装教程相关推荐

  1. Hadoop伪分布模式安装

    Hadoop伪分布模式安装 Hadoop的运行模式分为3种: 本地运行模式,伪分布运行模式,完全分布运行模式. (1)本地模式(local mode) 这种运行模式在一台单机上运行,没有HDFS分布式 ...

  2. Hadoop1.2.1伪分布模式安装指南

    一.前置条件 1.操作系统准备 (1)Linux可以用作开发平台及产品平台. (2)win32只可用作开发平台,且需要cygwin的支持. 2.安装jdk 1.6或以上 3.安装ssh,并配置免密码登 ...

  3. hadoop1.2.1伪分布模式配置

    1.修改core-site.xml,配置hdfs 1 <configuration> 2 <property> 3 <name>fs.default.name< ...

  4. Spark Standalone 伪分布模式安装

    伪分布模式是基于Standalone模式来实现的,所以也叫Standalone伪分布模式.Spark在生产环节中,主要部署在安装linux系统的集群中.在linux系统中安装Spark需要先安装JDK ...

  5. Hadoop2.7.0伪分布式安装教程

    2019独角兽企业重金招聘Python工程师标准>>> 总是要学点什么是吧,Java学大数据据说很快,就从这面入手了,正好项目在使用可以get一项新技能了,距离全栈工程师又进了一步不 ...

  6. hadoop: hbase1.0.1.1 伪分布安装

    环境:hadoop 2.6.0 + hbase 1.0.1.1 + mac OS X yosemite 10.10.3 安装步骤: 一.下载解压 到官网 http://hbase.apache.org ...

  7. linux做伪分布时ip设置,Linux下伪分布模式的Hadoop部署

    伪分布模式也是在一台单机上运行,但用不同的 Java 进程模仿分布式运行中的各类结点 ( NameNode, DataNode, JobTracker, TaskTracker, Secondary ...

  8. Ubuntu下Hadoop的安装教程

    Ubuntu下Hadoop的安装教程,Hadoop的单机配置和伪分布式安装 教程 本教程采用的是Ubuntu18.04.4+hadoop2.7.7+jdk1.8 创建Hadoop用户 打开命令行终端( ...

  9. 大数据学习(2-1)-Hadoop安装教程-单机模式和伪分布模式(Ubuntu14.04LTS)

    文章目录 目录 1.linxu的安装 1.1安装Linux虚拟机 1.2安装Linux和Windows双系统 2.Hadoop的安装 2.1 Hadoop安装前配置 2.1.1 配置Hadoop用户 ...

最新文章

  1. Ubuntu 64 位下解决bash: xxx: 没有那个文件或目录
  2. Oracle笔记 四、增删改、事务
  3. 空类,虚函数类,虚继承类的空间大小
  4. java ear war_[JAVA语法]怎样制作ear,war文件
  5. java 设置光标_java光标位置怎么设置 java设置光标位置方法
  6. 【干货】打造优秀B端产品需求分析流程要点
  7. J2SE7规范_2013.2_类型_命名
  8. 工作总结 @{var sas = String.Format({0:yyyy-MM-dd}, Model.DemandTime.GetValueOrDefault());}
  9. vc ++ 如何做界面开发?
  10. Elasticsearch 单模式下API的增删改查操作
  11. python:实现lowest common ancestor最低共同祖先算法(附完整源码)
  12. android中热更新模式,Android热更新与开启Instant Run
  13. 香港喜运佳,承载着太多的回忆
  14. 计算机基础知识常用口诀,三句口诀!记住大部分常用的电脑快捷键!
  15. php浏览器下载文件 文件名 空格 中文 处理
  16. 12岁“乖乖女”出走后割腕欲轻生 警方3小时全城搜寻
  17. 视觉SLAM十四讲笔记-第三讲 刚体运动
  18. a73*2+a53*2指的是什么_张露:什么筹什么什么成语
  19. 物联网毕业设计选题大全
  20. atan2与atan的区别

热门文章

  1. 【Android 插件化】Hook 插件化框架 ( 从 Hook 应用角度分析 Activity 启动流程 二 | AMS 进程相关源码 | 主进程相关源码 )
  2. 【Android 高性能音频】Oboe 音频流打开后 耳机 / 音箱 插拔事件处理 ( 动态注册广播接收者监听耳机插拔事件 | 重新打开 Oboe 音频流 )
  3. php 日志处理工具 SeasLog 的使用
  4. PCB产业对ERP软件提出了哪些挑战?
  5. 20080826 - Delphi 2009 来了
  6. 2019.04.09 电商23 用户未登录操作数据库
  7. Linux fork()一个进程内核态的变化
  8. Java并发程序设计(四)JDK并发包之同步控制
  9. CSS和JS样式属性对照表
  10. 前谷歌工程团队负责人:如何打造一个完美的产品