前言:

      毕业两年了,之前的工作一直没有接触过大数据的东西,对hadoop等比较陌生,所以最近开始学习了。对于我这样第一次学的人,过程还是充满了很多疑惑和不解的,不过我采取的策略是还是先让环境跑起来,然后在能用的基础上在多想想为什么。

      通过这三个礼拜(基本上就是周六周日,其他时间都在加班啊T T)的探索,我目前主要完成的是:

  1.在Linux环境中伪分布式部署hadoop(SSH免登陆),运行WordCount实例成功。  http://www.cnblogs.com/PurpleDream/p/4009070.html 

      2.自己打包hadoop在eclipse中的插件。  http://www.cnblogs.com/PurpleDream/p/4014751.html

      3.在eclipse中访问hadoop运行WordCount成功。 http://www.cnblogs.com/PurpleDream/p/4021191.html

      所以我下边会分三次记录下我的过程,为自己以后查阅方便,要是能帮助到其他人,自然是更好了!

===============================================================长长的分割线====================================================================

正文:

       我的部署环境是之前在阿里云购买的Linux云服务器(大家用自己的linux环境,或者搭个VM虚拟机也是可以滴),系统是CentOS6.X,之前需要自己安装好JDK,我安装的是1.6的,注意这个后边在安装完hadoop后,也需要给Hadoop配置JAVA_HOME,不然会报错。

在安装hadoop之前,我们需要先配置SSH免登陆,如果不配置的话,我们后边在启动hadoop时,都将需要输入密码,到时会很麻烦,这个网上有很多资料,也可以参考我的另外一篇博客:http://www.cnblogs.com/PurpleDream/p/4012328.html 。注意,我的基本与网上步骤一致,这个也是我当初参考网上的步骤,在执行的时候根据自己的情况稍加修改,就可以了。

安装hadoop首先是下载hadoop,由于我参考的《hadoop实战》这本书,所以为了更接近书中的内容,同时也考虑到高版本的hadoop涉及的东西会更多,不利于我这样的初学者学习,所以我选择hadoop-1.0.1这个版本。下边的网址中是完整的hadoop版本的下载列表,也可以根据自己的需要去下载:http://archive.apache.org/dist/hadoop/core/。

我下载的是hadoop-1.0.1.tar.gz,通过SSH工具上传到linux服务器的目录中(我的是:/myself_setted/hadoop),然后利用解压缩命令“tar -zxvf hadoop-1.0.1.tar.gz”解压到当前目录。

进入解压缩后的目录(我的是:/myself_setted/hadoop/hadoop-1.0.1),进入conf文件夹,进行配置:

1.首先打开hadoop-env.sh文件,修改配置文件如下:export JAVA_HOME=/usr/java/jdk1.6.0_35     注意,此处的jdk路径是之前在安装JDK时配置的路径,不要写错,如果配置有误,后边在启动hadoop时,会报找不到java的错误。

2.然后在打开core-site.xml文件,这里配置的是HDFS的地址及段口红,配置如下:

<configuration><property><name>fs.default.name</name><value>hdfs://localhost:9000</value></property>
</configuration>

3.再打开hdfs-site.xml文件,配置的备份方式默认是3,在我们这种伪分布式部署方式中,需要将其配置为1

<configuration><property><name>dfs.replication</name><value>1</value></property>
</configuration>

4.最后是MapReduce的配置文件,打开mapred-site.xml,配置JobTracker的地址和端口

<configuration><property><name>mapred.job.tracker</name><value>localhost:9001</value></property>
</configuration>

通过上边的四步,我们已经完成了基本的配置工作,在启动hadoop前,我们还需要格式化hadoop,我们需要将目录切换到解压缩后的根目录(我的是:/myself_setted/hadoop/hadoop-1.0.1),依次执行以下命令:

1.bin/hadoop namenode -format

2.bin/hadoop datanode -format

3.bin/start-all.sh

通过上边的三步,我们可以认为我们的hadoop已经启动,但是我们还需要验证启动是否有问题,验证的方法比较多,我就说说我用的(以下的验证方法是并列的关系,不是先后继承关系):

1.打开浏览器,分别输入网址http://localhost:50030(MapReduce的web页面);http://localhost:50070(HDFS的web页面)。由于我的是云服务器,所以我自己的在查看的时候,localhost替换为服务器的公网IP

2.在linux环境下,输入JPS,查看关于hadoop的进程是否完整,完整事例如下(进程号不定哈):

4113 TaskTracker
4006 JobTracker
26640 Jps
3680 NameNode
3911 SecondaryNameNode
3788 DataNode

当然如果上边的验证基本没有问题,我相信你已经接近成功了,下边我们将具体执行一个“作业”,来验证我们的环境。我们运行的例子就是hadoop中的hello word程序,即WordCount,顾名思义就是计算单词的出现次数,步骤如下:

1.在以上的hadoop启动的情况下,我们首先在hadoop-1.0.1的根目录(我的是:/myself_setted/hadoop/hadoop-1.0.1),建立一个文件夹叫test,然后我们再test文件夹(/myself_setted/hadoop/hadoop-1.0.1/test)中简历一个a.txt的文件,内容如

下(注意,此步骤中建立的文件夹的位置以及文件夹中文件的名字和内容,你可以随意设定路径和内容,主要你在下边的2和3三步中上传文件到HDFS上时,一定要把路径写正确):

aa
bb
cc
ee
aa
ee
ff

2.在hdfs中建立一个输入文件夹: bin/hadoop fs -mkdir /input。注意我执行此命令时所在的目录是hadoop-1.0.1的根目录(我的是:/myself_setted/hadoop/hadoop-1.0.1)

3.将a.txt放入到2中hdfs的输入文件夹中:bin/hadoop fs -put test/a.txt /input。注意我执行此命令时所在的目录是hadoop-1.0.1的根目录(我的是:/myself_setted/hadoop/hadoop-1.0.1)

4.这时如果我们在执行bin/hadoop fs -ls /input这个命令时,如果之前的步骤正确的话,我们将看到列出了一个a.txt的文件。注意我执行此命令时所在的目录是hadoop-1.0.1的根目录((我的是:/myself_setted/hadoop/hadoop-1.0.1)

5.经过上边的4步,我们下边还有最后一个命令,那就是执行作业。我们看下hadoop-1.0.1的根目录(我的是:/myself_setted/hadoop/hadoop-1.0.1,有一个hadoop-examples-1.0.1.jar这个jar包,这里面打包了一些hadoop自带的例子,我们要运行的WordCount方法就是这个包中,执行命令如下:bin/hadoop  jar  hadoop-examples-1.0.1.jar  wordcount  /input  /output,

6.根据提示,如果出现map 100% reduce 100%等字样,我们就可以通过bin/hadoop fs -ls /output命令查看/output文件夹中统计结果了。

转载于:https://www.cnblogs.com/PurpleDream/p/4009070.html

Hadoop1 Centos伪分布式部署相关推荐

  1. 大数据之---Yarn伪分布式部署和MapReduce案例

    1.软件环境 RHEL6 角色 jdk-8u45 hadoop-2.8.1.tar.gz   ssh xx.xx.xx.xx ip地址 NN hadoop01 xx.xx.xx.xx ip地址 DN ...

  2. hadoop3.1伪分布式部署

    1.环境准备 系统版本:CentOS7.5 主机名:node01 hadoop3.1 的下载地址: http://mirror.bit.edu.cn/apache/hadoop/common/hado ...

  3. 胖虎的Hadoop笔记——Hadoop的伪分布式部署

    胖虎的Hadoop笔记--Hadoop的伪分布式部署 本博客用于Hadoop大数据企业课笔记记录.第三步 一.VMware安装和创建虚拟机 1.VMware安装 安装包下载:https://pan.b ...

  4. day70-大数据之Hadoop部署1(单机部署与伪分布式部署)

    大数据基础平台实施及运维 一.大数据介绍 学习目标 能够了解为什么使用大数据技术 能够了解大数据指的是什么 1. 为什么使用大数据技术? 数据量越来越大 数据分析的实时性越来越强 数据结果的应用越来越 ...

  5. Hadoop伪分布式部署及常用操作

    hadoop伪分布式部署 之前有做过hadoop 2.x的部署,现在再做一下hadoop 3.x的部署. hadoop有三个组件:hdfs用来存储数据,mapreduce 用来计算(作业) ,yarn ...

  6. MongoDB副本集、分片集的伪分布式部署(保姆级教程)

    目录 1 集群架构(概念篇) 1.1 MongoDB核心组件 1.2 主从复制 1.3 副本集 1.4 分片集 2 集群搭建 2.1 部署副本集(伪分布式) 2.2 分片集部署(伪分布式) 2.3 副 ...

  7. Hbase伪分布式部署

    按照JDK 并配置 JAVA_HOME 环境变量 vim /etc/profile export /home/software/jdk1.8.0_73 配置 Hbase 伪分布时 1)修改 hbase ...

  8. windows下hadoop的单机伪分布式部署(3)

    下面介绍myeclipse与hadoop的集成. 我用的myeclipse版本是8.5. 1.安装hadoop开发插件 在hadoop1.2.1版本的安装包contrib/目录下,已经不再提供hado ...

  9. 在hadoop中伪分布式部署的命令与步骤

    HDFS是进行存储的,YARN是进行调度的. 第一步先切换到hadoop下面的etc(配置文件都在etc下面) 命令:cd /etc 然后在hadoop中配置core-site.xml 命令:Vi c ...

最新文章

  1. 数据格式、类型系统与展示
  2. python官网怎么改中文-pycharm如何设置成中文
  3. Python剑指offer:分行从上到下打印二叉树
  4. How to Secure Your Smart Contracts: 6 Solidity Vulnerabilities and how to avoid them (Part 1)
  5. linux-RPM与YUM
  6. WPF中的命令(Command)
  7. Ubuntu下配置Window CIFS共享
  8. selenium IDE的基本命令
  9. java String补足
  10. 炒冷饭系列:设计模式 工厂模式
  11. 图像处理中的空间域处理方法
  12. 前端打包混编压缩js代码,如何不重新打包,修改js文件内部配置参数?
  13. 客户端无刷新调用服务器程序
  14. webstorm 主题导入方法
  15. 4种网游外挂制作方法
  16. LeetCode打家劫舍系列
  17. Sniffer网络监视功能
  18. Java堆内存溢出造成OS卡顿/服务中断的一种情况
  19. 卸载程序时总是 显示“请等待当前程序完成卸载或更改”!
  20. and true和if都是python语言的保留字_python自学 第三章 python语言基础之保留字、标识符与内置函数...

热门文章

  1. 【CNN】一文读懂卷积神经网络CNN
  2. 第三次AI寒冬即将来袭?
  3. 人工智能落地,商业化比技术更重要
  4. 这可能是十年来最酷的神经科学发现
  5. 玩电子游戏的神经网络,告诉我们大脑是如何决策的
  6. 不输GPS!30颗卫星全部就位!北斗三号全球卫星导航星座部署顺利收官
  7. 人工智能最受欢迎的十大TED演讲
  8. 浅谈 EHT 黑洞照片拍摄原理
  9. 不可思议的数字:互联网每天到底能产生多少数据?
  10. Sublime Text的使用-Mac