前言:

目前,学习hadoop的目的是想配合其它两个开源软件Hbase(一种NoSQL数据库)和Nutch(开源版的搜索引擎)来搭建一个知识问答系统,Nutch从指定网站爬取数据存储在Hbase数据库的表中,而Hbase运行在Hadoop之上。

学习Hadoop已有数月,想把自己的积累晒出来,一者温故知新,二者与大家分享。写文章挺费时间的,所以文风尽量简洁。若欲了解细节可发帖讨论,交个朋友。

水平有限,还望指正!

一、使用环境

操作系统:Ubuntu12.04

Hadoop版本:1.0.4

二、Hadoop官网安装手册

单机安装分为“standalone”和“pseudo-distributed”两种模式,我使用的是伪分布式模式。

手册的安装步骤很详细,没有必要当翻译工了。但是手册为了通用性,牺牲了一些关键问题的讨论。第三节中提及一下。

三、手册缺陷

手册主要有两个问题没有说清楚:

1.Hadoop安装在哪个目录下好?

选择一般有两种:/usr/local和家目录下。我选择安装在家目录下,因为开始玩hadoop的时候,这样避免了权限的麻烦;如果要部署应用的话,应该安装在/usr/local。

2.配置文件的问题

这是安装hadoop最重要的步骤。所有配置文件均在${HADOOP_HOME}/conf目录下。

如果完全按照手册配置,你的hadoop可能经常遇到NameNode或DataNode启动不起来的情况。配置文件的不同主要在core-site.xml.

手册配置如下:

<configuration><property><name>fs.default.name</name><value>hdfs://localhost:9000</value></property>
</configuration>

我的配置如下:

<configuration>
  7      <property>
  8          <name>fs.default.name</name>
  9          <value>hdfs://localhost:8020</value>
 10      </property>
 11 
 12      <property>  
 13         <name>hadoop.tmp.dir</name>  
 14         <value>/home/zhengeek/hadoop-tmp</value>  
 15         <description>A base for other temporary directories.</description>  
 16      </property>  
 17     </configuration>

有两处不同:

1.9000和8020这两个端口都可以,只要没有被占用。

2.最容易出问题的地方就在这里。比如这个哥们遇到的问题。

      hadoop运行起来,hdfs和mapreduce有许多数据需要保存。这可以通过dfs.name.dir 和 dfs.data.dir设置。如果没有设置,那么数据就会默认存放在/tmp目录下,如果机器重启,tmp目录下的数据就会丢失,namenode自然启动不起来了。

      如果设置了hadoop.tmp.dir,那么这些数据就会默认存放在改目录下。

       有关hadoop.tmp.dir设置的讨论。

四、启动hadoop

       1.格式化hdfs

       $bin/hadoop namenode -format

       2.启动hdfs

       $bin/start-all.sh

      3.检查是否成功

       $jps

       若成功,会看到namenode,secondarynamenode,datanode,jobtracker和tasktracker五个进程。


如有问题,欢迎联系我哦。




转载于:https://www.cnblogs.com/jiangu66/p/3177824.html

Hadoop1.0.4伪分布式安装相关推荐

  1. hadoop伪分布式安装

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/qq1010885678/article/details/43447733 首先需要有一台linux的 ...

  2. ZooKeeper:win7上安装单机及伪分布式安装

    zookeeper是一个为分布式应用所设计的分布式的.开源的调度服务,它主要用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用,协调及其管理的难度,提高性能的分布式服务. 本章的目的:如何 ...

  3. centos 7下Hadoop 2.7.2 伪分布式安装

    centos 7 下Hadoop 2.7.2 伪分布式安装,安装jdk,免密匙登录,配置mapreduce,配置YARN.详细步骤如下: 1.0 安装JDK 1.1 查看是否安装了openjdk [l ...

  4. hadoop hbase java_Hadoop、Hbase伪分布式安装

    环境 本文介绍Hadoop.Hbase的伪分布式安装. 操作系统: Centos7 Hadoop: 2.7.3 Hbase: 1.2.3 Hadoop安装 JAVA_HOME环境变量配置 由于Hbas ...

  5. 单机安装 hadoop 环境(Hadoop伪分布式安装)

    任务描述: 作为某公司运维工程师,需在单机安装 hadoop 环境(Hadoop伪分布式安装).本环节需要使用 root用户完成相关配置,具体部署要求如下: 1. 关闭虚拟机防火墙 2. 修改&quo ...

  6. ZooKeeper基础知识笔记(含3节点伪分布式安装配置流程)

    本笔记涉及代码:https://github.com/hackeryang/Hadoop-Exercises/tree/master/src/main/java/ZooKeeper 一.ZooKeep ...

  7. 单机版安装,伪分布式安装

    单机版安装,伪分布式安装 单机版安装:适合做一些调试,mapreduce调试(debug),实际开发中不用 伪分布式安装:在一台服务器上模拟出来多台服务器的效果(模拟多服务的启动方式) 官网地址 单机 ...

  8. Linux伪分布式安装Hadoop

    Linux伪分布式安装Hadoop 1. 更新软件列表 hadoop@jeff:~$ sudo apt update 2. 安装vim编辑器 hadoop@jeff:/home/jeff$ sudo ...

  9. CentOS7-64bit 编译 Hadoop-2.5.0,并分布式安装

    摘要 CentOS7-64bit 编译 Hadoop-2.5.0,并分布式安装 目录[-] 1.系统环境说明 2.安装前的准备工作 2.1 关闭防火墙 2.2 检查ssh安装情况,如果没有则安装ssh ...

  10. HBase基础和伪分布式安装配置

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/qq1010885678/article/details/43796441 一.HBase(NoSQL ...

最新文章

  1. python装饰器实例-python 装饰器(三):装饰器实例(一)
  2. 捉虫记 C++转java Java中equals和==的区别
  3. MyEclipse自定义servlet模板
  4. linux c之孤儿进程与僵尸进程[总结]
  5. php培训出生做微电影网站的,微电影分享网站织梦整站源码
  6. Linux下实现流水灯等功能的LED驱动代码及测试实例
  7. pandas使用笔记(二)列操作
  8. python打印字典树形_Python实现字典树
  9. WIN7安装VS2008的 Error1935 问题解决方案
  10. Django积木块11 —— 缓存
  11. h5前端 调用手机通讯录
  12. win10下什么拼音输入法好用
  13. 零极点图定性绘制系统的幅频特性
  14. 玉柴spn码故障对照表_故障代码一览表
  15. 【Python脚本进阶】2.4、conficker蠕虫(下):暴破口令,远程执行进程
  16. 洛谷试炼场---提高历练地
  17. [FAQ21153]MT6761/MT6762/MT6765平台搭配LPDDR4 注意事项
  18. Opencv与python实现多目标跟踪 (一) - PaddleDetection目标检测
  19. 怎么把video文件改成mp4_怎么将MP4视频转换成EXE格式?
  20. 饭店点餐系统之系统网络结构

热门文章

  1. mouseenter 事件
  2. 公司项目NODEJS实践0.1[ ubuntu,nodejs,nginx...]
  3. VMware Perl SDK error “Server Version Unavailable .. line 545”
  4. SQL2005的SSMS连接SQL2012会有问题
  5. openlayers2 开发如何判断一个marker所在的点是否在一个多边形内部
  6. CF1047E Region Separation
  7. java list 某个重复列_Java 开发的编程噩梦,这些坑你没踩过算我输
  8. c++语言 进行验证码识别,C++ 借助 Tesseract-OCR 识别乐讯新版验证码
  9. windows系统服务优化终结者_邮件服务器如何从Windows系统切换到Linux系统
  10. python 消息队列 go_Python并发编程-RabbitMq消息队列