通过本节的学习,可以掌握如何在单节点上使用Hadoop进行Map/Reduce以及HDFS存储的实现。

环境要求:

支持的平台:

支持GNU/Linux平台,可以作为测试和生产环境使用。Hadoop在2000个节点的生产环境中经受过考验。

支持Win32平台作为测试环境,正式环境的测试还不够充分,所以发布版暂时不能支持Win32环境。

需要的软件:

1、Java 1.6.x,必须。

2、ssh、sshd,必须。

如果是在Windows环境下,你也许需要 Cygwin。

安装必要的软件

如果服务器没有必要的软件,就必须进行安装。不同的发行版本,有不同的安装方法。例如Ubuntu下:

$ sudo apt-get install ssh

$ sudo apt-get install rsync

下载Hadoop

从 这里 下载一个Hadoop的稳定版本。

开始我们的Hadoop之旅

解压下载的软件,在解压后的目录中,编辑 conf/hadoop-env.sh 脚本设置服务器的JAVA_HOME目录。

我的环境是 Centos6.0,yum安装了OPEN-JDK,对应的目录为:

/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0/jre/

执行 bin/hadoop 命令,如果如下图所示,我们就做好使用 Hadoop 的准备了。

可以用三种方式使用Hadoop:

本地模式(Local Standalone Mode);

伪分布式模式(Pseudo-Distributed Mode);

完全分布式模式;

本地模式

默认情况下,Hadoop是配置为本地运行的,以一个单独的Java进程运行,这种方式非常适合Debug。

在本地,我选择了对 194Mb 的访问日志进行分析,如下代码:

bin/hadoop jar hadoop-examples-0.20.203.0.jar grep input/ output/ 'favicon[a-z.]+'

这个任务是分析日志中出现的favicon的次数,统计结果如下:

其中part文件中存储了我要查找的favicon字符串出现的次数。

伪分布式模式

配置:

参照官方的配置进行,分别对conf/core-site.xml、conf/hdf-site.xml、conf/mapred-site.xml进行配置。配置的内容都比较类似,主要是配置一个服务器的主机名,然后配置对应的IP或值。

设置无需密码的SSH:

按照官方的设置

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

但是第一次登陆的时候始终需要提示是否保存,这个有点不得其解。

执行:

首先格式化一个新的分布式文件系统

$ bin/hadoop namenode -format

完成后,会有一些提示,根据提示可以在 /tmp/hadoop-root/dfs 中找到两个文件夹。

然后启动 Hadoop 的守护进程

$ bin/start-all.sh

我在安装的过程中提示了未知的jvm参数,但是并没有重大的影响,启动仍正常结束了,不知道什么原因

这个问题是因为用root用户启动造成的,可以参考参考资料6中的方法,为hadoop这个文件打一个patch就可以解决。然后重新格式化namenode,进行测试。

bin/hadoop jar hadoop-examples-0.20.203.0.jar grep logs output 'favicon'

执行上面的语句,可以对日志进行 WordCount 的分析。

测试完成后,可以关闭所有的服务

bin/stop-all.sh

参考资料:

1、Single Node Setup

2、Hdfs Shell Handbook

3、Hdfs error:could only be replicated to 0 nodes instead of 1

4、Hadoop:Could not create Java Virtual Machine

5、Namenode not starting

6、Faile to start datanode while start-dfs.sh is executed by root user

Hadoop学习笔记一:单节点安装相关推荐

  1. Apache Hadoop 2.4.1 单节点安装

    2019独角兽企业重金招聘Python工程师标准>>> 一.目的 这篇文档描述了怎样去安装和配置一个单节点的Hadoop,因此您可以使用Hadoop MapReduce 和 Hado ...

  2. Hadoop学习笔记—13.分布式集群中节点的动态添加与下架

    Hadoop学习笔记-13.分布式集群中节点的动态添加与下架 开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群.现在,我们来了解一下在一个Hadoop分布式集群中,如 ...

  3. 大数据单机学习环境搭建(9)Spark单节点安装与pyspark使用

    包含sparksql的完整使用案例,请务必耐心看完 专题:大数据单机学习环境搭建和使用 1.Spark安装 2.Spark配置 2.1配置环境变量 2.2spark客户端 3.Spark使用 3.1环 ...

  4. Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装

     Hadoop介绍 Hadoop是一个能对大量数据进行分布式处理的软件框架.其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapR ...

  5. hadoop学习笔记-目录

    以下是hadoop学习笔记的顺序: hadoop学习笔记(一):概念和组成 hadoop学习笔记(二):centos7三节点安装hadoop2.7.0 hadoop学习笔记(三):hdfs体系结构和读 ...

  6. Hadoop学习笔记—16.Pig框架学习

    Hadoop学习笔记-16.Pig框架学习 一.关于Pig:别以为猪不能干活 1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin, ...

  7. Hadoop学习笔记-集群部署

    前期准备 使用三台主机,每台安装好JDK和Hadoop 参考:Hadoop学习笔记–单台安装 同步小技巧 scp–rsync–编写xsync scp是主机之间安全拷贝数据的工具,一般的语法为 scp ...

  8. Hadoop学习笔记一 简要介绍

    Hadoop学习笔记一 简要介绍 这里先大致介绍一下Hadoop.     本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一 ...

  9. Hadoop学习笔记(1) ——菜鸟入门

     Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户能够在不了解分布式底层细节的情况下.开发分布式 ...

  10. Hadoop学习笔记(1)

    原文:http://www.cnblogs.com/zjfstudio/p/3859704.html Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分 ...

最新文章

  1. NLP实战:利用Python理解、分析和生成文本 | 赠书
  2. 瑞星个人安全产品又添新丁
  3. 16进制加法 keil_教你快速学会二进制、十进制、十六进制之间的转换
  4. 062_判断用户输入的是 Yes 或 NO
  5. PostgreSQL源码分析
  6. MPU6050开发 -- 初识
  7. mysql主从同步从库上Slave_IO_Running: Connecting问题
  8. P2831 [NOIP2016 提高组] 愤怒的小鸟 状压dp
  9. 设计模式-单一职责原则
  10. 梅森旋转产生随机数c语言实现,梅森旋转法产生随机数
  11. JQ插件jkscroll应用到页面中的效果
  12. 自然语言交流系统 phxnet团队 创新实训 个人博客 (十)
  13. Python飞机大战项目终篇(一步一步实现---最全笔记)
  14. G312高速公路S标段路线设计--金陵科技学院道路毕业设计
  15. Arduino串口通信
  16. JAVA整合Milvus矢量数据库及数据
  17. 快传号视频批量上传,禁止转载!
  18. 求最小公倍数 java
  19. thinkphp的I方法
  20. iOS 应用信息、手机设备信息、网络信息、权限信息、GPS、网络信息、存储信息、屏幕信息、传感器信息、手机卡信息等信息获取工具

热门文章

  1. 有谁还遇到同样的问题?
  2. 监控视频中人的特征识别
  3. Fragment+ViewPager+ButterKnife时控件会报空指针问题
  4. manifest离线缓存技术
  5. 成为弹唱高手的秘诀,看这一篇就足够
  6. bug宝典linux篇 LC_CTYPE: cannot change locale (en_US.UTF-8): No such file or directory(转)
  7. Python-OpenCV训练一个人脸识别器
  8. 通用测绘成果质检软件
  9. debounce函数的实现
  10. Spring+SpringMVC+Mybatis 详细配置