参考文档:http://hadoop.apache.org/common/docs/current/single_node_setup.html

环境:WinXP+cygwin+hadoop-0.20.2

解压hadoop到E:\hadoop-0.20.2,配置文件

conf/hadoop-env.sh:

[plain] view plaincopy
  1. # The java implementation to use.  Required.
  2. export JAVA_HOME=/cygdrive/e/Java/jdk1.6.0_29

conf/core-site.xml:

[plain] view plaincopy
  1. <configuration>
  2. <property>
  3. <name>fs.default.name</name>
  4. <value>hdfs://localhost:9000</value>
  5. </property>
  6. </configuration>

conf/hdfs-site.xml :

[plain] view plaincopy
  1. <configuration>
  2. <property>
  3. <name>dfs.replication</name>
  4. <value>1</value>
  5. </property>
  6. </configuration>

conf/mapred-site.xml :

[plain] view plaincopy
  1. <configuration>
  2. <property>
  3. <name>mapred.job.tracker</name>
  4. <value>localhost:9001</value>
  5. </property>
  6. </configuration>

Setup passphraseless ssh

在cygwin控制台,输入ssh-host-config,一路yes,提示CYGWIN值时,输入netsec。

在windows系统服务中启动Cygwin sshd服务。

Now check that you can ssh to the localhost without a passphrase:
$ ssh localhost

If you cannot ssh to localhost without a passphrase, execute the following commands:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

Execution

Format a new distributed-filesystem:
$ bin/hadoop namenode -format

Start the hadoop daemons:
$ bin/start-all.sh

The hadoop daemon log output is written to the ${HADOOP_LOG_DIR} directory (defaults to${HADOOP_HOME}/logs).

Browse the web interface for the NameNode and the JobTracker; by default they are available at:

  • NameNode - http://localhost:50070/
  • JobTracker - http://localhost:50030/

Copy the input files into the distributed filesystem:
$ bin/hadoop fs -put conf input

Run some of the examples provided:
$ bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+'

Examine the output files:

Copy the output files from the distributed filesystem to the local filesytem and examine them:
$ bin/hadoop fs -get output output
$ cat output/*

or

View the output files on the distributed filesystem:
$ bin/hadoop fs -cat output/*

When you're done, stop the daemons with:
$ bin/stop-all.sh

按照文档执行到$ bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+',会出现错误

[java] view plaincopy
  1. 11/11/29 13:01:32 INFO mapred.JobClient: Task Id : attempt_201111291300_0001_m_000014_0, Status : FAILED
  2. java.io.FileNotFoundException: File E:/tmp/hadoop-SYSTEM/mapred/local/taskTracker/jobcache/job_201111291300_0001/attempt_201111291300_0001_m_000014_0/work/tmp does not exist.
  3. at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:361)
  4. at org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:245)
  5. at org.apache.hadoop.mapred.TaskRunner.setupWorkDir(TaskRunner.java:519)
  6. at org.apache.hadoop.mapred.Child.main(Child.java:155)

解决方法:(来自 http://www.hadoopor.com/archiver/tid-1978.html ),在mapred-site.xml中添加

[plain] view plaincopy
  1. <property>
  2. <name>mapred.child.tmp</name>
  3. <value>/hadoop-0.20.2/tmp</value>
  4. </property>

值使用‘E:\hadoop-0.20.2\tmp’也可以。

-------------------------------

如果最开始在core-site.xml中修改了默认tmp文件夹位置,如

[plain] view plaincopy
  1. <property>
  2. <name>hadoop.tmp.dir</name>
  3. <value>/hadoop-0.20.2/tmp</value>
  4. </property>

(注:如果这里使用‘E:\hadoop-0.20.2\tmp’会导致JobTracker因为路径名问题无法打开。)

程序会一直卡在一行死循环,停滞不前……

[plain] view plaincopy
  1. 2011-11-29 13:54:56,515 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201111291353_0001_r_000000_0 0.30769235% reduce > copy (12 of 13 at 0.00 MB/s) >
  2. 2011-11-29 13:54:59,515 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201111291353_0001_r_000000_0 0.30769235% reduce > copy (12 of 13 at 0.00 MB/s) >
  3. 2011-11-29 13:55:05,515 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201111291353_0001_r_000000_0 0.30769235% reduce > copy (12 of 13 at 0.00 MB/s) >

解决方法:猜测是hadoop.tmp.dir和mapred.child.tmp同文件夹导致的问题,将mapred.child.tmp的值修改为/hadoop-0.20.2/tasktmp,问题得到解决。

eclipse中配置使用Hadoop(转)

参考链接:Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序

1.复制 hadoop安装目录/contrib/eclipse-plugin/hadoop-0.20.2-eclipse-plugin.jar 到 eclipse安装目录/plugins/ 下。

2.重启eclipse,配置hadoop installation directory。
如果安装插件成功,打开Window-->Preferens,你会发现Hadoop Map/Reduce选项,在这个选项里你需要配置Hadoop installation directory。配置完成后退出。

3.配置Map/Reduce Locations。
在Window-->Show View中打开Map/Reduce Locations。
在Map/Reduce Locations中新建一个Hadoop Location。在这个View中,右键-->New Hadoop Location。在弹出的对话框中你需要配置Location name,如myubuntu,还有Map/Reduce Master和DFS Master。这里面的Host、Port分别为mapred-site.xml、core-site.xml中配置的地址及端口。

4.新建项目。
File-->New-->Other-->Map/Reduce Project
项目名可以随便取,如hadoop-test。
复制 hadoop安装目录/src/example/org/apache/hadoop/example/WordCount.java到刚才新建的项目下面。

5.上传模拟数据文件夹。
为了运行程序,我们需要一个输入的文件夹,和输出的文件夹。输出文件夹,在程序运行完成后会自动生成。我们需要给程序一个输入文件夹。
在当前目录(如hadoop安装目录)下新建文件夹input,并在文件夹下新建两个文件file01、file02,这两个文件内容分别如下:

file01:Hello World Bye World 
file02:Hello Hadoop Goodbye Hadoop

6.运行项目。
a..在新建的项目hadoop-test,点击WordCount.java,右键-->Run As-->Run Configurations
b..在弹出的Run Configurations对话框中,点Java Application,右键-->New,这时会新建一个application名为WordCount
c..配置运行参数,点Arguments,在Program arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”,如

[plain] view plaincopy
  1. hdfs://localhost:9000/user/Administrator/input01 hdfs://localhost:9000/user/Administrator/output01

7.点击Run,运行程序。

8.等运行结束后,可以在终端中用命令bin/hadoop fs -cat output01/*  查看生成的文件内容。

Hadoop伪分布式配置试用+eclipse配置使用相关推荐

  1. hadoop伪分布式环境的搭建配置整理

    本篇是整理了搭建hadoop环境需要的一些配置和步骤,其中有些配置是完全分布式的时候才用的,这里注意需要注意. linux系统设置 1,配置或者搭建集群过程中,全部用root账户登入 2,修改主机名方 ...

  2. Hadoop伪分布式配置和搭建,hadoop单机安装,wordcount实例测试,hadoop安装java目录怎么找,问题及问题解决方法

    Hadoop伪分布式配置和搭建,hadoop单机安装,wordcount实例测试,hadoop安装java目录怎么找,问题及问题解决方法 环境说明 系统:ubuntu18.04 主机名:test1 用 ...

  3. linux中jdk环境配置,安装MySQL,配置Hadoop伪分布式,配置hive环境

    1.修改虚拟机名称 vi /etc/hostname 进入命令模式输入[:wq]保存退出 2.修改虚拟机映射 vi /etc/hosts 输入端口号+虚拟机名称,保存退出[:wq] 3.重启虚拟机 r ...

  4. CentOS 7.4安装及Hadoop伪分布式配置(虚拟机:VMware)

    CentOS 7.4安装及Hadoop伪分布式配置(虚拟机:VMware) 准备 VMware虚拟机安装CentOs 7.4 虚拟机创建 CentOS 7.4安装 网络配置 JDK配置 Hadoop伪 ...

  5. hadoop伪分布式模式_Hadoop模式介绍-独立,伪分布式,分布式

    hadoop伪分布式模式 了解了什么是Hadoop之后,让我们在单机上启动Hadoop: 这篇文章包含在ubuntu上安装Hadoop的说明. 这是Hadoop安装的快速分步教程. 在这里,您将获得以 ...

  6. Centos7(linux)下hbase的伪分布式搭建以及eclipse远程连接

    本博客是在VMware15.5pro.hadoop-2.7.5.jdk1.8.0.hbase-1.2.10,下进行的 hbase-1.2.10-bin.tar.gz下载地址:Index of /dis ...

  7. 搭建 Hadoop 伪分布式环境

    软硬件环境 CentOS 7.2 64 位 OpenJDK- 1.8 Hadoop- 2.7 关于本教程的说明 云实验室云主机自动使用 root 账户登录系统,因此本教程中所有的操作都是以 root ...

  8. 构建Hadoop伪分布式环境

    构建Hadoop伪分布式环境 这篇文章介绍Hadoop伪分布式环境的搭建过程与原理,是个人的学习总结,以纪念在各个步骤中遇到的麻烦.踩过的坑! 这篇笔记包含这样几个内容: 配置伪分布式环境 运行一个简 ...

  9. Windows 7 64位系统上搭建Hadoop伪分布式环境(很详细)

    在开始配置前,我们先了解Hadoop的三种运行模式. Hadoop的三种运行模式 独立(或本地)模式:无需运行任何守护进程,所有程序都在同一个JVM上执行.在独立模式下测试和调试MapReduce程序 ...

最新文章

  1. Linux常用命令大全-toolfk程序员在线工具网
  2. modelsim do文件仿真
  3. 第一行代码学习笔记第四章——探究碎片
  4. 相邻数字+(正月点灯笼的动态规划2)(递归+DP)---JAVA
  5. 用好这个新功能,报表数据安全瞬间提升一个等级!
  6. 存储器空间或者桌面堆_向爱因斯坦学习桌面管理之道
  7. BethuneX:DBA最信赖的监控和智能巡检平台
  8. Android常用代码混淆模板
  9. 1.5不同类型的循环神经网络
  10. ldd查看程序依赖库(转载)
  11. SQL Server 2014,表变量上的非聚集索引
  12. Pawn Storm网络间谍行动再度现身
  13. Go 语言圣经-习题汇总(Go 程序设计语言/The Go Programming Language)
  14. QQ象棋java通用版下载_QQ中国象棋
  15. java 选股源码,珍藏多年的「高成功率」选股器分享(附源码)
  16. Linux用户不同UID分类区别
  17. C++实验六:继承,对BMP图片操作
  18. Python不使用科学计数法输出数据的实现方法
  19. ubuntu系统 新硬盘挂载
  20. 什么是RDD以及RDD的五大基本属性

热门文章

  1. 【Android 逆向】Android 逆向通用工具开发 ( PC 端工程分析 | 网络初始化操作 | PC 端工程核心业务逻辑 )
  2. 【设计模式】面向对象 - 多态 ( 面向对象 3 要素 | 多态 提升 程序扩展性 | 多态示例 )
  3. 【OpenGL】七、桌面窗口搭建 ( 导入头文件 | 桌面程序入口函数 | 注册窗口 | 创建窗口 | 显示窗口 )
  4. 【错误记录】Android 应用连接 BLE 设备无法读取数据 ( 可以写出数据 | 无法读取数据 )
  5. 【BZOJ4764】弹飞大爷 LCT
  6. java中过滤器Filter的使用总结【转载】
  7. Java学习3之成员方法及函数重载
  8. 把 Eclipse 中的工程 Push 到 Github(适用 Windows 平台)
  9. Oracle数据库空间管理
  10. ROS学习(十二):ROS URDF-model_state