Hadoop YARN版本:2.2.0

关于hadoop yarn的环境搭建可以参考这篇博文:Hadoop 2.0安装以及不停集群加datanode

hadoop hdfs yarn伪分布式运行,有如下进程

1320 DataNode1665 ResourceManager
1771 NodeManager
1195 NameNode
1487 SecondaryNameNode

写一个mapreduce示例,在yarn上跑,wordcount数单词示例

代码在github上:https://github.com/huahuiyang/yarn-demo

步骤一

我们要处理的输入如下,每行包含一个或多个单词,空格分开。可以用hadoop fs -put ... 把本地文件放到hdfs上去,方便mapreduce程序读取

hadoop yarn
mapreduce
hello redis
java hadoop
hello world
here we go

wordcount程序希望完成数单词任务,输出格式是 <单词  出现次数>

步骤二

新建一个工程,工程结构如下,这个是个maven管理的工程

源代码如下:

pom.xml文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>hadoop-yarn</groupId><artifactId>hadoop-demo</artifactId><version>0.0.1-SNAPSHOT</version><dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>2.1.1-beta</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.1.1-beta</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-common</artifactId><version>2.1.1-beta</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-jobclient</artifactId><version>2.1.1-beta</version></dependency></dependencies>
</project>

package com.yhh.mapreduce.wordcount;
import java.io.IOException;import org.apache.hadoop.io.*;
import org.apache.hadoop.mapred.*;public class WordCountMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text,IntWritable>  {@Overridepublic void map(LongWritable key, Text value,OutputCollector<Text, IntWritable> output, Reporter reporter)throws IOException {String line = value.toString();if(line != null) {String[] words = line.split(" ");for(String word:words) {output.collect(new Text(word), new IntWritable(1));}}}}

package com.yhh.mapreduce.wordcount;import java.io.IOException;
import java.util.Iterator;import org.apache.hadoop.io.*;
import org.apache.hadoop.mapred.*;public class WordCountReducer extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable>{@Overridepublic void reduce(Text key, Iterator<IntWritable> values,OutputCollector<Text, IntWritable> output, Reporter reporter)throws IOException {int count = 0;while(values.hasNext()) {values.next();count++;}output.collect(key, new IntWritable(count));}}

package com.yhh.mapreduce.wordcount;import java.io.IOException;import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;public class WordCount {public static void main(String[] args) throws IOException {if(args.length != 2) {System.err.println("Error!");System.exit(1);}JobConf conf = new JobConf(WordCount.class);conf.setJobName("word count mapreduce demo");conf.setMapperClass(WordCountMapper.class);conf.setReducerClass(WordCountReducer.class);conf.setOutputKeyClass(Text.class);conf.setOutputValueClass(IntWritable.class);FileInputFormat.addInputPath(conf, new Path(args[0]));FileOutputFormat.setOutputPath(conf, new Path(args[1]));JobClient.runJob(conf);}}

步骤三

打包发布成jar,右击java工程,选择Export...,然后选择jar file生成目录,这边发布成wordcount.jar,然后上传到hadoop集群

[root@hadoop-namenodenew ~]# ll wordcount.jar
-rw-r--r--. 1 root root 4401 6月   1 22:05 wordcount.jar

运行mapreduce任务。命令如下

hadoop jar ~/wordcount.jar com.yhh.mapreduce.wordcount.WordCount data.txt /wordcount/result

可以用hadoop job -list看任务运行情况,运行成功大概会有如下输出

14/06/01 22:06:25 INFO mapreduce.Job: The url to track the job: http://hadoop-namenodenew:8088/proxy/application_1401631066126_0003/
14/06/01 22:06:25 INFO mapreduce.Job: Running job: job_1401631066126_0003
14/06/01 22:06:33 INFO mapreduce.Job: Job job_1401631066126_0003 running in uber mode : false
14/06/01 22:06:33 INFO mapreduce.Job:  map 0% reduce 0%
14/06/01 22:06:40 INFO mapreduce.Job:  map 50% reduce 0%
14/06/01 22:06:41 INFO mapreduce.Job:  map 100% reduce 0%
14/06/01 22:06:47 INFO mapreduce.Job:  map 100% reduce 100%
14/06/01 22:06:48 INFO mapreduce.Job: Job job_1401631066126_0003 completed successfully
14/06/01 22:06:49 INFO mapreduce.Job: Counters: 43

然后mapreduce输出的任务结果如下,单词按照字典序排序

hadoop fs -cat /wordcount/result/part-00000go    1
hadoop    2
hello    2
here    1
java    1
mapreduce    1
redis    1
we    1
world    1
yarn    1

Wordcount on YARN 一个MapReduce示例相关推荐

  1. java多个mapreduce_一个简单的MapReduce示例(多个MapReduce任务处理)

    一.需求 有一个列表,只有两列:id.pro,记录了id与pro的对应关系,但是在同一个id下,pro有可能是重复的. 现在需要写一个程序,统计一下每个id下有多少个不重复的pro. 为了写一个完整的 ...

  2. HDFS设计思路,HDFS使用,查看集群状态,HDFS,HDFS上传文件,HDFS下载文件,yarn web管理界面信息查看,运行一个mapreduce程序,mapreduce的demo

    26 集群使用初步 HDFS的设计思路 l 设计思想 分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析: l 在大数据系统中作用: 为各类分布式 ...

  3. HDFS设计思路,HDFS使用,查看集群状态,HDFS,HDFS上传文件,HDFS下载文件,yarn web管理界面信息查看,运行一个mapreduce程序,mapreduce的demo...

    26 集群使用初步 HDFS的设计思路 l 设计思想 分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析: l 在大数据系统中作用: 为各类分布式 ...

  4. Hadoop系列二:Hadoop单节点伪分布部署并执行mapreduce示例wordcount

    HDFS在集群上实现分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理.HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现 ...

  5. MapReduce示例——WordCount(统计单词)

    MapReduce示例--WordCount(统计单词) 过程分析 统计单词,把数据中的单词分别统计出出现的次数 过程图(图片源自网络): 实现Mapper.Reducer.Driver WordCo ...

  6. 第一个MapReduce程序-------WordCount

    本关任务 词频统计是最能体现MapReduce思想的程序,结构简单,上手容易. 词频统计的大致功能是:统计单个或者多个文本文件中每个单词出现的次数,并将每个单词及其出现频率按照<k,v>键 ...

  7. win10 + hadoop2.7.3 + idea 运行第一个MapReduce项目:WordCount

    一.启动Hadoop   如果还没有安装可以参考文章:Win10下安装Hadoop2.7.3   切换到 --\hadoop-2.7.3\sbin 下,运行命令 .\start-dfs.cmd   没 ...

  8. 我的第一个MapReduce程序(WordCount)

    万事开头难!长途从第一步开始!MapReduce编程也一样! 下面是本人编写的第一个MapReduce程序以及个人的一些理解! 准备条件: 1.安装hadoop 2.工具:eclipse(已经安装了h ...

  9. Hadoop、分布式文件系统HDFS、YARN、MAPREDUCE

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 1.1 什么是Hadoop Hadoop名字的由来 作者:Do ...

最新文章

  1. 开发操作系统的各种方法
  2. Win10 + VS2017 15.5.6 环境下解决 Python 3.6 环境无法刷新DB的问题
  3. Spring源码导入IDEA
  4. maven、gradle依赖分析
  5. 从零开始撸一个Fresco之内存缓存
  6. Linux 编译 libc log,在Android的源码中添加LOG
  7. eq值 推荐算法_利用 SVD 实现协同过滤推荐算法
  8. JAVA a --; 与 -- a;
  9. php 和风天气,【原创】彩云/和风天气插件
  10. python str模块
  11. QEMU+GDB调试方法
  12. configure: error: Please reinstall the libcurl distribution - easy.h should be ……
  13. 编辑PDF用什么软件,如何替换PDF页面
  14. python中if缩进规则_Python if条件判断
  15. 第3章【思考与练习4】数据清洗,从studentsInfo.xlsx 文件的“Group1”表单中读取数据。数据填充,使用习题1的数据,使用列的平均值填充“体重”和“成绩”列的NaN数据。
  16. android声音播放函数双声道合并,Android音频编辑之音频合成功能
  17. Kali从入门到出门-手记
  18. 利用C语言求一个数的所有质因数
  19. AVX | 关于RC电路耦合、相移、滤波、微分、积分的那些事儿~
  20. 第一次计算机比赛心得

热门文章

  1. Science上发表的超赞聚类算法
  2. 源码编译LAMP平台
  3. Linux内核启动流程分析(一)【转】
  4. 零起步的Hadoop实践日记(更改hadoop数据存储位置)
  5. ckeditor和ckfinder的使用
  6. 在CentOS Linux上安装oracle11g之二 安装oracle11g
  7. Sql Server 2005中的快照隔离
  8. kaggle数据集命令行下载
  9. 李航书上隐马尔科夫模型案例的实验结果复现
  10. LDA主题模型原文解读