wordCount的解析

MapReduce的过程

(input)<k1, v1>->map-><k2, v2>->combine-><k2, v2>->reduce-><k3,v3>(output)

适合用 MapReduce 来处理的数据集(或任务)有一个基本要求: 待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。

计算模型的核心是 Map 和 Reduce 两个函数，这两个函数由用户负责实现，功能是按一定的映射规则将输入的 <key, value> 对转换成另一个或一批 <key, value> 对输出。

下面以WordCount为例说明下MapReduce的过程

函数	输入	wordcount中的输入	输出	wordcount中的输出
map	<k1, v1>	<行在文件中的偏移位置, 文件中的一行>	List(<k2,v2>)	List<单词,1(代表单词出现了一次)>
reduce	<k2,List(v2)>	<单词,List(1(代表单词出现了一次))>	<k3,v3>	<单词,单词出现次数>

<k1,v1> 是 <行在文件中的偏移位置, 文件中的一行>，经 Map 函数映射之后，形成一批中间结果 <单词，出现次数>, 而 Reduce 函数则可以对中间结果进行处理，将相同单词的出现次数进行累加，得到每个单词的总的出现次数。

下面结合wordCount的源码说明

public static class TokenizerMapper extends
          Mapper<Object, Text, Text, IntWritable> {
     private final static IntWritable one = new IntWritable(1);//IntWritable为hadoop的int io类
     private Text word = new Text();//Text为hadoop的文本io类
     @Override
     public void map(Object key, Text value, Context context)//map接口,参数key value 对应k1,v1
               throws IOException, InterruptedException {

//StringTokenizer是一个分割单词的流

StringTokenizer itr = new StringTokenizer(value.toString());

//循环读取Text中的单词

          while (itr.hasMoreTokens()) {
               this.word.set(itr.nextToken());
               context.write(this.word, one);//这里输出<k2,v2> 即<单词,1(代表单词出现了一次)> 在循环中输出,所以输出多个,即输出一个List<k2,v2>
          }
     }
}

public static class IntSumReducer extends
          Reducer<Text, IntWritable, Text, IntWritable> {
     private IntWritable result = new IntWritable();//IntWritable为hadoop的int io类
@Override
     public void reduce(Text key, Iterable<IntWritable> values,
               Context context) throws IOException, InterruptedException {//reduce接口,参数key value 对应k2 List<v2>
          int sum = 0;

//循环遍历List<v2>
          for (IntWritable val : values) {
               sum += val.get();//get到的都是1,每执行一次+1
          }
          this.result.set(sum);
          context.write(key, this.result);//<k3,v3> k3为单词,v3对应出现次数
     }
}

wordCount的解析相关推荐

大数据入门：WordCount程序解析
大数据入门:WordCount程序解析文章目录大数据入门:WordCount程序解析一.输入二.程序解析三.输出四.需要注意的地方为一个顽固的家伙写的,都要考试了还不让我给详细讲一下,我 ...
mapreduce实现wordcount 详细解析
总括 Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(G ...
spark wordcount函数解析
2019独角兽企业重金招聘Python工程师标准>>> sc.textFile("hdfs://sniper5:9000/hello.txt").flatMap( ...
初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
零基础学习hadoop到上手工作线路指导（中级篇）
2019独角兽企业重金招聘Python工程师标准>>> 此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结. 五一假期:在写点内容,也算是总结.上面我们会 ...
java编译找不到符号_javac编译时找不到符号？
我是个新手,在linux使用java编程时,出现这个情况. 我把要引的包放在classpath中,红色部分: export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAV ...
（超详细）MapReduce工作原理及基础编程
MapReduce工作原理及基础编程(代码见文章后半部分) JunLeon--go big or go home 目录 MapReduce工作原理及基础编程(代码见文章后半部分) 一.MapReduc ...

wordCount的解析

wordCount的解析相关推荐

最新文章

热门文章