Hadoop mapreduce过程key 和value分别存什么值

转自：https://www.cnblogs.com/gaopeng527/p/5436820.html

这里以wordCount为例，直接看图就懂了：

（1）inputFormat将hdfs上要处理的文件一行一行的读入，将文件拆分成splits，由于测试用的文件较小，所以每个文件为一个split，并将文件按行分割形成<key,value>对，如图4-1所示。这一步由MapReduce框架自动完成，其中偏移量（即key值）包括了回车所占的字符数（Windows和Linux环境会不同）。

这里是把每个文件按行处理，下图有两个文件，每个文件有两行，每一行的开头字符所在位置的偏移量，第一行的开头偏移量自然是0,hello world共10个偏移量，加上中间的空格11个偏移量，回车再算一个，第二行的开头偏移量是12.

图4-1 分割过程

　　2）将分割好的<key,value>对交给用户定义的map方法进行处理，生成新的<key,value>对，如图4-2所示。

这里是用户自定义的map处理程序，每一行的字符按“ ” 分割，分割的每一个元素都记为1，也就是map节点的所有value都是1

图4-2 执行map方法

　　3）得到map方法输出的<key,value>对后，Mapper会将它们按照key值进行排序，并执行Combine过程，将key至相同value值累加，得到Mapper的最终输出结果。如图4-3所示。

图4-3 Map端排序及Combine过程

　　4）Reducer先对从Mapper接收的数据进行排序，再交由用户自定义的reduce方法进行处理，得到新的<key,value>对，并作为WordCount的输出结果，如图4-4所示。

图4-4 Reduce端排序及输出结果

WordCount处理过程相关推荐

总结：详细讲解MapReduce过程(整理补充)
从启动和资源调度来看MapReduce过程 Hadoop 1.x版本首先-先了解一下必知概念 From:MapReduce工作原理图文详解,JobTracker和TaskTracker概述客户端( ...
大数据之MapReduce详解（MR的运行机制及配合WordCount实例来说明运行机制）
目录前言: 1.MapReduce原理 2.mapreduce实践(WordCount实例) 目录今天先总体说下MapReduce的相关知识,后续将会详细说明对应的shuffle.mr与yarn的 ...
MapReduce中wordcount详细介绍
1.MapReduce编程模型 MapReduce采用分而治之的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单来说,Map ...
wordcount详解
1.MapReduce编程模型 MapReduce采用分而治之的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单来说,Map ...
MapReduce和sparks运行wordcount案例过程分析
MapReduce执行wordcount案例分析 1.先将磁盘中的文件读入到内存,按行读取,如图所示 2.将文件分割成每个一行一行数据之后,MapReduce框架会自动将我们的一行一行数据转化为< ...
Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写
MapReduce概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和Re ...
Spark学习（四） -- Spark作业提交
标签(空格分隔): Spark 作业提交先回顾一下WordCount的过程: sc.textFile("README.rd").flatMap(line => line.s ...
hadoop MapReduce实例解析
1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然 ...
Hadoop集群（第6期）_WordCount运行详解
1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然 ...

WordCount处理过程

Hadoop mapreduce过程key 和value分别存什么值

WordCount处理过程相关推荐

最新文章

热门文章