MapReduce简述、工作流程

MR编程模型之执行步骤：

　　1、准备map处理的输入数据

　　2、mapper处理

　　3、Shuffle

　　4、Reduce处理

　　5、结果输出

(input)<k1,v1> -> map -><k2,v2> -> combine -> <k2,v2> ->reduce -> <k3,v3>(output)

处理流程：

流程：

　　1、输入文本信息，由InputFormat -> FileInputFormat -> TextInputFormat，通过getSplits方法获得Split数组，然后在用getRecordReader 方法对Split做处理，每读一行交给一个map处理

　　2、每个节点上的所有map，交由该节点上的Partitioner处理（Shuffling的过程），按key将map放在其他节点上去还是继续在该节点下处理

　　3、排序

　　4、结果交由reduce处理

　　5、处理完成后由 OutputFormat ->FileOutputFormat ->TextOutputFormat 写到本地或Hadoop上

Split：MR处理的的数据块，MR中最小的计算单元，默认是与HDFS中的Block（HDFS中的最小存储单元，默认128M）是一一对应的，也可以手工设置（不建议修改）

InputFormat：将输入的数据进行分片（Split） InputSplit[] getSplits(JobConf var1, int var2)

　　TextInputFormat：用来处理文本格式的数据

OutputFormat：输出

上图图解：

　　一般来说，一个Split对应一个Block，但上图是一个设置过后的。

　　一个file文件被分成了n个Block，对应着就是2n个Split，经过InputFormat处理后，每个Split交由一个Mapper处理，通过Shuffling的分组和排序后产生多个Reducer，每个Reducer就会产生一个文件

MapReduce 1.x的架构：一个JobTracker+多个taskTracker

　　　　JobTracker:负责资源管理和作业调度

　　　　TrakTracker：定期向JobTracker汇报节点的健康、资源、作业情况，接收JT的命令，比如启动/杀死任务

MapReduce 2.x：

转载于:https://www.cnblogs.com/onone/articles/8483689.html

MapReduce简述、工作流程相关推荐

什么是MapReduce，MapReduce的工作流程和原理是什么
一.MapReduce的概念 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算.概念"Map(映射)"和"Reduce(归约)",和它 ...
【大数据入门笔记系列】第六节分布式计算框架MapReduce的工作流程
[大数据入门笔记系列]第六节分布式计算框架MapReduce的工作流程前言 MapReduce分布式运算 MapReduceApplication MapTask ReduceTask split ...
MapReduce详细工作流程解析
MapReduce工作流程一.流程示意图二.流程详解 1.split阶段 2.map阶段 3.Shuffle阶段 4.Reduce阶段 5.注意三.各个阶段的工作机制 1.InputFormat ...
Mapreduce基本工作流程
MapReduce分布式计算框架基本流程: 1,大数据经split划分成大小相等的数据块(数据块的大小一般等于HDFS一个块的大小)以及用户作业程序. 2,系统中有一个负责调度的Master节点和许 ...
Mapreduce的工作流程
一 Job的提交过程 1.1创建Job(我们可以理解为一个需要运行的MapReduce应用程序的作业) 1.2设置Job需要运行的应用程序 1.3校验Job输出路径 1.4设置Mapper类和输入ke ...
mapreduce工作流程_我要进大厂之大数据MapReduce知识点(2)
01 我们一起学大数据今天老刘分享的是MapReduce知识点的第二部分,在第一部分中基本把MapReduce的工作流程讲述清楚了,现在就是对MapReduce零零散散的知识点进行总结,这次的内容大 ...
Mapreduce工作流程与简介
最近几天一直在学习关于大数据方面的相关技术,今天学习了MapReduce的工作流程,让我对数据地处理有了新的认识,接下来我分享一下关于MapReduce2.0的工作流程 Mapreduce简介 Had ...
mapreduce工作流程
mapre的工作流程 1.文件要存储在HDFS中,每个文件被切分成多个一定大小的块也就是Block,(Hadoop1.0默认为64M,Hadoop2.0默认为128M),并且默认3个备份存储在多个的节 ...
Hadoop之MapReduce工作流程
Hadoop之MapReduce工作流程目录流程示意图流程详解注意 1. 流程示意图 MapReduce工作流程流程示意图,如下图 2. 流程详解上面的流程是整个mapreduce最全工作 ...

MapReduce简述、工作流程

MapReduce简述、工作流程

MapReduce简述、工作流程相关推荐

最新文章

热门文章