• 1 MapReduce概述
    • 1.1 MapReduce定义
    • 1.2 MapReduce优缺点
      • 1.2.1 MapReduce优缺点
      • 1.2.2 MapReduce的缺点
  • 3 MapReduce核心思想
  • 4 MapReduce进程

1 MapReduce概述

1.1 MapReduce定义

  • MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。
  • MapReduce核心功能是将用户编写的业务逻辑代码自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群

1.2 MapReduce优缺点

1.2.1 MapReduce优缺点

1、MapReduce易于编程

简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序,跟写—个简单的串行程序是一模一样的。就是因为这个特点使得MapReduce编程变得非常流行

2、良好的扩展性

当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力

3、高容错性

MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上,这就要求它具有很高的容错性。比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行,不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由Hadoop内部完成的

4、适合PB级以上海量数据的离线处理

可以实现上千台服务器集群并发工作,提供数据处理能力

适用于离线处理,也就是对时间没有要求,只要得到最终的结果即可,与之相对的是实时处理

1.2.2 MapReduce的缺点

1、不擅长实时计算

MapReduce无法像MySQL一样,在毫秒或者秒级内返回结果

2、不擅长流式计算

流式计算的输入数据是动态的,而MapReduce的输入数据集是静态的,不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态

3、不擅长DAG(有向图)计算

多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO导致性能非常的低下

3 MapReduce核心思想

下边以一个需求为例子进行解释:统计文件中规定单词数,并且将a-p开头的单词存放到一个文件,q-z开头的单词存放到一个文件中

1、MapReduce阶段分为两个阶段:Map阶段Reduce阶段,也就是分发数据合并结果阶段

2、如下图为Map阶段,其中输入两个文件,一个文件200MB,另一个文件是100MB,分别是如图大的橙色快灰色块(里边的内容就是单词)。200MB的文件被切片128MB72MB分发,而100MB则完整分发到一个MapReduce处理程序中

上述文件切片是一个逻辑的切片,例如上述200MB的文件中切片为128MB的部分,事实上传递过去还是整个文件 ,但是通过指针只获取从0~128MB这部分的数据,而并没有实际将文件进行切割。默认情况下切片的大小是设置的块的大小

3、每个切片都要单独去计算,并为其启用MapTask进行处理,而被不同MapTask完全并行处理的,互不干扰

4、MapTask处理过程如下

  1. 读数据,并按行处理
  2. 空格切分行内单词
  3. KV键值对(单词,1)
  4. 将所有的KV键值对中的单词,按照单词首字母,分成2个分区溢写到磁盘(分区结果就是按照首字母不同的单词放到磁盘中不同的分区内,这是相当于将单词处理到不同文件的上一个步骤)

5、每个MapTask任务都会将对应的输入数据处理到两个分区,如下分区1分区2。然后进入Reduce阶段的并发ReduceTaskReduceTask完全互不相干,但是他们的数据依赖于上—个阶段的所有MapTask并发实例的输出,这里启用了两个ReduceTask,分别对应处理统计a-p开头的单词,他依赖的数据是3MapTask处理后的分区1的数据,另外一个则是处理所有的分区2的数据

6、ReduceTask阶段的处理结果输出到对应的文件中

MapReduce编程模型只能包含一个Map阶段一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行,也就是一个MapReduce程序在一个Map阶段中处理不完数据,那么他只能提交给下一个MapReduce数据,而进行多个Map阶段知道数据处理完整,而提交到下一个MapReduce阶段是在上一个MapReduce处理完的基础上的,所以是串行的

4 MapReduce进程

一个完整的MapReduce程序在分布式运行时有三类实例进程:

  1. MrAppMaster:负责整个程序的过程调度及状态协调。当作业放到yarn上的时候就由它进行管理。
  2. MapTask:负责Map阶段的整个数据处理流程
  3. ReduceTask:负责Reduce阶段的整个数据处理流程

对于一个MapReduce程序中,只有一个MrAppMaster,整个程序由它调度。而对于 MapTaskReduceTask可以有多个,并且Reduce过程可以没有,取决于你的业务逻辑

MapReduce学习1:MapReduce基本概念相关推荐

  1. Mapreduce和Yarn概念,参数优化,作用,原理,MapReduce计数器 Counter,MapReduce 多job串联之ControlledJob(来自学习资料)

    3.3. MapReduce与YARN 3.3.1 YARN概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运 ...

  2. Mapreduce和Yarn概念,参数优化,作用,原理,MapReduce计数器 Counter,MapReduce 多job串联之ControlledJob(来自学习资料)...

    3.3. MapReduce与YARN 3.3.1 YARN概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运 ...

  3. Mapreduce学习指导及疑难解惑汇总

    Mapreduce学习指导及疑难解惑汇总 1.思想起源: 我们在学习mapreduce,首先我们从思想上来认识.其实任何的奇思妙想,抽象的,好的想法.都来源于我们生活,而我们也更容易理解我们身边所发生 ...

  4. Hadoop之MapReduce学习笔记(二)

    主要内容: mapreduce编程模型再解释: ob提交方式: windows->yarn windows->local : linux->local linux->yarn: ...

  5. Hadoop学习之MapReduce(三)

    在学习过MapReduce框架的几个关键类和接口后(只是简单的说明了类或者接口的作用及使用方式,要想深入了解如何工作的就需要深入研究源代码了,这也是计划中的学习任务),接下来看看任务的执行和环境,主要 ...

  6. Hadoop学习之MapReduce(一)

    在学习过了HDFS架构和Hadoop的配置管理后,现在学习MapReduce应用程序的编写和管理.首先简单介绍一下MapReduce框架. MapReduce是一个易于编写程序的软件框架,这些应用程序 ...

  7. Hadoop学习之MapReduce

    Hadoop学习之MapReduce 目录 Hadoop学习之MapReduce 1 MapReduce简介 1.1 什么是MapReduce 1.2 MapReduce的作用 1.3 MapRedu ...

  8. MapReduce 学习指南

    大数据原理与应用 第七章 MapReduce 学习指南 该指南为厦门大学林子雨编著的<大数据技术原理与应用>教材配套学习资料

  9. hadoop之MapReduce学习教程

    hadoop之MapReduce学习 MapReduce概述 MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发"基于Hadoop的数据分析应用" ...

最新文章

  1. 【OpenCV 4开发详解】图像与视频的保存
  2. 微软无解!Win10用户突然减少:装回Win7
  3. ListView中的图片异步加载、缓存
  4. java使用jsp servlet来防止csrf 攻击的实现方法
  5. 05-WIFI通讯客户端搭建
  6. CH - 0304 IncDec Sequence(差分+思维)
  7. LeetCode 2039. 网络空闲的时刻(BFS)
  8. 论文浅尝 - AAAI2021 | 从历史中学习:利用时间感知拷贝生成网络建模时态知识图谱...
  9. linux系统最大打开文件数(/etc/security/limits.conf:待更新其他设置)
  10. Python学习笔记:微积分计算
  11. 详解Python中genfromtxt的用法(numpy)
  12. 面试题 10.01. 合并排序的数组
  13. Real Vision CEO预测以太坊币价将在今年年初达到2万美元
  14. 当万物互联触手可及 你准备好了吗?
  15. 计算机应用专业对视力,多媒体教学设备对学生视力影响问题的思考及建议
  16. Linux下使用rm删除文件,并排除指定文件(亲测可行)
  17. 全局序列比对 c语言实现,序列比对(一)——全局比对Needleman-Wunsch算法
  18. C++:剑指Offer精讲1.整数除法
  19. 关于Qt中的翻译问题
  20. 认识软件定义网络(SDN)(一)

热门文章

  1. 移动设备管理软件优劣,南京烽火星空来判别
  2. katex常用公式符号一览表
  3. Nginx入门与实践
  4. Django实现分页功能
  5. 机器学习 - 线性模型
  6. 【盲解调】基于频率和滤波器参数估计的FH-GFSK调制信号盲解调算法matlab仿真
  7. 计算机专业英语博士就业情况,北京外国语大学博士就业前景怎么样
  8. SSI(串行同步接口)协议如何工作
  9. SpringIOC源码——管理型容器——整体流程【框架专题】
  10. 什么是张量(tensor)?