目录

一、MapReduce的基本概念

二、MapReduce的设计思想

三、MapReduce特点

四、MapReduce编程规范


一、MapReduce的基本概念

MapReduce是一个分布式计算框架,它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务,起源于Google。适用于大规模数据处理场景,每个节点处理存储在该节点的数据,每个job包含Reduce两部分。

二、MapReduce的设计思想

  1. 分而治之——简化并行计算的编程模型
  2. 构建抽象模型:Map和Reduce——开发人员专注于实现Mapper和Reduce函数
  3. 隐藏系统层细节——开发人员专注于业务逻辑实现

三、MapReduce特点

优点:易于编程、可扩展性、高容错性、高吞吐量

不适用领域:难以实时计算、不适合流式计算、不适合DGA(有向图)计算

四、MapReduce编程规范

MapReduce框架处理的数据格式是<K,V>键值对形式

Mapper

  • Map端接收<K,V>键值对数据,经过处理输出新的<K,V>键值对
  • Map端处理逻辑写在Mapper类中map()方法中

Reducer

  • Reduce端搜集多个Mapper端输出的<K,V>数据,进行汇总
  • Reduce的业务逻辑写在reduce()方法中
  • 每一组相同k的<k,itertator<v>>组调用一次reduce()方法

MapReduce基本概述——分布式计算框架相关推荐

  1. 分布式计算框架——MapReduce

    一.MapReduce概述 Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序.编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集. MapReduce ...

  2. MapReduce分布式计算框架

    1.MapReduce分布式计算框架 本章介绍了Hadoop的MapReduce分布式计算框架的基本概念.编程规范和词频统计实战等内容.从存储的大数据中快速抽取信息,进一步进行数据价值的挖掘,需要用到 ...

  3. Hadoop基础【HDFS、Yarn、MapReduce框架概述、框架的搭建】

    1.Hadoop是什么 是一个由Apache基金会所开发的分布式系统基础架构:主要解决海量数据的存储和海量数据的分析计算问题:hadoop通常是指一个更加宽泛的概念,Hadoop生态圈. 最先遇到大数 ...

  4. 分布式计算框架Hadoop核心组件概述

    Hadoop作为成熟的分布式计算框架在大数据生态领域已经使用多年,本文简要介绍Hadoop的核心组件MapReduce.YARN和HDFS,以加深了解. 1.Hadoop基本介绍 Hadoop是分布式 ...

  5. Hadoop分布式计算框架MapReduce

    一.MapReduce概述 &源自于Google的MapReduce论文,论文发表于2004年12月 &Hadoop MapReduce是Google MapReduce的克隆版 &a ...

  6. 【大数据入门笔记系列】第六节 分布式计算框架MapReduce的工作流程

    [大数据入门笔记系列]第六节 分布式计算框架MapReduce的工作流程 前言 MapReduce分布式运算 MapReduceApplication MapTask ReduceTask split ...

  7. Hadoop技术(二)资源管理器YARN和分布式计算框架MapReduce

    资源管理器YARN和分布式计算框架MapReduce 第一章 Hadoop MapReduce 是什么 一 MapReduce 介绍 1. 基本介绍 2. MR数据流程方向 3. MR 原语/ 核心思 ...

  8. MapReduce(分布式计算框架)

    什么是MapReduce MapReduce是分布式计算框架,它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务,适用于大规模数据处理场景,每个job包含Map和Reduce两部分 MapR ...

  9. MapReduce分布式计算框架简介

    Hadoopd分布式计算框架--MapReduce 一.MapReduce简介 1. 概念 MapReduce是基于Hadoop的分布式计算框架. 起源于Google,它将大型数据操作作业分解为可以跨 ...

最新文章

  1. 数据结构与算法分析-第一章Java类(04)
  2. 修理机器人基维斯_魔兽世界修理机器人沃尔特和移动邮箱怎么做
  3. 为何要领域驱动设计?
  4. xml怎么转换html文件,xml转换成html文件方法
  5. Matlab查看数组大小的命令——size、length、numel和ndims
  6. 最长最短单词(信息学奥赛一本通-T1143)
  7. Android Bitmap占用内存计算公式
  8. 内核模块的加载与卸载
  9. GD32VF103开发环境简单介绍
  10. 北京林业大学matlab公选课,北京林业大学公选课要求及分类.doc
  11. 机器学习常用术语英语词汇
  12. 用matlab绘制三维图和三视图
  13. MVC、MVP与MVT
  14. 视频剪辑用计算机,用于视频剪辑的笔记本电脑,我们都有哪些选择
  15. 开发运维(DevOps)自动化运维与持续交付企业级实战
  16. EF-AsNoTracking()
  17. 人工智能安全政策与标准
  18. scrapy 保存到mysql_Scrapy保存数据到mysql
  19. java代码转换程序_怎么把java代码转换成程序
  20. 判断对象部分属性不为空

热门文章

  1. Solidity基础入门讲解
  2. 图书馆管理系统课程设计
  3. lr1分析器c语言实验报告怎么写,编译原理课程的设计构造LR分析法语法分析器.doc...
  4. 手机/移动端的UI框架-Vant和NutUI
  5. linux组态文件,嵌入式Linux组态软件实时数据库的设计
  6. Java小程序--随机生成50道加减法算数题
  7. 数仓工具—Hive Beeline(21)
  8. flash_back介绍
  9. 测试人员在软件开发过程中的任务是什么?
  10. 计算机账户注销重新登录,win10系统注销账户切换账号登录的方法