文章目录

  • Map-Reduce
    • 1. 分布式系统
    • 2.计算模型
    • 3. 调度与数据流
    • 4. 改进与优化

Map-Reduce

主要从以下几个方面来学习:

  • 分布式系统
  • 计算模型
  • 调度与数据流
  • 改进与优化

1. 分布式系统

集群的架构

集群计算需要面临的问题:

  1. 怎样保持数据的可持续性
  2. 当某些节点出现故障时并不影响使用数据
  3. 网络带宽为1 Gbps,移动10TB数据需要花费近一天的时间
  4. 分布式编程很复杂

Map-Reduce集群运算时问题的解决方案

  • 在多节点上冗余地存储数据, 以保证数据的持续性和一直可取性
  • 将计算移向数据端, 以最大程度减少数据移动
  • 简单的程序模型隐藏所有的复杂度

分布式文件存储系统

  • 提供全局的文件命名空间,冗余度和可获取性:例如Google 的 GFS; Hadoop 的 HDFS

典型的应用场景与模式

  • 超大级别的数据量(100GB到100TB级别)
  • 数据很少就地整个被替换
  • 最常见的操作为读取和追加数据
  • 分布式文件系统
    服务器块
     文件被分作16-64MB大小的连续块
     每个文件块会被重复地存储2到3次
     尽量保证重复的数据块在不同的机架上
    主节点
     Hadoop的HDFS里叫做Name节点
     存储元数据记录文件存储结构和地址
     也可以重复
    文件访问的客户端库
     询问主节点以获取块服务器地址
     直接连接相应服务器块获取数据

举个例子:对词频进行统计
现有一个超大的文本文件,对每个文本中的词,统计它出现的次数。
场景1:

  • 文件本身太大无法全部载入内存
  • 所有的词和频次对<word,count>以字典的形式载入内存
    场景2:
  • 所有的词和频次对<word, count> 都超出了内存大小
  • words(doc.txt)| sort | uniq -c ( linux命令)
  • 其中words命令输出一个文本内容中所有词,一个一行
  • 场景2体现了MapReduce的精髓
  • 它是纯天然并行化的

2.计算模型


Map步骤:

Reduce步骤:

Map:
读取输入文本,产生一序列键值对
按照key进行排序:
将所有相同key的键值对排在一起
Reduce:
收集和统计对应同一个key的value并输出

伪代码

map(key, value):key: 文档名称; value: 文档的文本内容for each word w in value:emit(w, 1)
reduce(key, values):key: 一个单词; value: 一个计数的迭代器result = 0for each count v in values:result += vemit(key, result)

3. 调度与数据流


并行化:将key,value划分到不同的reduce任务中。

输入和输出都被存储在分布式文件系统(DFS)上:

  • 实际调度操作时,调度器会尽可能将map任务移至靠近数据物理存储的节点上
  • 中间结果将会被存储在Map和Reduce操作的本地文件系统上
  • 实际运行过程中, 一个Map-Reduce产生的结果,很有可能作为另一个Map-Reduce任务的输入

启动多少个Map和Reduce任务呢?

实际操作的经验法则:

  • 通常情况下,会让M远大于集群中的节点数
  • 设置为一个分布式文件系统块一个Map任务
  • 提升动态加载平衡,同时加速节点故障时的任务恢复
  • R比M要小(输出要分布在R个文件上)

4. 改进与优化

我们通过在Mapper中,进行预聚合(pre-aggregating)操作,来节约网络的时间成本。
 合并 (k, list(v1)) → v2
 合并器(combiner)通常和reduce
函数是一致的

注意:只有在满足交换律和结合律的条件下,combiner才能起作用
改进:分区函数

Map-Reduce相关推荐

  1. [ZZ]Map/Reduce hadoop 细节

    转自:Venus神庙原文:http://www.cnblogs.com/duguguiyu/archive/2009/02/28/1400278.html 分布式计算(Map/Reduce) 分布式计 ...

  2. Hadoop简介(1):什么是Map/Reduce

    看这篇文章请出去跑两圈,然后泡一壶茶,边喝茶,边看,看完你就对hadoop整体有所了解了. Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Red ...

  3. Hadoop Map/Reduce教程

    Hadoop Map/Reduce教程 目的     先决条件     概述     输入与输出     例子:WordCount v1.0         源代码         用法        ...

  4. 用通俗易懂的大白话讲解Map/Reduce原理

    Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰 ...

  5. python内置函数map reduce filter详解,面试必备知识

    面试时候经常会考到 map reduce filter 这三个内置函数的使用 map() 函数 map() 会根据提供的函数对指定序列做映射. 第一个参数 function 以参数序列中的每一个元素调 ...

  6. python3函数中lambda/filter/map/reduce的用法

    lambda/filter/map/reduce这几个函数面试中很肯定会用到,本篇主要介绍这几个函数的用法. 1.lambda 匿名函数,用法如下: # lambada 参数,参数,参数 : 返回的表 ...

  7. Hadoop学习:Map/Reduce初探与小Demo实现

    一.    概念知识介绍 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架.这个框架攻克了诸如数据分布式存储.作业调度.容错.机器间通信等复杂问题,能够使没有并行 处理或者分布式 ...

  8. MAP/REDUCE:Google和Nutch实现异同及其他

    /*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 张俊林                       timestamp:2006年11月26日 设计要素 nutch包含以下 ...

  9. Python进阶:函数式编程(高阶函数,map,reduce,filter,sorted,返回函数,匿名函数,偏函数)...啊啊啊...

    函数式编程 函数是Python内建支持的一种封装,我们通过把大段代码拆成函数,通过一层一层的函数调用,就可以把复杂任务分解成简单的任务,这种分解可以称之为面向过程的程序设计.函数就是面向过程的程序设计 ...

  10. Hadoop Map/Reduce的工作流

    问题描述 我们的数据分析平台是单一的Map/Reduce过程,由于半年来不断地增加需求,导致了问题已经不是那么地简单,特别是在Reduce阶段,一些大对象会常驻内存.因此越来越顶不住压力了,当前内存问 ...

最新文章

  1. linux下接口持续集成,部署jenkins持续集成工具
  2. Cypress USB开发文档列表(积累中)
  3. 附录3:Pandas实例记录
  4. 数据结构之优先队列--二叉堆(Java实现)
  5. [leetcode] 108.有序数组转换为二叉搜索树
  6. 到底逾期几次才会影响贷款申请?
  7. 独家 | 蚂蚁金服TRaaS技术风险防控平台解密
  8. Sublime Text 设置在标签页中打开文件
  9. 深度学习之 FPN (Feature Pyramid Networks)
  10. 从源码的角度再看 React JS 中的 setState
  11. flink中的HybirdmemorySegment
  12. 学习笔记(02):MySQL数据库运维与管理-03-状态变量及查看方法
  13. F14-lnmp,wordpress,discuz
  14. 对比AppScan Source和Fortify扫描AltoroJ的结果
  15. LVM扩容之xfs文件系统
  16. 合规不利于安全的五种情形
  17. 浏览器被hao360,hao123,2345,搜狗,www.xie116.xyz/ 劫持的方法
  18. 数独游戏代码C++解法
  19. 【性能测试基础】性能专有名词解析及性能瓶颈分析技巧
  20. 【微前端开发环境下,加载远程子应用的实战。】

热门文章

  1. A blog from Sensory
  2. 09年关门歇业的15大网站 雅虎旗下4网站上榜
  3. 模块电源(一):DC-DCLDO
  4. Java原生网络编程
  5. Sitecore 6.4 升级Sitecore 8.2.7准备
  6. Centos6.x升级内核方法支持Docker
  7. java第五周课后作业
  8. 520 简单表白代码(JS)
  9. 移动硬盘提示由于IO设备错误,无法运行此项请求要怎么办啊
  10. 数据格式转换 (三)Office文档转HTML