作者:Jeffrey Dean 和 Sanjay Ghemawat

摘要:

MapReduce是一个编程模型,以及处理和生成大型数据集的一个相关实现,它适合各种各样的现实任务。用户指定计算的map和reduce函数。底层运行系统自动地将大规模集群机器间的计算并行化,处理机器故障,以及调度机器间通信以充分利用网络和磁盘。程序员会发现这个系统很好使用:在过去的去年中,超过一万个不同的MapReduce程序已经在Google内部实现,平均每天有十万个MapReuce作业在Google集群上被执行,每天总共处理20PB以上的数据。

1 简介

在MapReduce开发之前,作者和其他许多的Google员工实现了数以百计的处理大量原始数据(如抓取到的文档、Web请求日志等等)的专用计算方法,以计算各种导出的数据,如倒排索引、Web文档图结构的各种表示、每个host抓取到的页面数的总结、某一天最频繁的一组查询。大多数这样的计算在概念上是非常简单的,然而它们的输入数据量通常非常大。为了在合理的时间内完成这些计算,它们必须分布到成百上千的机器上。如何并行化计算,分发数据,以及处理故障,这些问题结合起来,往往会让程序员使用大量复杂代码来处理,而掩盖了原本简单的计算。

为了应对这一复杂性,我们设计了一个新的抽象,它允许我们表达试图执行的简单计算,但将并行化、容错、数据分布和负载均衡等凌乱的细节隐藏到了库中。这个抽象的灵感来源于出现在Lisp和许多其他函数式语言中的map和reduce原语。我们实现了大部分的计算,包括为输入的每一个逻辑记录应用一

【译文】MapReduce:大型集群上的简化数据处理相关推荐

  1. MapReduce:大型集群上的简单数据处理

    MapReduce :大型集群上的 简单数据处理 摘要 MapReduce是一个设计模型,也是一个处理和产生海量数据的一个相关实现.用户指定一个用于处理一个键值(key-value)对生成一组key/ ...

  2. mapreduce复制连接的代码_MapReduce:在大型集群上简化数据处理(2)

    特别说明 这是一个由simviso团队所组织进行的基于mit分布式系统课程翻译的系列,由知秋带领和其他成员一起翻译的课程以及课程当中涉及的论文翻译. 由于微信排版功能有限,想要看最新版文档的小伙伴,请 ...

  3. jar包在Hadoop集群上测试(MapReduce)

    本片使用MapReduce--统计输出给定的文本文档每一个单词出现的总次数的案例进行,jar包在集群上测试 1.添加打包插件依赖 <build><plugins><plu ...

  4. MapReduce作业在Hadoop完全分布式集群上运行的问题与思考(持续更新)

    1.集群已搭建好且通过了WordCount测试,但是在eclipse上开发的程序却仍然是只在namenode上运行 不知道是不是没有配置好eclipse上的Map/Reduce Locations,个 ...

  5. INFOCOM 2021最佳论文奖:一种新颖的分布式算法提高在GPU集群上训练大型AI模型的效率

    INFOCOM 2021最佳论文:Exploiting Simultaneous Communications to Accelerate Data Parallel Distributed Deep ...

  6. Hadoop-2.2.0中文文档——MapReduce 下一代 -——集群配置

    目的 这份文档描写叙述了怎样安装.配置和管理从几个节点到有数千个节点的Hadoop集群. 玩的话,你可能想先在单机上安装.(看单节点配置). 准备 从Apache镜像上下载一个Hadoop的稳定版本号 ...

  7. pythonspark集群模式运行_有关python numpy pandas scipy 等 能在YARN集群上 运行PySpark

    有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上 运行PySpark方式, 将python分析程序提交上去? Spark Applicat ...

  8. 在现有K8S集群上安装部署JenkinsX

    在2018年年初,Jenkins X首次发布,它由Apache Groovy语言的创建者Jame Strachan创建.Jenkins X 是一个高度集成化的 CI/CD 平台,基于 Jenkins ...

  9. 在阿里云Serverless K8S集群上部署Spark任务并连接OSS(详细步骤)

    在阿里云ASK集群上部署Spark任务并连接OSS 简介 ASK是阿里云的一个产品,属于Serverless Kubernetes 集群,这次实验是要在ASK集群上运行Spark计算任务(以WordC ...

最新文章

  1. eBay数据科学家李睿:自然语言处理在eBay的技术实践 数据 网络 类别 技术 分类器 阅读1593 近日,在飞马网主办的“FMI人工智能大数据高峰论坛”上,来自eBay的数据科学家李睿
  2. php set error handler,php的set_error_handler正确用法
  3. cocos2d-x游戏开发(二)开始菜单续
  4. 谈谈利用JavaScript结合相对单位rem实现自适应布局的简单而实用的方法
  5. MongoDB服务无法启动,原因居然是...
  6. 【英语学习】【WOTD】stratagem 释义/词源/示例
  7. 理解 Java 的 GC 与 幽灵引用
  8. Mac外接2k显示器遇到的问题
  9. 7z增量更新参数使用
  10. jsp android 交互,Android中HTTP几种请求和响应的代码实现
  11. Gradle简要教程
  12. 强化学习实践四:编写通用的格子世界环境类
  13. 2018 ISCC re\web\misc WP
  14. 干货,新手小白做影视剪辑,这样做,帮你99%避免违规侵权
  15. android手机游戏-三国无双(二)
  16. 发现内存不能read和written的原因以及解决方法
  17. DetectGPT VS ChatGPT:AI反击战?
  18. SpringBoot-配置actuator
  19. 单片机程序生产烧录工具
  20. 华大HC32A460 系列介绍(二)

热门文章

  1. JAVA局域网飞鸽传书软件设计与实现免费
  2. 51自学网php视频教程全集,51自学网免费PhotoShop视频教程全集
  3. McAfee 杀毒怎么关闭
  4. 【AI视野·今日CV 计算机视觉论文速览 第157期】Mon, 16 Sep 2019
  5. java phrase_java-Maven无法部署工件,ReasonPhrase:Forbidden
  6. Pauling学编程打卡
  7. mac numbers 计算两个日期时间天数 DUR2DAYS
  8. android studio json格式化,Android json格式化显示,可展开与折叠
  9. P1719 最大加权矩形(二维前缀和Java)
  10. 地理坐标系介绍:国家2000、西安80、WGS84、火星GCJ02、百度BD09