什么是E-MapReduce

更新时间:2020-04-20 13:54:01

编辑我的收藏

本页目录

  • 简介
  • E-MapReduce的用途
  • E-MapReduce的组成

阿里云E-MapReduce(Elastic MapReduce),是运行在阿里云平台上的一种大数据处理的系统解决方案。

简介

E-MapReduce构建于云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统(例如,Apache Hive、Apache Pig和HBase等)来分析和处理自己的数据。不仅如此,E-MapReduce还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。说明

  • 关于Apache Hadoop的更多介绍,请参见Apache Hadoop官网。
  • 关于Apache Spark的更多介绍,请参见Apache Spark官网。
  • 关于Apache Hive的更多介绍,请参见Apache Hive官网。
  • 关于Apache Pig的更多介绍,请参见Apache Pig官网。
  • 关于Apache HBase的更多介绍,请参见Apache HBase官网。

E-MapReduce的用途

以往在使用Hadoop和Spark等分布式处理系统时,您通常需要执行如下步骤。

在上述使用流程中,真正跟用户的应用逻辑相关的是步骤8~10,而步骤1~7都是前期准备工作,但这些前期准备工作都非常冗长繁琐。E-MapReduce提供了集群管理工具的集成解决方案,例如,主机选型、环境部署、集群搭建、集群配置、集群运行、作业配置、作业运行、集群管理和性能监控等。通过E-MapReduce,您可以从繁琐的集群构建相关的采购、准备和运维等工作中解放出来,只关心自己应用程序的处理逻辑即可。

此外,E-MapReduce还为您提供了灵活的搭配组合方式,您可以根据自己的业务特点选择不同的集群服务。例如,如果您的需求是对数据进行日常统计和简单的批量运算,则可以只选择在E-MapReduce中运行Hadoop服务;如果您有流式计算和实时计算的需求,则可以在Hadoop服务基础上再加入Spark服务。

E-MapReduce的组成

E-MapReduce最核心也是用户直接面对的组件是集群。E-MapReduce集群是由一个或多个阿里云ECS实例组成的Hadoop和Spark集群。以 Hadoop为例,每个ECS Instance上通常都运行了一些daemon进程(例如,NameNode、DataNode、ResouceManager和NodeManager),这些daemon 进程共同组成了Hadoop集群。其中运行NameNode和ResourceManager的节点称为Master节点,而运行DataNode和NodeManager的节点称为Slave节点。

例如,下图是一个包含一个Master节点和三个Slave节点的E-MapReduce集群。

什么是E-MapReduce相关推荐

  1. mapreduce理解_大数据

    map:对不同的数据进行同种操作 reduce:按keys 把数据规约到一起 看这篇文章请出去跑两圈,然后泡一壶茶,边喝茶,边看,看完你就对hadoop 与MapReduce的整体有所了解了. [前言 ...

  2. 2021年大数据Hadoop(二十二):MapReduce的自定义分组

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 MapReduce的自定义分组 需求 分析 实现 第一步: ...

  3. 第2节 mapreduce深入学习:4, 5

    第2节 mapreduce深入学习:4.mapreduce的序列化以及自定义排序 序列化(Serialization)是指把结构化对象转化为字节流. 反序列化(Deserialization)是序列化 ...

  4. 第一个MapReduce程序

    计算文件中每个单词的频数 wordcount 程序调用 wordmap 和 wordreduce 程序. 1 import org.apache.hadoop.conf.Configuration; ...

  5. hadoop程序MapReduce之SingletonTableJoin

    需求:单表关联问题.从文件中孩子和父母的关系挖掘出孙子和爷奶关系 样板:child-parent.txt xiaoming daxiong daxiong alice daxiong jack 输出: ...

  6. 初学Hadoop之图解MapReduce与WordCount示例分析

    Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...

  7. MapReduce编程初体验

    需求:在给定的文本文件中统计输出每一个单词出现的总次数 第一步: 准备一个aaa.txt文本文档 第二步: 在文本文档中随便写入一些测试数据,这里我写入的是 hello,world,hadoop he ...

  8. [MaxCompute MapReduce实践]通过简单瘦身,解决Dataworks 10M文件限制问题

    用户在DataWorks上执行MapReduce作业的时候,文件大于10M的JAR和资源文件不能上传到Dataworks,导致无法使用调度去定期执行MapReduce作业. 解决方案: 第一步:大于1 ...

  9. mapreduce作业reduce被大量kill掉

    之前有一段时间.我们的hadoop2.4集群压力非常大.导致提交的job出现大量的reduce被kill掉.同样的job执行时间比在hadoop0.20.203上面长了非常多.这个问题事实上是redu ...

  10. Hadoop集群的基本操作(一:HDFS操作及MapReduce程序练习)

    实验 目的 要求 目的: 理解HDFS在Hadoop体系结构中的角色: 熟练使用HDFS操作常用的Shell命令: 了解Hadoop集群MapReduce程序的简单使用: (上传WordCount的j ...

最新文章

  1. R语言主成分分析PCA和因子分析EFA、主成分(因子)个数、主成分(因子)得分、主成分(因子)旋转(正交旋转、斜交旋转)、主成分(因子)解释
  2. python 虚拟环境依赖复制
  3. Java查找数组重复元素,并打印重复元素、重复次数、重复元素位置
  4. 第十三周学习进度情况
  5. 疯狂python讲义
  6. DB2数据库常用工具
  7. href=#与javascript:void(0)的区别
  8. python图例位置_Python | 图例位置
  9. Linux中的工作队列
  10. php字符串以符号截取,PHP按符号截取字符串的指定部分的实现方法
  11. C#:SQLite大量插入的效率问题
  12. sql附加服务器数据库文件,批量附加sql数据库
  13. Ace Admin前端框架笔记一概要与布局介绍
  14. 基于微信小程序的比赛报名系统
  15. css垂直居中怎么设?文字上下居中和图片垂直居中
  16. 如何成为一名优秀的iOS开发工程师
  17. 校招/社招-算法岗简历及面试经验分享
  18. 共享单车的扫码解锁原理是什么?2222
  19. 生成对抗网络(六)----------Image Denoising Using a Generative Adversarial Network(用GAN对图像去噪)
  20. iMeta | 南京医科大学孔祥清团队创建前瞻性多组学纵向原发高血压队列eHypertension...

热门文章

  1. C++ 拷贝构造 与 赋值运算符重载
  2. teststand调用python模块_NI TestStand 2019下载-测试管理软件NI TestStand 2019下载v19.0.1 官方版-西西软件下载...
  3. 718. 最长重复子数组(JavaScript)
  4. eval函数pythonmopn_python eval函数
  5. Linux中zsh插件,ubuntu / zsh shell / oh-my-zsh / 常用插件
  6. C++新特性探究(18.3):C++11 weak_ptr智能指针
  7. linux下测试权限,Linux下进程权限分析
  8. java类加载器正确的是_Java面试题:面向对象,类加载器,JDBC, Spring 基础概念
  9. x61 linux 驱动 无线网卡,Linux环境Thinkpad X61 4G内存Mtrr表错误
  10. php.ini 302,302使用nginx和WordPress重定向循环