aws上部署hadoop

在上一篇文章中,我描述了一个执行PageRank计算的示例,该示例是使用Apache Hadoop进行Mining Massive Dataset课程的一部分。 在那篇文章中,我接受了Java中现有的Hadoop作业,并做了一些修改(添加了单元测试,并通过参数设置了文件路径)。 这篇文章展示了如何在现实的Hadoop集群上使用此作业。 该集群是一个由1个主节点和5个核心节点组成的AWS EMR集群 ,每个集群均由m3.xlarge实例支持。

第一步是为集群准备输入。 我使用AWS S3是因为这是使用EMR时的便捷方式。 我创建了一个新存储桶'emr-pagerank-demo',并制作了以下子文件夹:

  • in:包含作业输入文件的文件夹
  • job:包含我的可执行Hadoop jar文件的文件夹
  • 日志:EMR将放置其日志文件的文件夹

然后,在“ in”文件夹中,我复制了要排名的数据。 我将此文件用作输入。 解压缩后,它变成了一个具有XML内容的5 GB文件,尽管不是很大,但对于此演示来说已经足够了。 当您使用前一篇文章的源代码并运行“ mvn clean install”时,您将获得jar文件:“ hadoop-wiki-pageranking-0.2-SNAPSHOT.jar”。 我将此jar文件上传到“作业”文件夹。

就是为了准备。 现在我们可以启动集群了。 在此演示中,我使用了AWS管理控制台 :

  • 命名集群
  • 输入日志文件夹作为日志位置

  • 输入核心实例数

  • 为我们的自定义罐添加一个步骤

  • 像这样配置步骤:

  • 这将导致以下概述:

如果正确,则可以按“创建集群”按钮,并使EMR进行工作。 您可以在控制台的“监视”部分监视集群:

并在“步骤”部分中监视步骤的状态:

几分钟后,作业将完成(当然取决于输入文件的大小和使用的群集)。 在我们的S3存储桶中,我们可以看到在'log'文件夹中创建了日志文件:

在这里,我们总共看到7个作业:1 x Xml准备步骤,5 x rankCalculator步骤和1 x rankOrdering步骤。

更重要的是,我们可以在“结果”文件夹中查看结果:

每个reducer都会创建自己的结果文件,因此我们在这里有多个文件。 我们对排名最高的网页感兴趣,因为其中的网页排名最高。 如果我们查看此文件,将看到以下结果排在前10位:

271.6686  Spaans
274.22974   Romeinse_Rijk
276.7207    1973
285.39502   Rondwormen
291.83002   Decapoda
319.89224   Brussel_(stad)
390.02606   2012
392.08563   Springspinnen
652.5087    2007
2241.2773   Boktorren

请注意,当前的实现只运行5次计算(硬编码),因此实际上并没有如MMDS原理中所描述的那样进行幂次迭代(对软件的下一版进行了很好的修改:-)。

还请注意,使用默认设置时,作业完成后群集不会终止,因此在手动终止群集之前,群集的成本会增加。

翻译自: https://www.javacodegeeks.com/2015/03/running-pagerank-hadoop-job-on-aws-elastic-mapreduce.html

aws上部署hadoop

aws上部署hadoop_在AWS Elastic MapReduce上运行PageRank Hadoop作业相关推荐

  1. 在AWS Elastic MapReduce上运行PageRank Hadoop作业

    在上一篇文章中,我描述了执行PageRank计算的示例,该示例是使用Apache Hadoop进行Mining Massive Dataset课程的一部分. 在那篇文章中,我接受了Java中现有的Ha ...

  2. aws部署php程序,在 Elastic Beanstalk 上创建和部署 PHP 应用程序 - AWS Elastic Beanstalk

    AWS 文档中描述的 AWS 服务或功能可能因区域而异.要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门. 本文属于机器翻译版本.若本译文内容与英语原文存在差异,则一律以英文原文为准. 在 ...

  3. 在centos8上部署docker-ce(参照官方网站上说明安装)

    记录docker-ce安装过程,全过程主要以官网上提供的方法进行操作. 1 在centos8.8版本上部署docker-ce(参照官方文档部署) 第一步:确认操作系统版本是centos8,执行cat ...

  4. 在AWS上部署一个网站

    在AWS上部署一个网站 使用Elastic Beanstalk,用户就不必操心自己的操作系统或虚拟服务器,因为它在它们之上加了一个抽象层. 文章目录 在AWS上部署一个网站 前言 一.Elastic ...

  5. Amazon EMR(Elastic MapReduce):亚马逊Hadoop托管服务运行架构Hadoop云服务之战:微软vs.亚马逊...

    http://s3tools.org/s3cmd Amazon Elastic MapReduce (Amazon EMR)简介 Amazon Elastic MapReduce (Amazon EM ...

  6. 树莓派4b上部署yolov3和v3-tiny记录带截图

    首先在 PC 上进行yolov3的模型训练和测试,得到.weight和.cfg文件,这两个文件要进行模型的转换然后在树莓派上部署. 一.在树莓派上烧录镜像,buster10系统即可,在系统上更改国内源 ...

  7. 在windows上部署IIS web服务

    在windows上部署IIS web服务 在windows上部署IIS web服务安装IIS相关环境并利用IIS服务器发布靶站源代码(注意应用程序池使用.net 4.0并开启.NET服务) 1.1程序 ...

  8. 如何在虚拟主机上部署java项目_如何在虚拟主机上部署java项目

    如何在虚拟主机上部署java项目?在虚拟主机上部署 JavaWeb 项目也离不开Web项目部署的基础三要素:基础的 JDK 环境:一个 Web服务器,如 Tomcat.JBoss:一款数据库,如:my ...

  9. 在Centos7上部署CloudStack4.10(文章测试)

    在Centos7上部署CloudStack4.10 目录 在Centos7上部署CloudStack4.10    1 一.    概述以及环境介绍    3 二.    安装操作系统,以及初始网络配 ...

最新文章

  1. python selenium 等待页面加载完毕_Selenium_等待页面加载完毕
  2. 机器学习数据预处理之缺失值:前向填充
  3. linux数据流重定向
  4. java 百亿计算器_设计一个一百亿的计算器
  5. 程序员法律考试笔记(1)-民法基本规定与调整范围
  6. 395. Longest Substring with At Least K Repeating Characters
  7. linux网络包截获,用C实现截获网络数据包
  8. cocos2d 解密ccbi_怎么让cocosbuilder制作的动画(cocos2d-x的ccbi动画)播放完删除自己?...
  9. flask+uwsgi+supervisor+nginx在局域网服务器上部署实践
  10. mysql的sql经典写法收录
  11. Spring Cloud 微服务实战系列-Spring Boot再次入门(二)
  12. java迷题_Java——类谜题
  13. 怎么把excel表格内的数据导入数据库?
  14. shell中的基础命令
  15. [VGG16]——网络结构介绍及搭建(PyTorch)
  16. 可以拍c语言答案的软件下载,c语言二级考试题库app下载-C语言二级考试题库 安卓版v2.3-PC6安卓网...
  17. c语言opencv识别颜色并标记,opencv怎么识别图片上带颜色的圆
  18. 历年美赛赛题和特等奖论文集合,文中直接获取!!!
  19. 离线地图-geoserver
  20. Python 选择与循环

热门文章

  1. CF917D-Stranger Trees【矩阵树定理,高斯消元】
  2. P6329-[模板]点分树 | 震波
  3. P3649-[APIO2014]回文串【PAM】
  4. codeforces773 D. Perishable Roads(思维+最短路)
  5. Sentinel(二十)之Envoy RLS Token Server
  6. MyEclipse web项目导入Eclipse,详细说明
  7. Oracle入门(十四.16)之捕获用户定义的异常
  8. Maven精选系列--过滤不同环境配置文件
  9. Java 面试题经典 77 问
  10. idea中报错……的解决方式!