aws上部署hadoop_在AWS Elastic MapReduce上运行PageRank Hadoop作业

aws上部署hadoop

在上一篇文章中，我描述了一个执行PageRank计算的示例，该示例是使用Apache Hadoop进行Mining Massive Dataset课程的一部分。在那篇文章中，我接受了Java中现有的Hadoop作业，并做了一些修改（添加了单元测试，并通过参数设置了文件路径）。这篇文章展示了如何在现实的Hadoop集群上使用此作业。该集群是一个由1个主节点和5个核心节点组成的AWS EMR集群，每个集群均由m3.xlarge实例支持。

第一步是为集群准备输入。我使用AWS S3是因为这是使用EMR时的便捷方式。我创建了一个新存储桶'emr-pagerank-demo'，并制作了以下子文件夹：

in：包含作业输入文件的文件夹
job：包含我的可执行Hadoop jar文件的文件夹
日志：EMR将放置其日志文件的文件夹

然后，在“ in”文件夹中，我复制了要排名的数据。我将此文件用作输入。解压缩后，它变成了一个具有XML内容的5 GB文件，尽管不是很大，但对于此演示来说已经足够了。当您使用前一篇文章的源代码并运行“ mvn clean install”时，您将获得jar文件：“ hadoop-wiki-pageranking-0.2-SNAPSHOT.jar”。我将此jar文件上传到“作业”文件夹。

就是为了准备。现在我们可以启动集群了。在此演示中，我使用了AWS管理控制台：

命名集群
输入日志文件夹作为日志位置

输入核心实例数

为我们的自定义罐添加一个步骤

像这样配置步骤：

这将导致以下概述：

如果正确，则可以按“创建集群”按钮，并使EMR进行工作。您可以在控制台的“监视”部分监视集群：

并在“步骤”部分中监视步骤的状态：

几分钟后，作业将完成（当然取决于输入文件的大小和使用的群集）。在我们的S3存储桶中，我们可以看到在'log'文件夹中创建了日志文件：

在这里，我们总共看到7个作业：1 x Xml准备步骤，5 x rankCalculator步骤和1 x rankOrdering步骤。

更重要的是，我们可以在“结果”文件夹中查看结果：

每个reducer都会创建自己的结果文件，因此我们在这里有多个文件。我们对排名最高的网页感兴趣，因为其中的网页排名最高。如果我们查看此文件，将看到以下结果排在前10位：

271.6686  Spaans
274.22974   Romeinse_Rijk
276.7207    1973
285.39502   Rondwormen
291.83002   Decapoda
319.89224   Brussel_(stad)
390.02606   2012
392.08563   Springspinnen
652.5087    2007
2241.2773   Boktorren

请注意，当前的实现只运行5次计算（硬编码），因此实际上并没有如MMDS原理中所描述的那样进行幂次迭代（对软件的下一版进行了很好的修改：-）。

还请注意，使用默认设置时，作业完成后群集不会终止，因此在手动终止群集之前，群集的成本会增加。

翻译自: https://www.javacodegeeks.com/2015/03/running-pagerank-hadoop-job-on-aws-elastic-mapreduce.html

aws上部署hadoop

aws上部署hadoop_在AWS Elastic MapReduce上运行PageRank Hadoop作业相关推荐

在AWS Elastic MapReduce上运行PageRank Hadoop作业
在上一篇文章中,我描述了执行PageRank计算的示例,该示例是使用Apache Hadoop进行Mining Massive Dataset课程的一部分. 在那篇文章中,我接受了Java中现有的Ha ...
aws部署php程序,在 Elastic Beanstalk 上创建和部署 PHP 应用程序 - AWS Elastic Beanstalk
AWS 文档中描述的 AWS 服务或功能可能因区域而异.要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门. 本文属于机器翻译版本.若本译文内容与英语原文存在差异,则一律以英文原文为准. 在 ...
在centos8上部署docker-ce（参照官方网站上说明安装）
记录docker-ce安装过程,全过程主要以官网上提供的方法进行操作. 1 在centos8.8版本上部署docker-ce(参照官方文档部署) 第一步:确认操作系统版本是centos8,执行cat ...
在AWS上部署一个网站
在AWS上部署一个网站使用Elastic Beanstalk,用户就不必操心自己的操作系统或虚拟服务器,因为它在它们之上加了一个抽象层. 文章目录在AWS上部署一个网站前言一.Elastic ...
Amazon EMR（Elastic MapReduce）：亚马逊Hadoop托管服务运行架构Hadoop云服务之战：微软vs.亚马逊...
http://s3tools.org/s3cmd Amazon Elastic MapReduce (Amazon EMR)简介 Amazon Elastic MapReduce (Amazon EM ...
树莓派4b上部署yolov3和v3-tiny记录带截图
首先在 PC 上进行yolov3的模型训练和测试,得到.weight和.cfg文件,这两个文件要进行模型的转换然后在树莓派上部署. 一.在树莓派上烧录镜像,buster10系统即可,在系统上更改国内源 ...
在windows上部署IIS web服务
在windows上部署IIS web服务在windows上部署IIS web服务安装IIS相关环境并利用IIS服务器发布靶站源代码(注意应用程序池使用.net 4.0并开启.NET服务) 1.1程序 ...
如何在虚拟主机上部署java项目_如何在虚拟主机上部署java项目
如何在虚拟主机上部署java项目?在虚拟主机上部署 JavaWeb 项目也离不开Web项目部署的基础三要素:基础的 JDK 环境:一个 Web服务器,如 Tomcat.JBoss:一款数据库,如:my ...
在Centos7上部署CloudStack4.10（文章测试）
在Centos7上部署CloudStack4.10 目录在Centos7上部署CloudStack4.10 1 一. 概述以及环境介绍 3 二. 安装操作系统,以及初始网络配 ...

aws上部署hadoop_在AWS Elastic MapReduce上运行PageRank Hadoop作业

aws上部署hadoop_在AWS Elastic MapReduce上运行PageRank Hadoop作业相关推荐

最新文章

热门文章