aws上部署hadoop_在AWS Elastic MapReduce上运行PageRank Hadoop作业
aws上部署hadoop
在上一篇文章中,我描述了一个执行PageRank计算的示例,该示例是使用Apache Hadoop进行Mining Massive Dataset课程的一部分。 在那篇文章中,我接受了Java中现有的Hadoop作业,并做了一些修改(添加了单元测试,并通过参数设置了文件路径)。 这篇文章展示了如何在现实的Hadoop集群上使用此作业。 该集群是一个由1个主节点和5个核心节点组成的AWS EMR集群 ,每个集群均由m3.xlarge实例支持。
第一步是为集群准备输入。 我使用AWS S3是因为这是使用EMR时的便捷方式。 我创建了一个新存储桶'emr-pagerank-demo',并制作了以下子文件夹:
- in:包含作业输入文件的文件夹
- job:包含我的可执行Hadoop jar文件的文件夹
- 日志:EMR将放置其日志文件的文件夹
然后,在“ in”文件夹中,我复制了要排名的数据。 我将此文件用作输入。 解压缩后,它变成了一个具有XML内容的5 GB文件,尽管不是很大,但对于此演示来说已经足够了。 当您使用前一篇文章的源代码并运行“ mvn clean install”时,您将获得jar文件:“ hadoop-wiki-pageranking-0.2-SNAPSHOT.jar”。 我将此jar文件上传到“作业”文件夹。
就是为了准备。 现在我们可以启动集群了。 在此演示中,我使用了AWS管理控制台 :
- 命名集群
- 输入日志文件夹作为日志位置
- 输入核心实例数
- 为我们的自定义罐添加一个步骤
- 像这样配置步骤:
- 这将导致以下概述:
如果正确,则可以按“创建集群”按钮,并使EMR进行工作。 您可以在控制台的“监视”部分监视集群:
并在“步骤”部分中监视步骤的状态:
几分钟后,作业将完成(当然取决于输入文件的大小和使用的群集)。 在我们的S3存储桶中,我们可以看到在'log'文件夹中创建了日志文件:
在这里,我们总共看到7个作业:1 x Xml准备步骤,5 x rankCalculator步骤和1 x rankOrdering步骤。
更重要的是,我们可以在“结果”文件夹中查看结果:
每个reducer都会创建自己的结果文件,因此我们在这里有多个文件。 我们对排名最高的网页感兴趣,因为其中的网页排名最高。 如果我们查看此文件,将看到以下结果排在前10位:
271.6686 Spaans
274.22974 Romeinse_Rijk
276.7207 1973
285.39502 Rondwormen
291.83002 Decapoda
319.89224 Brussel_(stad)
390.02606 2012
392.08563 Springspinnen
652.5087 2007
2241.2773 Boktorren
请注意,当前的实现只运行5次计算(硬编码),因此实际上并没有如MMDS原理中所描述的那样进行幂次迭代(对软件的下一版进行了很好的修改:-)。
还请注意,使用默认设置时,作业完成后群集不会终止,因此在手动终止群集之前,群集的成本会增加。
翻译自: https://www.javacodegeeks.com/2015/03/running-pagerank-hadoop-job-on-aws-elastic-mapreduce.html
aws上部署hadoop
aws上部署hadoop_在AWS Elastic MapReduce上运行PageRank Hadoop作业相关推荐
- 在AWS Elastic MapReduce上运行PageRank Hadoop作业
在上一篇文章中,我描述了执行PageRank计算的示例,该示例是使用Apache Hadoop进行Mining Massive Dataset课程的一部分. 在那篇文章中,我接受了Java中现有的Ha ...
- aws部署php程序,在 Elastic Beanstalk 上创建和部署 PHP 应用程序 - AWS Elastic Beanstalk
AWS 文档中描述的 AWS 服务或功能可能因区域而异.要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门. 本文属于机器翻译版本.若本译文内容与英语原文存在差异,则一律以英文原文为准. 在 ...
- 在centos8上部署docker-ce(参照官方网站上说明安装)
记录docker-ce安装过程,全过程主要以官网上提供的方法进行操作. 1 在centos8.8版本上部署docker-ce(参照官方文档部署) 第一步:确认操作系统版本是centos8,执行cat ...
- 在AWS上部署一个网站
在AWS上部署一个网站 使用Elastic Beanstalk,用户就不必操心自己的操作系统或虚拟服务器,因为它在它们之上加了一个抽象层. 文章目录 在AWS上部署一个网站 前言 一.Elastic ...
- Amazon EMR(Elastic MapReduce):亚马逊Hadoop托管服务运行架构Hadoop云服务之战:微软vs.亚马逊...
http://s3tools.org/s3cmd Amazon Elastic MapReduce (Amazon EMR)简介 Amazon Elastic MapReduce (Amazon EM ...
- 树莓派4b上部署yolov3和v3-tiny记录带截图
首先在 PC 上进行yolov3的模型训练和测试,得到.weight和.cfg文件,这两个文件要进行模型的转换然后在树莓派上部署. 一.在树莓派上烧录镜像,buster10系统即可,在系统上更改国内源 ...
- 在windows上部署IIS web服务
在windows上部署IIS web服务 在windows上部署IIS web服务安装IIS相关环境并利用IIS服务器发布靶站源代码(注意应用程序池使用.net 4.0并开启.NET服务) 1.1程序 ...
- 如何在虚拟主机上部署java项目_如何在虚拟主机上部署java项目
如何在虚拟主机上部署java项目?在虚拟主机上部署 JavaWeb 项目也离不开Web项目部署的基础三要素:基础的 JDK 环境:一个 Web服务器,如 Tomcat.JBoss:一款数据库,如:my ...
- 在Centos7上部署CloudStack4.10(文章测试)
在Centos7上部署CloudStack4.10 目录 在Centos7上部署CloudStack4.10 1 一. 概述以及环境介绍 3 二. 安装操作系统,以及初始网络配 ...
最新文章
- python selenium 等待页面加载完毕_Selenium_等待页面加载完毕
- 机器学习数据预处理之缺失值:前向填充
- linux数据流重定向
- java 百亿计算器_设计一个一百亿的计算器
- 程序员法律考试笔记(1)-民法基本规定与调整范围
- 395. Longest Substring with At Least K Repeating Characters
- linux网络包截获,用C实现截获网络数据包
- cocos2d 解密ccbi_怎么让cocosbuilder制作的动画(cocos2d-x的ccbi动画)播放完删除自己?...
- flask+uwsgi+supervisor+nginx在局域网服务器上部署实践
- mysql的sql经典写法收录
- Spring Cloud 微服务实战系列-Spring Boot再次入门(二)
- java迷题_Java——类谜题
- 怎么把excel表格内的数据导入数据库?
- shell中的基础命令
- [VGG16]——网络结构介绍及搭建(PyTorch)
- 可以拍c语言答案的软件下载,c语言二级考试题库app下载-C语言二级考试题库 安卓版v2.3-PC6安卓网...
- c语言opencv识别颜色并标记,opencv怎么识别图片上带颜色的圆
- 历年美赛赛题和特等奖论文集合,文中直接获取!!!
- 离线地图-geoserver
- Python 选择与循环
热门文章
- CF917D-Stranger Trees【矩阵树定理,高斯消元】
- P6329-[模板]点分树 | 震波
- P3649-[APIO2014]回文串【PAM】
- codeforces773 D. Perishable Roads(思维+最短路)
- Sentinel(二十)之Envoy RLS Token Server
- MyEclipse web项目导入Eclipse,详细说明
- Oracle入门(十四.16)之捕获用户定义的异常
- Maven精选系列--过滤不同环境配置文件
- Java 面试题经典 77 问
- idea中报错……的解决方式!