IDEA+Hadoop运行MapReduce程序

文章目录

  • IDEA+Hadoop运行MapReduce程序
    • IDEA新建项目
    • 项目配置
    • 新建Java类
    • 配置编译器
    • 运行程序
    • 参考博客

IDEA新建项目

首先,请确保电脑上已经安装了 Hadoop 并配置了环境变量。如果没有的话,请参考这篇博客 Windows下配置单机Hadoop环境

首先,打开IDEA,新建一个 Java 项目(不需要从模板创建)

项目名字随便,我们就起为“CloudCalculate”,点击 Finish

项目配置

在菜单栏点击 FileFileFile -> ProjectStructureProject StructureProjectStructure ,这两处的 SDK 版本要对应才行


点击左侧的 Modules,找到 Sources 配置,这里的 Language level 也要和刚才的 SDK 版本相同才行。

还是在 Modules 下,找到 Dependencies 配置,点击右侧的加号,选择第一个“JARs or directories”。在弹出的窗口中选择当初安装 Hadoop 的路径,导入以下五个 hadoop 的 jar 包依赖。


如果弹出需要 Choose Roots,点击OK就行。

在左侧找到 Artifacts,点击中间的加号,选择 JARJARJAR -> emptyemptyempty。名字随便起,我们就命名为“TriangleCount”。

点击下面“Output Layout”页的加号,选择“Module Output”,点击OK。

检查一个右侧 CloudCalculate 的五个依赖包是否正确。如果是这五个依赖就没有问题。

hadoop-nfs-2.7.7.jar
hadoop-hdfs-2.7.7.jar
xz-1.0.jar
hadoop-mapreduce-example-2.7.7.jar
hadoop-yarn-api-2.7.7.jar

新建Java类

在项目文件目录中右击 src,新建一个 Java class,命名为“Triangle”。

代码的话可以自己尝试着写,这里我们给出一个计算三角形个数的 Java 代码以及测试数据集的百度云地址链接

链接:https://pan.baidu.com/s/1g3-pmUqf7Lfh2NTWe3muow
提取码:fkrs

配置编译器

在菜单栏点击 RunRunRun -> EditConfigurationsEdit ConfigurationsEditConfigurations

点击左上方的加号,选择 Application。

名字随便起,我们就命名为“TriangleCount”,Main class 点击右侧···可以选择,我们选择 Triangle。

至于参数 Program argument,因为我们在代码中写了三个 Job,所以我们需要四个参数。参数名可以随便定,第一个参数是输入文件的文件夹,最后一个参数是输出文件的文件夹,我们就命名为

input
tmp1
tmp2
output

参数就填入以下四个,注意用空格分隔。

input/ tmp1/ tmp2/ output/

最后我们需要在 src 的同级目录建立 input 文件夹,并把输入文件放在里面。

右击“CloudCalculate”,选择 NewNewNew -> DirectoryDirectoryDirectory,命名为“input”。

运行程序

至此,该配置的参数已经全部配置完毕,直接点击运行即可。

我们运行的是 HighSchool 数据集,此数据集的运行结果为 34220

由于Hadoop的设定,下次运行之前时要删除 tmp1、tmp2、 output 文件夹。 因为这个项目是建立在D盘,所以每次运行之后,会在D盘生成一个 tmp 文件夹,下次运行前也请删除。

参考博客

Intellij idea开发Hadoop MapReduce程序

IDEA+Hadoop运行TriangleCount程序相关推荐

  1. hadoop 运行java程序_Hadoop java 程序运行

    yarn-site.xml Add the following to etc/hadoop/yarn-site.xml. yarn.nodemanager.aux-services mapreduce ...

  2. ubuntu下hadoop运行wordcount程序

    本机环境 ubuntu 12 hadoop 1.1.2 首先保证hadoop配置成功 1.在Hadoop的解压目录的如下位置可以找到WordCount.java的源文件 src/examples/or ...

  3. Hadoop+eclipse运行MapReduce程序

    前面,我们已经通过eclipse下安装Hadoop的插件配置好了基于Hadoop+eclipse的MapReduce开发环境.现在,我们在这个Hadoop+eclipse环境下运行MapReduce程 ...

  4. 在Hadoop 2.3上运行C++程序各种疑难杂症(Hadoop Pipes选择、错误集锦、Hadoop2.3编译等)

    首记 感觉Hadoop是一个坑,打着大数据最佳解决方案的旗帜到处坑害良民.记得以前看过一篇文章,说1TB以下的数据就不要用Hadoop了,体现不出太大的优势,有时候反而会成为累赘.因此Hadoop的使 ...

  5. 大数据之-Hadoop伪分布式_启动YARN并运行MR程序---大数据之hadoop工作笔记0026

    之前我们运行hadoop提供的案例是用hdfs运行的. 现在我们来配置一下yarn,我们用yarn,这个资源管理器来运行hadoop的mr程序. 首先我们要知道yarn包含两个主要的部分,当然还有其他 ...

  6. 在Hadoop Yarn上运行pyspark-summit程序

    ** 在Hadoop Yarn上运行pyspark-summit程序 ** 出现以下错误: 19/02/22 18:24:13 ERROR SparkContext: Error initializi ...

  7. Ubantu下hadoop运行第一个例子wordcount过程

    Ubantu12.04下hadoop-1.2.1运行第一个例子wordcount过程,分享一下 将WordCount.java文件放在Hadoop安装目录下,并在安装目录下创建输入目录input,目录 ...

  8. Hadoop运行模式 之 伪分布式运行模式

    什么是伪分布式模式?它与本地运行模式以及完全分布式模式有什么区别? 伪分布式的配置信息,完全是按照完全分布式的模式去搭建的,但是它只有一台服务器,可以用于学习和测试,真正的开发中不可以使用. 目录 一 ...

  9. 使用Eclipse编译运行MapReduce程序 Hadoop2.6.0/Ubuntu

    上篇介绍了使用命令行编译打包运行自己的MapReduce程序,使用 Eclipse 更加方便.要在 Eclipse 上编译和运行 MapReduce 程序,需要安装 hadoop-eclipse-pl ...

最新文章

  1. .net 2.0 BackgroundWorker类详细用法
  2. Dcloud课程1 APP的架构有哪些
  3. Service Work
  4. linux 文件大小_linux系统中查看目录大小的du命令常
  5. C++文件读写详解(ofstream,ifstream,fstream)
  6. RISC-V应用创新大赛开放报名啦!
  7. .NET实现之(WebBrowser数据采集—续篇)
  8. 《进击吧!Blazor!》系列入门教程 第一章 7.图表
  9. java log4j 配置_Java:log4j与log4j.properties的配置说明
  10. 检测Linux系统是否支持某系统调用
  11. 通信要学很多计算机课吗,辽宁科技学院通信工程专业要学哪些课程,好学吗?...
  12. EasyUI:easyUI中自定义icon
  13. 越南无线网dns服务器设置,越南dns 服务器地址
  14. vue项目之微信分享
  15. matlab的double和single类型
  16. Python中numpy的np.where()函数
  17. easyui是怎么实现批量删除的_怎么批量删除空间说说-easyui的datagrid实现批量删除...
  18. centos大小写混乱问题
  19. 当你想用Gitee对你的APK文件上传下载时
  20. 今天是2019年最后一天,全球金融危机,离我们已经过去十年了

热门文章

  1. PowerShell: 详解Windows10常用的PowerShell高级任务
  2. SpringBoot+Spring Security验证密码MD5加密
  3. Mycat中间件的下发准则
  4. 框架:spring总结
  5. Element 'dependency' cannot have character [children], because the type's content type is element-on
  6. 用力和应变片计算弹性模量_一种沿深度非均匀分布的残余应力测试计算方法与流程...
  7. 用PB从ORACLE导出DBF文件,PB导出规定格式DBF文件
  8. 智能化的数据中心到底该如何建设?
  9. ML之kNNC:基于iris莺尾花数据集(PCA处理+三维散点图可视化)利用kNN算法实现分类预测
  10. AI英特尔杯公开课:2019.06.27在线直播《研究生人工智能创新大赛—AI赋能,创新引领》课堂笔记和感悟(二)