IDEA+Hadoop运行MapReduce程序

文章目录

IDEA+Hadoop运行MapReduce程序
- IDEA新建项目
- 项目配置
- 新建Java类
- 配置编译器
- 运行程序
- 参考博客

IDEA新建项目

首先，请确保电脑上已经安装了 Hadoop 并配置了环境变量。如果没有的话，请参考这篇博客 Windows下配置单机Hadoop环境

首先，打开IDEA，新建一个 Java 项目（不需要从模板创建）

项目名字随便，我们就起为“CloudCalculate”，点击 Finish

项目配置

在菜单栏点击 FileFileFile -> ProjectStructureProject StructureProjectStructure ，这两处的 SDK 版本要对应才行

点击左侧的 Modules，找到 Sources 配置，这里的 Language level 也要和刚才的 SDK 版本相同才行。

还是在 Modules 下，找到 Dependencies 配置，点击右侧的加号，选择第一个“JARs or directories”。在弹出的窗口中选择当初安装 Hadoop 的路径，导入以下五个 hadoop 的 jar 包依赖。

如果弹出需要 Choose Roots，点击OK就行。

在左侧找到 Artifacts，点击中间的加号，选择 JARJARJAR -> emptyemptyempty。名字随便起，我们就命名为“TriangleCount”。

点击下面“Output Layout”页的加号，选择“Module Output”，点击OK。

检查一个右侧 CloudCalculate 的五个依赖包是否正确。如果是这五个依赖就没有问题。

hadoop-nfs-2.7.7.jar
hadoop-hdfs-2.7.7.jar
xz-1.0.jar
hadoop-mapreduce-example-2.7.7.jar
hadoop-yarn-api-2.7.7.jar

新建Java类

在项目文件目录中右击 src，新建一个 Java class，命名为“Triangle”。

代码的话可以自己尝试着写，这里我们给出一个计算三角形个数的 Java 代码以及测试数据集的百度云地址链接

链接：https://pan.baidu.com/s/1g3-pmUqf7Lfh2NTWe3muow
提取码：fkrs

配置编译器

在菜单栏点击 RunRunRun -> EditConfigurationsEdit ConfigurationsEditConfigurations

点击左上方的加号，选择 Application。

名字随便起，我们就命名为“TriangleCount”，Main class 点击右侧···可以选择，我们选择 Triangle。

至于参数 Program argument，因为我们在代码中写了三个 Job，所以我们需要四个参数。参数名可以随便定，第一个参数是输入文件的文件夹，最后一个参数是输出文件的文件夹，我们就命名为

input
tmp1
tmp2
output

参数就填入以下四个，注意用空格分隔。

input/ tmp1/ tmp2/ output/

最后我们需要在 src 的同级目录建立 input 文件夹，并把输入文件放在里面。

右击“CloudCalculate”，选择 NewNewNew -> DirectoryDirectoryDirectory，命名为“input”。

运行程序

至此，该配置的参数已经全部配置完毕，直接点击运行即可。

我们运行的是 HighSchool 数据集，此数据集的运行结果为 34220

由于Hadoop的设定，下次运行之前时要删除 tmp1、tmp2、 output 文件夹。 因为这个项目是建立在D盘，所以每次运行之后，会在D盘生成一个 tmp 文件夹，下次运行前也请删除。

参考博客

Intellij idea开发Hadoop MapReduce程序

IDEA+Hadoop运行TriangleCount程序相关推荐

hadoop 运行java程序_Hadoop java 程序运行
yarn-site.xml Add the following to etc/hadoop/yarn-site.xml. yarn.nodemanager.aux-services mapreduce ...
ubuntu下hadoop运行wordcount程序
本机环境 ubuntu 12 hadoop 1.1.2 首先保证hadoop配置成功 1.在Hadoop的解压目录的如下位置可以找到WordCount.java的源文件 src/examples/or ...
Hadoop+eclipse运行MapReduce程序
前面,我们已经通过eclipse下安装Hadoop的插件配置好了基于Hadoop+eclipse的MapReduce开发环境.现在,我们在这个Hadoop+eclipse环境下运行MapReduce程 ...
在Hadoop 2.3上运行C++程序各种疑难杂症（Hadoop Pipes选择、错误集锦、Hadoop2.3编译等）
首记感觉Hadoop是一个坑,打着大数据最佳解决方案的旗帜到处坑害良民.记得以前看过一篇文章,说1TB以下的数据就不要用Hadoop了,体现不出太大的优势,有时候反而会成为累赘.因此Hadoop的使 ...
大数据之-Hadoop伪分布式_启动YARN并运行MR程序---大数据之hadoop工作笔记0026
之前我们运行hadoop提供的案例是用hdfs运行的. 现在我们来配置一下yarn,我们用yarn,这个资源管理器来运行hadoop的mr程序. 首先我们要知道yarn包含两个主要的部分,当然还有其他 ...
在Hadoop Yarn上运行pyspark-summit程序
** 在Hadoop Yarn上运行pyspark-summit程序 ** 出现以下错误: 19/02/22 18:24:13 ERROR SparkContext: Error initializi ...
Ubantu下hadoop运行第一个例子wordcount过程
Ubantu12.04下hadoop-1.2.1运行第一个例子wordcount过程,分享一下将WordCount.java文件放在Hadoop安装目录下,并在安装目录下创建输入目录input,目录 ...
Hadoop运行模式之伪分布式运行模式
什么是伪分布式模式?它与本地运行模式以及完全分布式模式有什么区别? 伪分布式的配置信息,完全是按照完全分布式的模式去搭建的,但是它只有一台服务器,可以用于学习和测试,真正的开发中不可以使用. 目录一 ...
使用Eclipse编译运行MapReduce程序 Hadoop2.6.0/Ubuntu
上篇介绍了使用命令行编译打包运行自己的MapReduce程序,使用 Eclipse 更加方便.要在 Eclipse 上编译和运行 MapReduce 程序,需要安装 hadoop-eclipse-pl ...

IDEA+Hadoop运行TriangleCount程序