第10课：底实战详解使用Java开发Spark程序学习笔记

本期内容：

1. 为什么要使用Java？

2. 使用Java开发Spark实战

3. 使用Java开发Spark的Local和Cluster

1. 为什么要使用Java？

一. 实际在生产环境下，Spark作为数据处理引擎，需要与企业IT系统中的其他组件或功能配合使用。众所周知，现在业界处于霸主地位的开发语言是Java。很多时候，企业通过Java开发IT系统，后端通过Spark处理，如果使用Java，团队的组建、开发难度的降低，团队的合作，都有很大价值。

二. Scala从学习角度讲比Java难，所以招聘到Scala高手较难，所以项目的二次开发会比较困难。

三. Spark学习者有很多人不会Scala，但有Java基础，为了不会Scala的人能编写和运行课程中的案例，有必要讲Java。

2. 使用Java开发Spark实战

使用Java开发的集成工具是Eclipse。所以首先需要下载Eclipse，注意是32位还是64位。

1. 从www.eclipse.org/downloads 下载Eclipse。

2. 解压zip格式的Eclipse压缩文件。打开解压后的文件夹下的eclipse.exe即可打开eclipse。前提是安装配置好java。

3. 在Project Explorer区点击右键，或File，点击new->project，Wizards选择Maven Project

其他采用默认，点Next。
4. Select an Archety选择maven-archetype-quicstart后点击Next。

Group Id:填写： com.dt.spark，Artifact Id填写：SparkApps后点击finish。

此时出现下图所示错误：

Could not write metadata for '/RemoteSystemsTempFiles'.
D:\programFiles\eclipse\workspace\.metadata\.plugins\org.eclipse.core.resources\.projects\RemoteSystemsTempFiles\.markers.snap (系统找不到指定的路径。)

网上查了一下，需要修改一设置：

Window->preferences，填写'remote'选择remote systems，将'reopen remote systems view to previous state'前面的勾去掉。

选择General->Startup and Shutdown，将RSE UI前的勾去掉。

话说回来，待Eclipse配置Maven完成后，可以看到SparkApps项目中的JRE System Library显示J2SE-1.5，需要修改此JRE版本。

在SparkApps项目点击右键，选择Build Path->Configure Build Path...，在Java Build Path中的Libraries标签中选择JRE System Library[J2SE-1.5]，点击Edit

在“Select JRE for the project build path”中选择"Workspace default JRE(jre1.8.0_45)"后点击finish。

可以看到SparkApps项目中的Java版本变成了1.8。

在顶级包下创建子包。在SparkApps项目中的src/main/java下的com.dt.spark.SparkApps顶级包上点击右键，选择new-> package。

填写Name为com.dt.spark.SparkApps.cores后点击finish。

在com.dt.spark.SparkApps.cores包上点击右键选择new->class，在Name中填写WordCount，选中public static void main(String[] args)后点击Finish。

可以看到自动为WordCount类创建了main方法。

Maven管理项目的核心就是pom.xml，在这个文件中有工程编写运行时的依赖的支持。

编写程序前需要先修改pom.xml。

<groupId>com.dt.spark</groupId>
<artifactId>SparkApps</artifactId>
<version>0.0.1-SNAPSHOT</version>
<packaging>jar</packaging>

<name>SparkApps</name>
<url>http://maven.apache.org</url>

<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>3.8.1</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-hive_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming-kafka_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-graphx_2.10</artifactId>
<version>1.6.0</version>
</dependency>
</dependencies>

<build>
<sourceDirectory>src/main/java</sourceDirectory>
<testSourceDirectory>src/main/test</testSourceDirectory>

<plugins>
<plugin>
<artifactId>maven-assembly-plugin</artifactId>
<configuration>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
<archive>
<manifest>
<maniClass></maniClass>
</manifest>
</archive>
</configuration>
<executions>
<execution>
<id>make-assembly</id>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
<plugin>
<groupId>org.codehaus.mojo</groupId>
<artifactId>exec-maven-plugin</artifactId>
<version>1.3.1</version>
<executions>
<execution>
<goals>
<goal>exec</goal>
</goals>
</execution>
</executions>
<configuration>
<executable>java</executable>
<includeProjectDependencies>false</includeProjectDependencies>
<classpathScope>compile</classpathScope>
<mainClass>com.dt.spark.SparkApps.WordCount</mainClass>
</configuration>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<configuration>
<source>1.6</source>
<target>1.6</target>
</configuration>
</plugin>
</plugins>
</build>
</project>

**** Spark SQL不能取代Hive，原因是Hive包含两部分一部分是存储引擎，另一部分是计算引擎，Spark SQL取代的只是Hive的计算引擎，而Hive的存储引擎还是不错的。

未完待续......

以上内容是王家林老师DT大数据梦工厂《 IMF传奇行动》第10课的学习笔记。
王家林：Spark、Flink、Docker、Android技术中国区布道师。Spark亚太研究院院长和首席专家，DT大数据梦工厂创始人，Android软硬整合源码级专家，英语发音魔术师，健身狂热爱好者。

微信公众账号：DT_Spark

联系邮箱18610086859@126.com

第10课：底实战详解使用Java开发Spark程序学习笔记相关推荐

第10课：底实战详解使用Java开发Spark程序学习笔记（二）
Maven下的Spark配置: http://maven.outofmemory.cn/org.apache.spark,这个网站提供了Spark core.Spark Streaming使用Mave ...
第8课：彻底实战详解使用IDE开发Spark程序
第8课:彻底实战详解使用IDE开发Spark程序 1.下载安装windows下的scala-2.10.4. 2.打开eclipse,新建scala project: WordCount 3.修改依赖的 ...
第8课：彻底实战详解使用IDE开发Spark程序--集群模式运行
第8课:彻底实战详解使用IDE开发Spark程序--集群模式运行拷贝WordCount.scala生成WordCountCluster.scala. 1. 将object WordCount改为ob ...
3000门徒内部训练绝密视频（泄密版）第8课：彻底实战详解使用IDE开发Spark程序
彻底实战详解使用IDE开发Spark程序使用IDE开发Spark分析使用IDE开发Spark实战使用IDE开发Spark的Local和Cluster 开发两种选择:IDEA.Eclipse 下载 ...
ASP.NET Core分布式项目实战（详解oauth2授权码流程）--学习笔记
最近公司产品上线,通宵加班了一个月,一直没有更新,今天开始恢复,每日一更,冲冲冲任务13:详解oauth2授权码流程我们即将开发的产品有一个用户 API,一个项目服务 API,每个服务都需要认证授 ...
官网实例详解-目录和实例简介-keras学习笔记四
https://github.com/keras-team/keras/tree/master/examples Keras examples directory Keras实例目录 (点击跳转) 官 ...
shiro详解-shiro史上最全学习笔记
1.shiro简介 1.1.基本功能点 Shiro 可以非常容易的开发出足够好的应用,其不仅可以用在 JavaSE 环境,也可以用在 JavaEE 环境.Shiro 可以帮助我们完成:认证.授权.加密 ...
图文详解！java开发面试简历模板java
开头对于一个Java程序员而言,能否熟练掌握并发编程是判断他优秀与否的重要标准之一.因为并发编程是Java语言中最为晦涩的知识点,它涉及操作系统.内存.CPU.编程语言等多方面的基础能力,更为考验一 ...
JVM垃圾回收面试题详解，java开发语言基础知识
所以这种算法已经没人用了. 2.2 可达性分析法 2.2.1 什么是可达性可达性分析法就是目前的主流算法,也是java正在使用的算法. 它的做法是,通过一系列被称为"GC Roots&qu ...

第10课：底实战详解使用Java开发Spark程序学习笔记

第10课：底实战详解使用Java开发Spark程序学习笔记相关推荐

最新文章

热门文章