不多说,直接上干货!

  

这篇博客是,

  是在Scala IDEA for Eclipse里maven创建scala和java代码编写环境。

Scala IDEA for Eclipse里用maven来创建scala和java项目代码环境(图文详解)

本博文包括:

  Scala IDE for Eclipse的下载

   Scala IDE for Eclipse的安装

  本地模式或集群模式

  我们知道,对于开发而言,IDE是有很多个选择的版本。如我们大部分人经常用的是如下。

Eclipse *版本

Eclipse *下载

  而我们知道,对于spark的scala开发啊,有为其专门设计的eclipse,Scala IDE for Eclipse。

  

1、Scala IDE for Eclipse的下载

http://scala-ide.org/

2、Scala IDE for Eclipse的安装

进行解压

3、Scala IDE for Eclipse的WordCount的初步使用

在这之前,先在本地里安装好java和scala

  因为,我这篇博客,是面向基础的博友而分享的。所以,在此,是在Scala IDE for Eclipse里,手动新建scala项目。

注意:推荐使用IDEA , 当然有人肯定还依依不舍Scala IDE for Eclipse。

则,如下是我写的另一篇博客

Scala IDEA for Eclipse里用maven来创建scala和java项目代码环境(图文详解)

默认竟然变成了scala 2.11.8去了

这一定要换!

Scala2.11.8(默认的版本)   -------->      scala2.10.4(我们的版本)

第一步:修改依赖的scala版本,从scala2.11.*,至scala2.10.*。

这里是兼容版本,没问题。Scala2.10.6和我们的scala2.10.4没关系!!!

第二步:加入spark的jar文件依赖

http://spark.apache.org/downloads.html

我这里,以spark-1.5.2-bin-hadoop2.6.tgz为例,其他版本都是类似的,很简单!

http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz

第三步:找到spark依赖的jar文件,并导入到Scala IDE for Eclipse的jar依赖中

添加Spark的jar依赖spark-1.5.2-bin-hadoop2.6.tgz里的lib目录下的spark-assembly-1.5.2-hadoop2.6.0.jar

第四步:在src下,建立spark工程包

第五步:创建scala入口类

定义main方法

第六步:把class变成object,并编写main入口方法。

本地模式

第1步

第2步

第3步

第4步

第5步

第6步

集群模式

  这里,学会巧,复制粘贴,WordCount.scala 为 WordCount_Clutser.scala。

现在呢,来从Linux里,拷贝文件到hadoop集群里

即,将

/usr/local/spark/spark-1.5.2-bin-hadoop2.6/README.md   到  / 或  hdfs://SparkSingleNode:9000

spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ pwd
/usr/local/hadoop/hadoop-2.6.0
spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ bin/hadoop fs -copyFromLocal /usr/local/spark/spark-1.5.2-bin-hadoop2.6/README.md  hdfs://SparkSingleNode:9000/
spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ bin/hadoop fs -ls /
Found 2 items
-rw-r--r-- 1 spark supergroup 3593 2016-09-18 10:15 /README.md
drwx-wx-wx - spark supergroup 0 2016-09-09 16:28 /tmp
spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$

// val lines:RDD[String] = sc.textFile("D://SoftWare//spark-1.6.2-bin-hadoop2.6//README.md", 1)//path指的是文件路径,minPartitions指的是最小并行度
// val lines = sc.textFile("D://SoftWare//spark-1.6.2-bin-hadoop2.6//README.md", 1)//path指的是文件路径,minPartitions指的是最小并行度
// val lines = sc.textFile("hdfs://SparkSingleNode:9000/README.md", 1)//没必要会感知上下文
// val lines = sc.textFile("/README.md", 1)//path指的是文件路径,minPartitions指的是最小并行度
val lines = sc.textFile("/README.md")//为什么,这里不写并行度了呢?因为,hdfs会有一个默认的

如,我们的这里/里,有188个文件,每个文件小于128M。

所以,会有128个小集合。

当然,若是大于的话,我们可以人为干预,如3等

做好程序修改之后,

我这里啊,遇到如上的错误。

http://blog.csdn.net/weipanp/article/details/42713121

(3)Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)V

at org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(Native Method)

修复方法:在hadoop2.6源码里找到NativeCrc32.java,创建与源码一样的包名,拷贝NativeCrc32.java到该包工程目录下。

hadoop-2.6.0-src/hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/util/NativeCrc32.java

以及,缺少hadoop.dll,注意是64位的。放到hadoop-2.6.0下的bin目录下

玩玩spark-1.5.2-bin-hadoop2.6.tgz

继续,,,出现了一些问题!

其实啊,在集群里,模板就是如下

val file = spark.textFile("hdfs://...”)

val counts = file.flatMap("line => line.spilt(" "))

        .map(word => (word,1))

        .reduceByKey(_+_)

 counts.saveAsTextFile("hdfs://...”)

欢迎大家,加入我的微信公众号:大数据躺过的坑     免费给分享
 

同时,大家可以关注我的个人博客

 http://www.cnblogs.com/zlslch/   和  http://www.cnblogs.com/lchzls/ 

  人生苦短,我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神,汇聚于互联网和个人学习工作的精华干货知识,一切来于互联网,反馈回互联网。
  目前研究领域:大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。 语言涉及:Java、Scala、Python、Shell、Linux等 。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。 只要你一直关注和呆在群里,每天必须有收获

以及对应本平台的QQ群:161156071(大数据躺过的坑)

转载于:https://www.cnblogs.com/zlslch/p/5880006.html

Scala IDE for Eclipse的下载、安装和WordCount的初步使用(本地模式和集群模式)相关推荐

  1. Eclipse的下载、安装和WordCount的初步使用(本地模式和集群模式)

    包括:    Eclipse的下载 Eclipse的安装 Eclipse的使用 本地模式或集群模式 Scala IDE for Eclipse的下载.安装和WordCount的初步使用(本地模式和集群 ...

  2. IntelliJ IDEA(Ultimate版本)的下载、安装和WordCount的初步使用(本地模式和集群模式)...

    IntelliJ IDEA号称当前Java开发效率最高的IDE工具.IntelliJ IDEA有两个版本:社区版(Community)和旗舰版(Ultimate).社区版时免费的.开源的,但功能较少, ...

  3. CentOS下ZooKeeper单机模式、集群模式安装

    本文环境如下: 操作系统:CentOS 6 32位 ZooKeeper版本:3.4.8 0. 环境需求 Zookeeper需要JDK1.6以上版本的Java环境 可以参考: CentOS 6使用rpm ...

  4. Kafka单机、集群模式安装详解(一)

    本文环境如下: 操作系统:CentOS 6 32位 JDK版本:1.8.0_77 32位 Kafka版本:0.9.0.1(Scala 2.11) 1. 所需要的环境 Kafka需要以下运行环境: Ja ...

  5. Eclipse中使用Hadoop集群模式开发配置及简单程序示例(Windows下)

    Hadoop入门配置系列博客目录一览 1. Eclipse中使用Hadoop伪分布模式开发配置及简单程序示例(Linux下) 2. 使用Hadoop命令行执行jar包详解(生成jar.将文件上传到df ...

  6. CentOS7下安装Redis伪集群(基于Redis官方Cluster集群模式版本redis-5.0.10)

    文章目录 Redis简介 什么是redis redis的优点 Redis集群都有哪些模式 主从复制(Master-Slave Replication) 哨兵模式(Sentinel) Redis官方 C ...

  7. Nacos 快速开始、版本选择、预备环境准备、下载源码或者安装包、从 Github 上下载源码方式、下载编译后压缩包方式、配置nacos、配置集群、启动服务器、服务注册发现和配置管理、关闭服务器

    1.Nacos 快速开始 1.1.版本选择 1.2.预备环境准备 1.3.下载源码或者安装包 1.3.1.从 Github 上下载源码方式 1.3.2.下载编译后压缩包方式 1.3.3.配置nacos ...

  8. CentOS下Hive2.0.0集群模式安装详解

    本文环境如下: 操作系统:CentOS 6 32位 Hive版本:2.0.0 JDK版本:1.8.0_77 32位 Hadoop版本:2.6.4 MySQL版本:5.6.30 1. 准备工作 1.1 ...

  9. Kafka单机、集群模式安装详解(二)

    本文环境如下: 操作系统:CentOS 6 32位 JDK版本:1.8.0_77 32位 Kafka版本:0.9.0.1(Scala 2.11) 接上篇 Kafka单机.集群模式安装详解(一) 6. ...

最新文章

  1. SCVMM2012 SP1 之虚拟机模板的创建
  2. python 指针_python的指针
  3. LeetCode 785. 判断二分图(染色法)
  4. python与c的联系_Python与C的通信#
  5. Java中的代理模式
  6. MDX Cookbook 08 - 基于集合上的迭代递归
  7. Java实现提现到支付宝功能
  8. 趋势追踪交易课堂:复盘的意义和方法
  9. linux连接校园网wifi,Linux/Ubuntu 16.04 使用校园网客户端Dr.com DrClient 有线连网,同时开启WiFi热点...
  10. 学计算机装机,新手学装机:小白如何从零开始学装机
  11. python做一个登录注册界面_Python 实现简单的登录注册界面
  12. 第六期 自定义IP添加-PWM 基于ARTY A7的MicroBlaze系统搭建与应用
  13. SPP中Supersession与Item Sourcing Rule的关系
  14. python中setup是什么意思_python中setuptools指的是什么
  15. java修饰符面试题
  16. THHN vs. XHHW: What Is the Difference?
  17. 8.1 标量、向量、矩阵和张量
  18. 商业智能BI让数据分析不再困难,分解企业数据分析流程
  19. 财经类学校考研计算机,21考研,财经类性价比超高的院校推荐
  20. Microsoft Visual Studio 13强力卸载

热门文章

  1. C语言指针学习(续)
  2. ODT .NET 详解之 SqlDataSource 访问 Oracle
  3. Advapi 登录类型8的错误
  4. 超轻型的数据库sqlite
  5. 【原】iOS:手把手教你发布代码到CocoaPods(Trunk方式)
  6. 2017年秋招-广联达面试及思考
  7. BZOJ 2301 Problem b(莫比乌斯反演+分块优化)
  8. Google搜索技巧总结
  9. 线性表顺序表---逆置所有元素
  10. 2013 ACM/ICPC Asia Regional Changsha Online - C