spark 小demo
本文是利用scala进行wordcount的demo,环境是scala 2.11.8、 esclipse for scala 、spark 2.1.0 hadoop 2.7.3
1、首先命令行形式运行demo
(1)在你hdfs下的随便一个文件夹新建一个txt文件,做被统计文件夹,这里我是在tmp文件夹下新建的
hdfs dfs -touchz /tmp/input.txt
然后在文件里写进点东西
echo "hello i am a boy and you? haha you is a girl hahaha" | hdfs dfs -appendToFile - /tmp/input.txt
看下是不是真的写成功了,以防没有写成功运行的时候报错
hdfs dfs -cat /tmp/input.txt
en,真的写成功了哎
开始运行吧!
打开spark-shell
依次运行:
var file = sc.textFile("hdfs:/tmp/input.txt")
var rdd = file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)
rdd.collect()
rdd.foreach(println)
运行完毕就会发现:又成功了哎
上面是命令行运行,下面介绍一下jar包运行
2、
(1)首先将你集群的spark安装目录下jar文件夹下的所有jar包导出,在eslipse新建scala项目后将你的导出jar包到导入项目中,并且将你的scala Complier 改为2.11以和你的整体环境保持一致,Scala Complier和你的java Complier一样,都在Proprietary下,找一下就可以找到,这些完成后就可以写你的wordcount了
(2)编写wordcount
package edu.test
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._object wordcount {
def main(args: Array[String]) {
if (args.length < 1) {
System.err.println("Usage: <file>")
System.exit(1)
}val conf = new SparkConf()
val sc = new SparkContext(conf)
val line = sc.textFile(args(0))line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect().foreach(println)
sc.stop()
}
}
这里是wordcount的代码,和刚才命令行的其实是一致的,然后写完之后,没有错误了就右键export将其导出为jar包
将jar包上传到你的spark集群,我是上传在了/opt/project目录下,
上传成功就可以运行了,这里运行我只对必要的参数进行了设置,非必要的参数没有进行设置
spark-submit --name wordcount --class edu.test.wordcount /opt/projecount.jar hdfs:/tmp/input.txt
运行之后发现命令行输出了要统计的那些字符就说明你的运行成功了,就可以继续用这种方法去写更多的小demo了
附:spark-submit的参数说明
spark 小demo相关推荐
- spark集群配置以及java操作spark小demo
spark 安装 配置 使用java来操作spark spark 安装 tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz rm spark-2.4.0-bin-hadoo ...
- 金融新手投标模块布局小Demo
<!DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8" ...
- android jsoup简书,jsoup爬虫简书首页数据做个小Demo
昨天LZ去面试,遇到一个大牛,被血虐一番,发现自己基础还是很薄弱,对java一些原理掌握的还是不够稳固,比如java反射注解,知道一点就是说不出来,很尴尬... 生命不止,学习不止啊 之前那个项目 Q ...
- 运用vue.js写的表格小demo
2019独角兽企业重金招聘Python工程师标准>>> 最近在学习vue.js,我把工作中项目里面的一个小实例用vue.js重构了下,写成一个小demo,巩固自己所学,并与大家分享, ...
- 入门Leaflet之小Demo
入门 Leaflet 之小 Demo 写在前面 ---- WebGIS 开发基础之 Leaflet GIS 基本概念:GIS.Map.Layer.Feature.Geometry.Symbol.Dat ...
- 云服务器apache mysql php_服务器配置教程:阿里云服务器安装PHP环境(附PHP+MySQL+Apache后台小Demo)...
前言 搭建Apache HTTP Server往往都会安装PHP环境,因为很多人都使用PHP做web.其实相对我而言,我是用PHP做后台.主要是因为我是移动端方向:做iOS和Android.往往需要通 ...
- Nancy之基于Self Hosting的补充小Demo
原文:Nancy之基于Self Hosting的补充小Demo 前面把Hosting Nancy with ASP.NET.Self Hosting Nancy和Hosting Nancy with ...
- 从一个小demo开始,体验“API经济”的大魅力
写在前面 "API经济"这个词是越来越火了,但是"API经济"具体指的是什么,相信很多人还没有个明确的认识.不过今天我可不打算长篇大论的去讲解一些概念,我们就以 ...
- 结束python服务器进程_服务器端后台持续执行python程序小demo
冰先生:python小脚本,爬天气预报并定时发邮件提醒(适合小情侣的甜蜜打开方式)zhuanlan.zhihu.com 上一篇写了做个可以发送邮件的小demo,这一篇呢我们来谈一谈如何让他更加方便的 ...
最新文章
- qteewidgetitem添加子节点_行为树的节点
- csu 1804 有向无环图
- 如何使Layouts里的页面应用站点母板页
- Paxos第三篇 - Paxos成员组变更
- Linux 系统目录
- getting joins
- c语言编程分数判定,用C语言编程平均分数
- shell学习笔记(五)
- Q86:镜面反射(Mirror Reflection)
- machine learning-mnist
- 10g_DBWn_concept
- java 压缩pdf_Java 复制、压缩PDF文档
- 了解89C51单片机
- 【转】【GO】9.go:linkname
- 【2017年】阿里巴巴算法笔试第二题
- 常熟理工学院计算机专业排名2015,2019年常熟理工学院优势专业排名及分数线
- 2019年一级消防工程师备考八步法
- 我的世界服务器怎么无限附魔,我的世界最好的附魔时运和无限,有一种方法让你快速获得!...
- MacOs卸载Adobe后还有残留进程的解决方法
- @Cacheable 设置缓存过期时间
热门文章
- 你对精细化费用管控了解多少?
- python3对接mysql数据库
- ACS606开发方案源码,伺服驱动,无刷 直流
- 前端学习之vue+element-ui电商项目(九)订单管理
- autofocus属性的使用
- java连接zookeeper报错问题“KeeperErrorCode = ConnectionLoss”
- Skia4Dephi 的 Demo 程序界面架构分析
- 2022/11/4电子体温计方案_单片机
- NC维护云平台技术分享之 NC维护云管家通信框架
- Python图像处理之十行代码搞定圆型头像生成