SparkWordCount 类源码 standalong 模式import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._object SparkWordCount {def FILE_NAME:String = "word_count_results_";def main(args:Array[String]) {if (args.length < 1) {println("Usage:SparkWordCount FileName");System.exit(1);}val conf = new SparkConf().setAppName("Spark Exercise: Spark Version Word Count Program");val sc = new SparkContext(conf);val textFile = sc.textFile(args(0));val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)wordCounts.saveAsTextFile(FILE_NAME+System.currentTimeMillis());println("Word Count program running results are successfully saved.");}
}--------
./spark-submit \
--class com.ibm.spark.exercise.basic.SparkWordCount \
--master spark://hadoop036166:7077 \
--num-executors 3 \
--driver-memory 6g --executor-memory 2g \
--executor-cores 2 \
/home/fams/sparkexercise.jar \
hdfs://hadoop036166:9000/user/fams/*.txt求平均值 import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
object AvgAgeCalculator {def main(args:Array[String]) {if (args.length < 1){println("Usage:AvgAgeCalculator datafile")System.exit(1)}val conf = new SparkConf().setAppName("Spark Exercise:Average Age Calculator")val sc = new SparkContext(conf)val dataFile = sc.textFile(args(0), 5);val count = dataFile.count()val ageData = dataFile.map(line => line.split(" ")(1))val totalAge = ageData.map(age => Integer.parseInt(String.valueOf(age))).collect().reduce((a,b) => a+b)println("Total Age:" + totalAge + ";Number of People:" + count )val avgAge : Double = totalAge.toDouble / count.toDoubleprintln("Average Age is " + avgAge)}
}--------------------------
./spark-submit \--class com.ibm.spark.exercise.basic.AvgAgeCalculator \--master spark://hadoop036166:7077 \--num-executors 3 \--driver-memory 6g \--executor-memory 2g \--executor-cores 2 \/home/fams/sparkexercise.jar \hdfs://hadoop036166:9000/user/fams/inputfiles/sample_age_data.txt求男性/女性 最高 最低身高 -----------------------object PeopleInfoCalculator {def main(args:Array[String]) {if (args.length < 1){println("Usage:PeopleInfoCalculator datafile")System.exit(1)}val conf = new SparkConf().setAppName("Spark Exercise:People Info(Gender & Height) Calculator")val sc = new SparkContext(conf)val dataFile = sc.textFile(args(0), 5);val maleData = dataFile.filter(line => line.contains("M")).map(line => (line.split(" ")(1) + " " + line.split(" ")(2)))val femaleData = dataFile.filter(line => line.contains("F")).map(line => (line.split(" ")(1) + " " + line.split(" ")(2)))val maleHeightData = maleData.map(line => line.split(" ")(1).toInt)val femaleHeightData = femaleData.map(line => line.split(" ")(1).toInt)val lowestMale = maleHeightData.sortBy(x => x,true).first()val lowestFemale = femaleHeightData.sortBy(x => x,true).first()val highestMale = maleHeightData.sortBy(x => x, false).first()val highestFemale = femaleHeightData.sortBy(x => x, false).first()println("Number of Male Peole:" + maleData.count())println("Number of Female Peole:" + femaleData.count())println("Lowest Male:" + lowestMale)println("Lowest Female:" + lowestFemale)println("Highest Male:" + highestMale)println("Highest Female:" + highestFemale)}
}./spark-submit \--class com.ibm.spark.exercise.basic.PeopleInfoCalculator \--master spark://hadoop036166:7077 \--num-executors 3 \--driver-memory 6g \--executor-memory 3g \--executor-cores 2 \/home/fams/sparkexercise.jar \hdfs://hadoop036166:9000/user/fams/inputfiles/sample_people_info.txt每行数据出现的次数最高的=============
import org.apache.spark.SparkConf
import org.apache.spark.SparkContextobject TopKSearchKeyWords {def main(args:Array[String]){if (args.length < 2) {println("Usage:TopKSearchKeyWords KeyWordsFile K");System.exit(1)}val conf = new SparkConf().setAppName("Spark Exercise:Top K Searching Key Words")val sc = new SparkContext(conf)val srcData = sc.textFile(args(0))val countedData = srcData.map(line => (line.toLowerCase(),1)).reduceByKey((a,b) => a+b)val sortedData = countedData.map{ case (k,v) => (v,k) }.sortByKey(false)val topKData = sortedData.take(args(1).toInt).map{ case (v,k) => (k,v) }topKData.foreach(println)}
}./spark-submit \--class com.ibm.spark.exercise.basic.TopKSearchKeyWords \--master spark://hadoop036166:7077 \--num-executors 3 \--driver-memory 6g \--executor-memory 2g \--executor-cores 2 \/home/fams/sparkexercise.jar \hdfs://hadoop036166:9000/user/fams/inputfiles/search_key_words.txt

转载于:https://www.cnblogs.com/TendToBigData/p/10501363.html

Spark Scalaa 几个常用的示例相关推荐

  1. java 操作oracle 源码_java对oracle的常用操作示例源码

    将做工程过程重要的代码片段做个收藏,下面资料是关于java对oracle的常用操作示例的代码. import java.sql.Connection; import java.sql.DriverMa ...

  2. Lambda表达式常用代码示例

    Lambda表达式常用代码示例 2017-10-24 目录 1 Lambda表达式是什么 2 Lambda表达式语法 3 函数式接口是什么   3.1 常用函数式接口 4 Lambdas和Stream ...

  3. (04)System Verilog 常用数据类型示例

    (04)System Verilog 常用数据类型示例 1.1 目录 1)目录 2)FPGA简介 3)System Verilog简介 4)System Verilog 常用数据类型示例 5)结语 1 ...

  4. Lambda 表达式的常用操作示例

    文章目录 一.示例对象 二.常用操作 一.示例对象 User 对象 @AllArgsConstructor @Data @ToString public class User implements S ...

  5. Jackson常用配置示例

    Jackson常用配置示例 对输出缩进 Fail on Unknown Properties 允许序列化空对象 将空字符串反序列化为 null POJO 空字符串与 Java simple objec ...

  6. grep命令常用用法示例

    参数列表 –color=auto 或者 –color:表示对匹配到的文本着色显示 -i:在搜索的时候忽略大小写 -n:显示结果所在行号 -c:统计匹配到的行数,注意,是匹配到的总行数,不是匹配到的次数 ...

  7. 2021年大数据Spark(十五):Spark Core的RDD常用算子

    目录 常用算子 基本算子 分区操作函数算子 重分区函数算子 1).增加分区函数 2).减少分区函数 3).调整分区函数 ​​​​​​​聚合函数算子 ​​​​​​​Scala集合中的聚合函数 ​​​​​ ...

  8. Java程序员从笨鸟到菜鸟之(八十七)跟我学jquery(三)jquery动态创建元素和常用函数示例

    在上面两篇博客中列举了太多的API相信大家看着眼晕. 不过这些基础还必须要讲, 基础要扎实.其实对于这些列表大家可以跳过, 等以后用到时再回头看或者查询官方的API说明.在本博客中就给大家讲解一下这些 ...

  9. Stata常用命令示例

    目录 stata自带示例数据集 1.数据描述 2. 标签重命名 3.截面数据统计 4.面板数据定义 5.面板数据统计 6.分组统计 7.连续值自动划分等级 8.计算分位数 9.字符串截取与转换成数字 ...

最新文章

  1. python -m uiautomator2 init 报错_Python|实现属于自己的数据类型
  2. linux内核网络协议栈--2层报文处理(十七)
  3. 【嵌入式开发】C语言 命令行参数 函数指针 gdb调试
  4. 【面试题】你知道为什么HashMap是线程不安全的吗?
  5. 我要彻底给你讲清楚,Java就是值传递,不接受争辩的那种!
  6. win10休眠_win10休眠重新开机黑屏进入不了系统
  7. Entity Framework 4.3.1 Code First 连接 PostgreSQL 9.2.3 小结
  8. 记一次理想浪漫的毕旅
  9. 机器学习基石-作业三-代码部分
  10. 十大经典排序算法2(Python版本)
  11. rxjava教程_RxJava教程
  12. SLAM会议笔记(四)Lego-LOAM
  13. 将一个字符串转换成一个整数,要求不能使用字符串转换整数的库函数。 数值为0或者字符串不是一个合法的数值则返回0...
  14. python glob模块
  15. nginx配置在线播放mp4格式视频
  16. ::ffff:192.168.31.101 是一个什么地址?
  17. 关于srand函数的疑问
  18. idea.log如何精确查看错误信息
  19. [imx6 VPU]硬解码+示例[ffmpeg获取海康rtsp h264流 QT显示]
  20. 英伟达RTX 4070 Ti显卡正式发布!你会买吗?

热门文章

  1. 收藏 | 9 个技巧让你的 PyTorch 模型训练变得飞快!
  2. 数据科学与计算机学院张治国,张治国(河海大学机电工程学院副教授)_百度百科...
  3. 人工智能 对比试验_人工智能与药物研发
  4. 宠物狗图片分类之迁移学习代码笔记
  5. 专业工程师看过来~ | RDD、DataFrame和DataSet的细致区别
  6. 腾讯云服务器CentOS安装JDK+Tomcat+MySQL详细步骤(以及遇到的各种坑)
  7. 笔记本卡顿不流畅是什么原因_为什么越来越多的笔记本电池不可拆卸
  8. modelsim和matlab联合仿真,Modelsim与Matlab联合仿真
  9. python Authentication plugin ‘caching_sha2_password‘ is not supp
  10. 最后一周,如何高效率的备考软考信息安全工程师?