Spark Scalaa 几个常用的示例

SparkWordCount 类源码 standalong 模式import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._object SparkWordCount {def FILE_NAME:String = "word_count_results_";def main(args:Array[String]) {if (args.length < 1) {println("Usage:SparkWordCount FileName");System.exit(1);}val conf = new SparkConf().setAppName("Spark Exercise: Spark Version Word Count Program");val sc = new SparkContext(conf);val textFile = sc.textFile(args(0));val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)wordCounts.saveAsTextFile(FILE_NAME+System.currentTimeMillis());println("Word Count program running results are successfully saved.");}
}--------
./spark-submit \
--class com.ibm.spark.exercise.basic.SparkWordCount \
--master spark://hadoop036166:7077 \
--num-executors 3 \
--driver-memory 6g --executor-memory 2g \
--executor-cores 2 \
/home/fams/sparkexercise.jar \
hdfs://hadoop036166:9000/user/fams/*.txt求平均值 import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
object AvgAgeCalculator {def main(args:Array[String]) {if (args.length < 1){println("Usage:AvgAgeCalculator datafile")System.exit(1)}val conf = new SparkConf().setAppName("Spark Exercise:Average Age Calculator")val sc = new SparkContext(conf)val dataFile = sc.textFile(args(0), 5);val count = dataFile.count()val ageData = dataFile.map(line => line.split(" ")(1))val totalAge = ageData.map(age => Integer.parseInt(String.valueOf(age))).collect().reduce((a,b) => a+b)println("Total Age:" + totalAge + ";Number of People:" + count )val avgAge : Double = totalAge.toDouble / count.toDoubleprintln("Average Age is " + avgAge)}
}--------------------------
./spark-submit \--class com.ibm.spark.exercise.basic.AvgAgeCalculator \--master spark://hadoop036166:7077 \--num-executors 3 \--driver-memory 6g \--executor-memory 2g \--executor-cores 2 \/home/fams/sparkexercise.jar \hdfs://hadoop036166:9000/user/fams/inputfiles/sample_age_data.txt求男性/女性 最高 最低身高 -----------------------object PeopleInfoCalculator {def main(args:Array[String]) {if (args.length < 1){println("Usage:PeopleInfoCalculator datafile")System.exit(1)}val conf = new SparkConf().setAppName("Spark Exercise:People Info(Gender & Height) Calculator")val sc = new SparkContext(conf)val dataFile = sc.textFile(args(0), 5);val maleData = dataFile.filter(line => line.contains("M")).map(line => (line.split(" ")(1) + " " + line.split(" ")(2)))val femaleData = dataFile.filter(line => line.contains("F")).map(line => (line.split(" ")(1) + " " + line.split(" ")(2)))val maleHeightData = maleData.map(line => line.split(" ")(1).toInt)val femaleHeightData = femaleData.map(line => line.split(" ")(1).toInt)val lowestMale = maleHeightData.sortBy(x => x,true).first()val lowestFemale = femaleHeightData.sortBy(x => x,true).first()val highestMale = maleHeightData.sortBy(x => x, false).first()val highestFemale = femaleHeightData.sortBy(x => x, false).first()println("Number of Male Peole:" + maleData.count())println("Number of Female Peole:" + femaleData.count())println("Lowest Male:" + lowestMale)println("Lowest Female:" + lowestFemale)println("Highest Male:" + highestMale)println("Highest Female:" + highestFemale)}
}./spark-submit \--class com.ibm.spark.exercise.basic.PeopleInfoCalculator \--master spark://hadoop036166:7077 \--num-executors 3 \--driver-memory 6g \--executor-memory 3g \--executor-cores 2 \/home/fams/sparkexercise.jar \hdfs://hadoop036166:9000/user/fams/inputfiles/sample_people_info.txt每行数据出现的次数最高的=============
import org.apache.spark.SparkConf
import org.apache.spark.SparkContextobject TopKSearchKeyWords {def main(args:Array[String]){if (args.length < 2) {println("Usage:TopKSearchKeyWords KeyWordsFile K");System.exit(1)}val conf = new SparkConf().setAppName("Spark Exercise:Top K Searching Key Words")val sc = new SparkContext(conf)val srcData = sc.textFile(args(0))val countedData = srcData.map(line => (line.toLowerCase(),1)).reduceByKey((a,b) => a+b)val sortedData = countedData.map{ case (k,v) => (v,k) }.sortByKey(false)val topKData = sortedData.take(args(1).toInt).map{ case (v,k) => (k,v) }topKData.foreach(println)}
}./spark-submit \--class com.ibm.spark.exercise.basic.TopKSearchKeyWords \--master spark://hadoop036166:7077 \--num-executors 3 \--driver-memory 6g \--executor-memory 2g \--executor-cores 2 \/home/fams/sparkexercise.jar \hdfs://hadoop036166:9000/user/fams/inputfiles/search_key_words.txt

转载于:https://www.cnblogs.com/TendToBigData/p/10501363.html

Spark Scalaa 几个常用的示例相关推荐

java 操作oracle 源码_java对oracle的常用操作示例源码
将做工程过程重要的代码片段做个收藏,下面资料是关于java对oracle的常用操作示例的代码. import java.sql.Connection; import java.sql.DriverMa ...
Lambda表达式常用代码示例
Lambda表达式常用代码示例 2017-10-24 目录 1 Lambda表达式是什么 2 Lambda表达式语法 3 函数式接口是什么 3.1 常用函数式接口 4 Lambdas和Stream ...
（04）System Verilog 常用数据类型示例
(04)System Verilog 常用数据类型示例 1.1 目录 1)目录 2)FPGA简介 3)System Verilog简介 4)System Verilog 常用数据类型示例 5)结语 1 ...
Lambda 表达式的常用操作示例
文章目录一.示例对象二.常用操作一.示例对象 User 对象 @AllArgsConstructor @Data @ToString public class User implements S ...
Jackson常用配置示例
Jackson常用配置示例对输出缩进 Fail on Unknown Properties 允许序列化空对象将空字符串反序列化为 null POJO 空字符串与 Java simple objec ...
grep命令常用用法示例
参数列表 –color=auto 或者 –color:表示对匹配到的文本着色显示 -i:在搜索的时候忽略大小写 -n:显示结果所在行号 -c:统计匹配到的行数,注意,是匹配到的总行数,不是匹配到的次数 ...
2021年大数据Spark（十五）：Spark Core的RDD常用算子
目录常用算子基本算子分区操作函数算子重分区函数算子 1).增加分区函数 2).减少分区函数 3).调整分区函数聚合函数算子 Scala集合中的聚合函数 ...
Java程序员从笨鸟到菜鸟之（八十七）跟我学jquery（三）jquery动态创建元素和常用函数示例
在上面两篇博客中列举了太多的API相信大家看着眼晕. 不过这些基础还必须要讲, 基础要扎实.其实对于这些列表大家可以跳过, 等以后用到时再回头看或者查询官方的API说明.在本博客中就给大家讲解一下这些 ...
Stata常用命令示例
目录 stata自带示例数据集 1.数据描述 2. 标签重命名 3.截面数据统计 4.面板数据定义 5.面板数据统计 6.分组统计 7.连续值自动划分等级 8.计算分位数 9.字符串截取与转换成数字 ...

Spark Scalaa 几个常用的示例

Spark Scalaa 几个常用的示例相关推荐

最新文章

热门文章