2019独角兽企业重金招聘Python工程师标准>>>

package core;import org.apache.commons.lang3.StringUtils;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;import java.util.Arrays;
import java.util.List;/*** Created by xupan on 2017/11/28.*/
public class JavaWordCountCore {public static void main(String[] args) {SparkConf conf = new SparkConf().setMaster("local").setAppName("JavaWordCountCore");JavaSparkContext sc = new JavaSparkContext(conf);JavaRDD rdd = sc.textFile("data/JavaWordCountCore.txt");//进行分割JavaRDD flatMapRDD = rdd.flatMap(new FlatMapFunction<String, String>() {public Iterable call(String line) throws Exception {if (StringUtils.isNotEmpty(line)) {return Arrays.asList(line.split(" "));}return null;}});//转换成key/valueJavaPairRDD mapRDD = flatMapRDD.mapToPair(new PairFunction<String, String, Integer>() {public Tuple2<String, Integer> call(String word) throws Exception {return new Tuple2<String, Integer>(word, 1);}});//reduceByKeyJavaPairRDD javaPairRDD = mapRDD.reduceByKey(new Function2<Integer, Integer, Integer>() {public Integer call(final Integer v1, final Integer v2) {return v1 + v2;}});List<Tuple2<String,Integer>> list = javaPairRDD.collect();for (Tuple2<String,Integer> t : list ){System.out.println(t);}}}

(alibaba,1)
(scala,4)
(spark,2)
(hadoop,2)
(eee,1)
(google,1)
(java,1)
(reduce,1)

转载于:https://my.oschina.net/u/2253438/blog/1580703

JavaWordCountCore相关推荐

最新文章

  1. xshell问题汇总
  2. 循环矩阵傅里叶对角化
  3. 计算机机械应用,浅析计算机技术在机械自动化的应用(原稿)
  4. hive 0.11 mysql_Hive的升级(0.8.0到0.11.0)
  5. Python类的自定义属性访问及动态属性设置
  6. linux 编译链接图
  7. python字典定义方式_Python字典常用方法及汇总
  8. 前端学习(3217):prop的基本使用
  9. Spring Boot 热部署(转)
  10. 如何使新站得到高权重技巧
  11. Django中URL和View的关系
  12. 计算机硬件清理步骤,联想笔记本电脑清理灰尘详细步骤
  13. MacPro 迁移至 Mac Mini-M1 与 踩坑 For 后端开发
  14. Android P 亮屏慢分析
  15. 【Python】PIL 压缩图片刚好 200KB
  16. python逐行调试_python如何单步调试
  17. ANTMINER KA3 波卡链Polkadot绝对王者
  18. 论文阅读笔记:Unsupervised Feature Learning via Non-Parametric Instance Discrimination
  19. Topic7——279. 完全平方数
  20. 开区网站打开自动播放音乐的添加跟修改教程

热门文章

  1. 树莓派更换软件源提高下载速度
  2. spark 广播变量大数据_Spark基础知识(三)--- Spark的广播变量和累加器
  3. gps天线拆解图片_华为 畅享 Z 拆解:揭秘千元5G手机物料成本是多少
  4. sqlite like concat 怎么 替代_Joplin:真正的 Evernote 开源替代品
  5. 计算机一级ie浏览器和电子邮件,2016年职称计算机考试Internet基础知识:利用IE收发电子邮件...
  6. php ci url,URL路由设置-CI(codeigniter)PHP框架再探
  7. 零基础跟我学前端之css3基础
  8. linux ls 配色方案,ubuntu 更改ls配色方案
  9. python oop 继承_oop-在Python中继承方法的文档字符串
  10. 几点基于Web日志的Webshell检测思路