updateStateByKey--word count
2019独角兽企业重金招聘Python工程师标准>>>
http://blog.selfup.cn/619.html
private static final Pattern SPACE = Pattern.compile(" ");
public static void main(String[] args) {StreamingExamples.setStreamingLogLevels();JavaStreamingContext jssc = new JavaStreamingContext("local[2]","JavaNetworkWordCount", new Duration(10000));jssc.checkpoint(".");//使用updateStateByKey()函数需要设置checkpoint//打开本地的端口9999JavaReceiverInputDStream<String> lines = jssc.socketTextStream("localhost", 9999);//按行输入,以空格分隔JavaDStream<String> words = lines.flatMap(line -> Arrays.asList(SPACE.split(line)));//每个单词形成pair,如(word,1)JavaPairDStream<String, Integer> pairs = words.mapToPair(word -> new Tuple2<>(word, 1));//统计并更新每个单词的历史出现次数JavaPairDStream<String, Integer> counts = pairs.updateStateByKey((values, state) -> {Integer newSum = state.or(0);for(Integer i :values) {newSum += i;}return Optional.of(newSum);});counts.print();jssc.start();jssc.awaitTermination();
}
转载于:https://my.oschina.net/forrest420/blog/501172
updateStateByKey--word count相关推荐
- Spark Streaming的Word Count
Spark Streaming的Word Count 需求&准备 图解 首先在linux服务器上安装nc工具 nc是netcat的简称,原本是用来设置路由器,我们可以利用它向某个端口发送数据 ...
- print (“{0:<10}{1:>5}“.format(word, count))
print ("{0:<10}{1:>5}".format(word, count)) 这个是format方法bai的格式控制.在duPython二级教程第三章< ...
- Word Count作业
Word Count作业 一.个人Gitee地址:https://gitee.com/Changyu-Guo 二.项目简介 该项目主要是模拟Linux上面的wc命令,基本要求如下: 命令格式: wc. ...
- 通过简单的Word Count讲解MapReduce原理以及Java实现
MapReduce原理: MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果 ...
- java mapreduce_通过简单的Word Count讲解MapReduce原理以及Java实现
MapReduce原理: MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果 ...
- java8写一个word count
题目背景 很多了解过大数据编程的基础的人都知道一个入门级程序:word count. 其计算思路是,将一串文本(一般都是英文文章),在java中表现出来就是一个字符串或者是一个文本(txt文件). 该 ...
- Word count通过mr实现China的编程
说明:该需求可以自己造数据,在条件允许的范围内,可模拟数据倾斜,通过加随机数,打散KEY的分布,再聚合 数据: pk,ccj,ccj zcl,pxj,zmj xwc,jpeson,wxc pxj,zm ...
- overleaf word count 字数统计 报错 解决办法
一.问题描述 毕业论文要统计全文字数,但是使用word count时报错,错误如下图,大意是找不到这几个文件. 后来推敲了一下,统计出来的六百多个字,大概就是原创声明和答辩委员会的字数,这两个文件可以 ...
- Spark 系列教程(1)Word Count
基本概要 Spark 是一种快速.通用.可扩展的大数据分析引擎,是基于内存计算的大数据并行计算框架.Spark 在 2009 年诞生于加州大学伯克利分校 AMP 实验室,2010 年开源,2014 年 ...
- MapReduce之Word Count案例代码实现
准备用于计算word count的数据文件 [root@hadoop01 test_data]# pwd /usr/local/wyh/test_data [root@hadoop01 test_da ...
最新文章
- 最强的篮球队和马尔可夫模型
- IBatis手动刷新缓存
- Ubuntu下Postgres安装与配置
- 使用Grunt搭建自动化的web前端开发环境-完整教程
- C#中使用资源文件保存图片和皮肤文件的使用
- hp-ux 单用户 启动_UX备忘单:搜索与浏览
- Redis:主从配置
- 在线HTML网页小窗口复制不了,教你一招:解决某些网页不能复制的文字的N种方法!...
- line划线计算机图像学,【计算机图形学】根本图形元素:直线的生成算法
- 3Dshader之球形环境映射(sphere environment mapping)
- dubbo源码解析-spi(一)
- Base64,DES,RSA,SHA1,MD5 笔记
- java基础总结02-语言基础
- java 打印素数_Java 素数打印
- 技术书籍也香艳-《Head First设计模式》第二版即将出版
- 百旺信云计算机中心,百旺信云数据中心机房介绍
- 浏览器-IE主页被篡改后修复
- 群晖NAS Git Server项目源代码管理 配置搭建
- JAVA实习生/应届生面试笔试题(一)
- 手机存储数据恢复软件哪个好用?试了10款,我只认准这一款!