/*1、统计文本中性别为“男”的用户数。

2、统计每个省(或直辖市)用户数。*/

package thisterm;
import java.util.ArrayList;
import java.util.List;import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;import scala.Tuple2;
/*1、统计文本中性别为“男”的用户数。2、统计每个省(或直辖市)用户数。*/
public class tongji {public static void main(String[] args) {SparkConf sparkConf = new SparkConf().setAppName("PeopleInfoCalculator").setMaster("local");JavaSparkContext sc = new JavaSparkContext(sparkConf);JavaRDD<String> rdd1 = sc.textFile("file:///home/gyq/下载/spark-2.3.2-bin-hadoop2.7/data/test.txt");//*是所有文件内容List<String> list=new ArrayList<String>();list.add("北京市");list.add("天津市");list.add("上海市");list.add("重庆市");JavaRDD<String> manrdd=rdd1.filter(f->f.contains("男"));//男性long a = manrdd.count();System.err.println("男性为"+a);JavaPairRDD<String,Integer> prdd1=rdd1.mapToPair(f->{//中国辽宁省,1) (中国 广东省,1)有这种东西存在return new Tuple2<>(f.split(",")[6].trim().replaceAll("[\\pP+~$`^=|<>~`$^+=|<>¥×]" , "").replaceAll("中国", "").trim().replaceAll("廣東省", "广东省").replaceAll("広東省", "广东省").replaceAll("廣西省", "广西省").replaceAll("辽省", "辽宁省").replaceAll("北京省", "北京市"),1);});JavaPairRDD<String,Integer> prdd5=prdd1.filter(f->((f._1.matches(".*省")||list.contains(f._1))&&!isNumeric(f._1));////(94省,1)有这种东西存在JavaPairRDD<String,Integer> rdd2=prdd5.reduceByKey((x,y)->x+y);rdd2.foreach(f->System.err.println(f));sc.stop();}static boolean isNumeric(String str) {//判读是否含有数字for (int i = str.length(); --i >= 0;) {int chr = str.charAt(i);if (chr > 48 && chr < 57)return true;}
return false;}
}

台湾是中国的省

1、统计文本中性别为“男”的用户数。2、统计每个省(或直辖市)用户数。相关推荐

  1. python单词个数统计_Python 统计文本中单词的个数

    1.读文件,通过正则匹配 def statisticWord(): line_number = 0 words_dict = {} with open (r'D:\test\test.txt',enc ...

  2. python统计单词出现次数最多的5个单词_【Python】统计文本中单词的出现次数前十的单词...

    代码: # 读取一个文本,并且统计文本中单词的出现次数 def read_file(): # 在windows环境中的编码问题,指定utf-8 with open('F:/python源码/实验区/0 ...

  3. 用python统计字母个数_python统计字母个数 python 统计文本中字母个数

    python 统计文本中字母个数 作业文件等有人回答小编再发,之前发文件被屏蔽了明明转身就有一个温馨的港湾,却偏偏还要去追逐那无望的孤船. l = 0with open('file.txt', 'r' ...

  4. python统计中英文字符_如何统计文本中的中英文字符数?Python帮你解决

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于小蚊子数据分析 ,作者小蚊子数据分析 代码 1import stri ...

  5. python中英文字频率_python实现统计文本中单词出现的频率详解

    本文实例为大家分享了python统计文本中单词出现频率的具体代码,供大家参考,具体内容如下 #coding=utf-8 import os from collections import Counte ...

  6. c语言统计输入文本不同字母单词数,统计文本中单词的个数

    ㈠ 统计一行文本的单词个数:输入一行字符,统计其中单词的个数.个单词之间用空格分隔,空格数可以是多个, 代码部分: #include int main() { int count=0; char te ...

  7. Python实现统计文本中各单词数量

    Python实现统计文本中各单词数量 代码 运行结果 代码 import strings = 'not talk,not helo show me your code hello helo' for ...

  8. python统计文件中每个单词出现的次数_python统计文本中每个单词出现的次数

    .python统计文本中每个单词出现的次数: #coding=utf-8 __author__ = 'zcg' import collections import os with open('abc. ...

  9. 借助vim统计文本中的字符串数目,行首字符串查询

    借助vim统计文本中的字符串数目 普通命令: :%s/pattern//gn pattern为要查询的字符串 技巧:当需要统计的字符串处于行首,且是其他字符串的子集时,可以考虑每行行首加一个特定字符, ...

最新文章

  1. MySQL数据库中的内置函数
  2. H3C Boot升级 Serial模式
  3. windows sftp工具_将SSH服务器映射成Windows网络驱动器
  4. 湖南工程师用中文编写操作系统,还发明了甲、乙、丙语言???
  5. 微信公众号点击菜单即可打开并登录微站的实现方法
  6. php创蓝253四要素认证_PHP下基于创蓝253接口的短信发送
  7. y2第一章 初始mybatis的上机3_MyBatis3.2.x从入门到精通之第一章
  8. PHPexcel实列
  9. 交换机的基本功能和应用就是集中连接网络设备
  10. Event and Delegate
  11. matlab拟合四次函数表达式,用matlab编写程序求以幂函数作基函数的3次、4次多项式的最小二乘曲线拟合,画出数据散点图及拟合曲线图...
  12. Dart入门—开发环境
  13. 分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例【转】
  14. Gesture APIs-Furthering Windows Mobile 6.5 Touch Gesture Framework
  15. 移动 web 1px 边框解决方案
  16. 在国外当程序员爽吗?
  17. 哈密顿图 哈密顿回路 哈密顿通路(Hamilton)
  18. SQL学习笔记(05)_JOIN的类型与用法
  19. AUTOCAD使用笔记
  20. 详解Python中的File(文件)操作

热门文章

  1. 3D美术职业晋级之路
  2. flex布局换行之后让底部一行左对齐
  3. 去除字符串的叠词:我我....我...我.要...要要...要学....学学..学.编..编编.编.程.程.程..程
  4. 人工智能前沿——随需应变的未来大脑
  5. 计算机远程用户屏蔽,怎么禁止Win7计算机被远程控制?
  6. linux emacs使用教程,在ubuntu下使用emacs编写C语言程序
  7. 36个JavaScript特效教程,学完即精通
  8. Transformer结构解读(Multi-Head Attention、AddNorm、Feed Forward)
  9. 漫画算法-学习笔记(02)
  10. 豆瓣阅读,真正的社会化阅读