Part I:词频统计并返回topN

统计的文本数据:

what do you do
how do you do
how do you do
how are you

from operator import addfrom pyspark import SparkContextdef sort_t():sc = SparkContext(appName="testWC")data = sc.parallelize(["what do you do", "how do you do", "how do you do", "how are you"])result = data.flatMap(lambda x: x.split(" ")) \.map(lambda x: (x, 1)). \reduceByKey(add). \sortBy(lambda x: x[1], False).take(3)for k, v in result:print k, vif __name__ == '__main__':sort_t()

 

Part II:调用排序算法并返回topN

样本数据 numbers_data.txt:

15561
112
-40
51467112
234
8561
112
-34
53467111 121
2345 789 34
14561 -21
12112 101 100
-4 23
51467111
2434
15567
132
-14
51467111
237

  

from pyspark import SparkContextdef solve():sc = SparkContext(appName="Sort_test_example")lines = sc.textFile("../input/numbers_data.txt")results = lines.flatMap(lambda x: x.split(" ")) \.map(lambda x: (int(x), 1)) \.sortByKey(ascending=False).take(3)output = resultsfor (key, value) in output:print keyprint keyif __name__ == '__main__':
    solve()

注:若出现并列时,返回多个并列的数

转载于:https://www.cnblogs.com/SeaSky0606/p/7762703.html

pyspark进行词频统计并返回topN相关推荐

  1. python写wordcount_Python开发Spark应用之Wordcount词频统计

    一个早上只做了一点微小的工作,很忏愧.但是发现Spark这玩意还是蛮有意思的.下面给大家介绍一下如何用python跑一遍Wordcount的词频统计的示例程序. 在operator模块中导入add类f ...

  2. 用R语言做词频统计_R语言 | 词频统计

    Python网络爬虫与文本数据分析 本章内容 导入停用词 读数据,分词 剔除停用词 导入停用词表 library(dplyr) ## [1] "?" "." & ...

  3. Python_note6 组合数据类型+jieba库+文本词频统计

    集合类型和操作 集合元素不可修改,由不可变数据类型组成,元素不可重复 a = {"python",123,("python",123)}使用{}建立集合 b = ...

  4. 软工作业3: 词频统计

    词频统计 一.编译环境 (1)IDE:PyCharm 2018 (2)python版本:python3.6.3(Anaconda3-5.1.0  ) 二.程序分析 (1)读文件到缓冲区(process ...

  5. 【作业】组合数据类型练习,英文词频统计实例

    1.列表实例:由字符串创建一个作业评分列表,做增删改查询统计遍历操作.例如,查询第一个3分的下标,统计1分的同学有多少个,3分的同学有多少个等. 1 score = list('012332211') ...

  6. 软工作业3—词频统计

    一.案例课程分析 1.编译环境 pycharm2018.python3.7 2.读文件到缓存区(process_file(dst)) def process_file(dst): # 读文件到缓冲区 ...

  7. Python实例--文本词频统计

    最近在MOOC跟着北京理工大学的嵩天老师学习Python(https://www.icourse163.org/learn/BIT-268001?tid=1003243006#/learn/annou ...

  8. python 英语词频统计软件_Python数据挖掘——文本分析

    作者 | zhouyue65 来源 | 君泉计量 文本挖掘:从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程. 一.语料库(Corpus) 语料库是我们要分析的所有文档的集合. ...

  9. python 对excel文件进行分词并进行词频统计_python 词频分析

    python词频分析 昨天看到几行关于用 python 进行词频分析的代码,深刻感受到了 python 的强大之处.(尤其是最近自己为了在学习 c 语言感觉被它的语法都快搞炸了,python 从来没有 ...

最新文章

  1. 微软 CEO 纳德拉访谈:人工智能的大方向与未来是什么?
  2. CentOS 6 安装 Git
  3. Leetcode 220. 存在重复元素 III 解题思路及C++实现
  4. 离职人员防止删除文件域策略
  5. asp按钮跳转页面代码_重磅更新!全新Web编辑页面、编辑规则快速跳转、状态栏变色、富文本再次升级!...
  6. 18行代码解决:(C语言)L1-046 整除光棍 (20分)
  7. 深度学习 图像分类_深度学习时代您应该阅读的10篇文章了解图像分类
  8. shell softech 面料_求高人指点 猛犸象的SOFTECH面料和GTX PROSHELL面料哪个好
  9. linux取消头文件链接,【原创】Linux下编译链接中常见问题总结
  10. 产品管理系列(一)---优秀的产品经理所具有的素质 王泽宾
  11. web网页打印设计的CSS样式
  12. 教你一招!在Mac上使用自带的程序创建加密的文件磁盘
  13. svn server 配置 与TortoiseSVN、Ankhsvn+VS使用 及 问题
  14. c语言实现运输问题表上作业法,运输问题表上作业法
  15. 微信小程序使用iconfont在线icon
  16. ES6入门:模板字符串
  17. 9个关键词,2万字漫谈元宇宙
  18. 微信自动回复如何实现?用 Python 就可以
  19. javascriptji c z s
  20. 分析5 中值定理与Taylor公式

热门文章

  1. windows10重装系统鼠标键盘都没反应,解决办法
  2. 打印机上扫描出现连接计算机,佳能打印机上面有扫描打印机是干什么的 屏幕上面显示连接计算机 打印没反应是怎么回事...
  3. 无刷电机foc笔记2(V/F控制实现)
  4. GX works3软件新工程建立步骤
  5. 武汉大学计算机专业博士导师,武汉大学计算机学院博士生导师简介:袁志勇
  6. SAP中源清单自动无法生成的原因
  7. try-catch用法和含义
  8. Python 用turtle画房子
  9. 摊余成本法理解(转)
  10. 程序如何关联后缀为mte的文件