1、Python项目PythonSparkWordCount

2、input目录里的文本文件test.txt

3、创建word_count.py文件实现词频统计

import os
import shutilfrom pyspark import SparkContextinputpath = 'input'
outputpath = 'result'sc = SparkContext('local', 'wordcount')# 读取文件
input = sc.textFile(inputpath)
# 切分单词
words = input.flatMap(lambda line: line.split(' '))
# 转换成键值对并计数
counts = words.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)# 输出结果
counts.foreach(print)# 删除输出目录
if os.path.exists(outputpath):shutil.rmtree(outputpath, True)# 将统计结果写入结果文件
counts.saveAsTextFile(outputpath)

运行程序,结果如下:

统计结果还保存在result目录下的part-00000文件里:

Spark案例:Python版统计单词个数相关推荐

  1. 转:Spark案例:Scala版统计单词个数

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/howard2005/article/d ...

  2. Spark案例:Java版统计单词个数

    1.Maven项目JavaSparkWordCount 2.在pom.xml里,添加对spark的依赖 <?xml version="1.0" encoding=" ...

  3. Spark案例:Scala版统计单词个数

    目录 1.创建Scala项目SparkScalaWordCount 2.创建lib目录,添加spark的jar,并添加作为项目的库

  4. python字典统计单词个数_python字典统计单词个数

    python 字典中的词频统计之后 如何将频数大于一个比如a出现了10次,b15次,c20次,d25次,CSS布局HTML小编今天和大家分享频数大于14的词的个数,应该v={} for i in di ...

  5. python输入一个英文句子 输出单词个数_编写程序,给出一个英文句子,统计单词个数。_学小易找答案...

    [简答题]叙述pass语句的作用. [简答题]吹风机不工作,可以用万用表检测吗?在网上搜索关键词,吹风机不工作怎么办? [单选题]以下代码运行结果正确的是哪一项?() x=2 if x:print(T ...

  6. python统计单词个数算法_python 统计单词个数和频次

    开始学习python,习题需要统计单词个数和频次.百度找到的代码好像都有问题.自己写了一个,调试通过. 环境:python: 3.9.1 64bit :  pycharm: 2020.2  电脑 wi ...

  7. python 统计单词个数和频次 和 70篇短文突破中考英语词汇 实用

    开始学习python,习题需要统计单词个数和频次.百度找到的代码好像都有问题.自己写了一个,调试通过. 环境:python: 3.9.1 64bit :  pycharm: 2020.2  电脑 wi ...

  8. hadoop 文本统计一个字符的个数_hadoop统计单词个数 - 卡饭网

    hadoop入门之统计单词在文件中出现的个数示例 hadoop入门之统计单词在文件中出现的个数示例 Linux环境:CentOs6.4 Hadoop版本:hadoop-0.20.2 内容:统计hado ...

  9. 开发可统计单词个数的Android驱动程序(2)

    开发可统计单词个数的Android驱动程序(1) 五.指定与驱动相关的信息 虽然指定这些信息不是必须的,但一个完整的Linux驱动程序都会指定这些与驱动相关的信息.一般需要为Linux驱动程序指定如下 ...

最新文章

  1. 键盘上每个键作用!!!
  2. [导入]日志 20071211(WCF,实验室产品)
  3. Mysql增加、删除和修改列属性和约束,和一些有用的查询语句
  4. C++ Primer 5th笔记(chap 16 模板和泛型编程)模板实参
  5. oracle别名作用范围,在Oracle的Where子句子查询中使用别名或表名,
  6. 微软并行编程类库Parallel Extensions初探 Part1
  7. oracle EBS grant 您不具有执行当前操作的足够权限。请与您的系统管理员联系。...
  8. 开关问题(模板+高斯消元)
  9. 电能储存系统行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  10. UVA10140 Prime Distance
  11. 修复Windows 7升级Windows 10后Japanese输入法无法使用的Bug
  12. 论文阅读|Pre-trained Models for Natural language Processing: A Survey
  13. linux段错误core dumped,段错误 (core dumped) 之 core文件
  14. 将java项目部署到腾讯云服务器
  15. 全面认识MOS管,一篇文章就够了
  16. ubuntu无法ping www.baidu.com问题
  17. 需求文档不明确,怎么处理?项目很紧急,也会写测试用例吗?
  18. 红米k30 允许调用gpu调试层_红米击败自家小米,夺得性能榜第四,红米K30 Pro究竟靠什么?...
  19. mysql对称_对于《由对称性解2
  20. 黑客攻防从入门到精通-手机安全篇

热门文章

  1. 收藏!数据建模最全知识体系解读
  2. 消息队列应用场景解析
  3. opengl学习笔记 (一)
  4. Kotlin学习笔记 第二章 类与对象 第十二 十三节 对象表达式与对象声明 类型别名
  5. java json 去除空_详解Java去除json数据中的null空值问题
  6. 关于Word2016敲入公式的新方法
  7. 例子---PHP与Form表单前导篇
  8. 二维动态规划降维误差一般为多少_动态规划--5道题入门
  9. python抽奖程序_Python编写抽奖式随机提问程序
  10. D5000工作站服务器型号,【戴尔Precision T5820参数】戴尔Precision T5820系列工作站参数-ZOL中关村在线...