multiply

from pyspark import SparkConf, SparkContext
sc = SparkContext()
# 累乘
nums = sc.parallelize([1, 2, 3 ,4, 5])
mult = nums.fold(1,  (lambda x, y : x *y))
print(mult)
120
# 累加
accumulate = nums.fold(0, (lambda x, y : x + y))
print(accumulate)
15

sort_by key

! cat ./data.txt
crazy crazy fox jumped
crazy for jumped
fox is fast
fox is smart
dog is smart
lines = sc.textFile('data.txt', 1)
lines.collect()
['crazy crazy fox jumped','crazy for jumped','fox is fast ','fox is smart','dog is smart']
# 词频统计
# flatMap :展平嵌套的可迭代对象
frequencies = lines.flatMap(lambda x : x.split(' ')).map(lambda x : (x, 1)).reduceByKey(lambda x, y : x +y)
frequencies.collect()
[('crazy', 3),('fox', 3),('jumped', 2),('for', 1),('is', 3),('fast', 1),('', 1),('smart', 2),('dog', 1)]
frequencies.count()
9
lines.flatMap(lambda x : x.split(' ')).collect()
['crazy','crazy','fox','jumped','crazy','for','jumped','fox','is','fast','','fox','is','smart','dog','is','smart']
lines.flatMap(lambda x : x.split(' ')).map(lambda x : (x, 1)).collect()
[('crazy', 1),('crazy', 1),('fox', 1),('jumped', 1),('crazy', 1),('for', 1),('jumped', 1),('fox', 1),('is', 1),('fast', 1),('', 1),('fox', 1),('is', 1),('smart', 1),('dog', 1),('is', 1),('smart', 1)]
lines.collect()
['crazy crazy fox jumped','crazy for jumped','fox is fast ','fox is smart','dog is smart']
lines.flatMap(lambda x : x.split(' ')).map(lambda x : (x, 1)).reduceByKey(lambda x, y : x + y).collect()
[('crazy', 3),('fox', 3),('jumped', 2),('for', 1),('is', 3),('fast', 1),('', 1),('smart', 2),('dog', 1)]

sum

nums = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8])
Sum = nums.fold(0, (lambda x, y : x+y))print(Sum)
36

union

r1 = sc.parallelize([('k1', 1), ('k2', 2), ('k3', 3)])
r2 = sc.parallelize([('k1', 3), ('k2', 4), ('k4', 8)])
r3 = r1.union(r2)print('r3 :', r3.collect())r4 = r3.reduceByKey(lambda x, y : x + y)print('r4 :', r4.collect())
r3 : [('k1', 1), ('k2', 2), ('k3', 3), ('k1', 3), ('k2', 4), ('k4', 8)]
r4 : [('k1', 4), ('k3', 3), ('k4', 8), ('k2', 6)]

Word frequency

!cat './data.txt'
crazy crazy fox jumped over the fence
crazy fox jumped
the fence is high of fox
crazy fox is smart
fox jumped very high
lines2 = sc.textFile('./data.txt')
print(lines2.collect())
['crazy crazy fox jumped over the fence', 'crazy fox jumped', 'the fence is high of fox', 'crazy fox is smart', 'fox jumped very high']
lines2 = lines.map(lambda x : x.split(' '))
print('lines2 is :')
print(lines2.collect())
lines2 is :
[['crazy', 'crazy', 'fox', 'jumped', 'over', 'the', 'fence'], ['crazy', 'fox', 'jumped'], ['the', 'fence', 'is', 'high', 'of', 'fox']]
bigrams_list  = lines2.fold([], lambda x ,y : x+y)
bigrams_list = sc.parallelize(bigarms_list)
print('bigrams list :')
print(bigrams_list.collect())
bigarms list :
['crazy', 'crazy', 'fox', 'jumped', 'over', 'the', 'fence', 'crazy', 'fox', 'jumped', 'the', 'fence', 'is', 'high', 'of', 'fox']
word_counts = bigrams_list.map(lambda x : (x, 1)).reduceByKey(lambda x, y: x+y)n_words = word_counts.count()
word_frequency =word_counts.map(lambda x : (x[0],float(x[1]/n_words)))
print('word frequency')
print(word_frequency.collect())
word frequency
[('crazy', 0.3333333333333333), ('of', 0.1111111111111111), ('jumped', 0.2222222222222222), ('high', 0.1111111111111111), ('fence', 0.2222222222222222), ('fox', 0.3333333333333333), ('over', 0.1111111111111111), ('is', 0.1111111111111111), ('the', 0.2222222222222222)]

pyspark:basic_operating_1相关推荐

  1. pyspark汇总小结

    20220402 Spark报Total size of serialized results of 12189 tasks is bigger than spark.driver.maxResult ...

  2. spark- PySparkSQL之PySpark解析Json集合数据

    PySparkSQL之PySpark解析Json集合数据 数据样本 12341234123412342|asefr-3423|[{"name":"spark", ...

  3. jupyter笔记本_如何为Jupyter笔记本电脑设置PySpark

    jupyter笔记本 by Tirthajyoti Sarkar 由Tirthajyoti Sarkar 如何为Jupyter笔记本电脑设置PySpark (How to set up PySpark ...

  4. 手把手教你实现PySpark机器学习项目——回归算法

    作者 | hecongqing 来源 | AI算法之心(ID:AIHeartForYou) [导读]PySpark作为工业界常用于处理大数据以及分布式计算的工具,特别是在算法建模时起到了非常大的作用. ...

  5. pyspark常用API

    union 和unionall union 纵向合并dataframe In this Spark article, you will learn how to union two or more d ...

  6. 利用PySpark进行迁移学习的多类图像分类

    在本文中,我们将演示计算机视觉问题,它具有结合两种最先进技术的能力:深度学习和Apache Spark.我们将利用深度学习管道的强大功能来解决多类图像分类问题. PySpark 是 Spark 为 P ...

  7. pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据

    pyspark dataframe数据连接(join).转化为pandas dataframe.基于多个字段删除冗余数据 目录 pyspark dataframe数据连接(join).转化为panda ...

  8. 基于关联规则(Variational Autoencoders)疾病预测系统实战:(pyspark FPGrowth实现频繁项集挖掘、最后给出预测模型topK准确率和召回率)

    基于关联规则(Variational Autoencoders)疾病预测系统实战:(pyspark FPGrowth实现频繁项集挖掘.最后给出预测模型topK准确率和召回率) 目录

  9. pyspark sparksession_pyspark中的行列互转

    行列互转在数据分析与挖掘中是经常遇到的问题,这篇文章总结了pyspark中行列互转的方法,首先我们先创建测试数据集. from 列转行 pivot 实现 透视操作简单直接,逻辑如下 按照不需要转换的字 ...

  10. 独家 | 一文读懂PySpark数据框(附实例)

    作者:Kislay Keshari 翻译:季洋 校对:倪骁然 本文约1900字,建议阅读8分钟. 本文中我们将探讨数据框的概念,以及它们如何与PySpark一起帮助数据分析员来解读大数据集. 数据框是 ...

最新文章

  1. swift语言 数组定义_Swift3中数组创建方法
  2. list转datatable
  3. python写机器人程序_用Python写的一个多线程机器人聊天程序
  4. 使用 C# 9 的records作为强类型ID - 初次使用
  5. Build 2018大会:.NET概述和路线图
  6. java scrollpane源码_JScrollPane用法 Java实例
  7. epoll或者kqueue的原理是什么?
  8. JDBC中使用PreparedStatement执行SQL语句并管理结果集
  9. 手游传奇刷元宝_传奇手游 平民制霸刀刀爆元宝!
  10. C语言分治算法求中位数,【算法复习】分治算法
  11. spring整合cxf,轻松编写webService客户端、服务端
  12. python 编码报错问题 'ascii' codec can't encode characters 解决方法
  13. 神奇的mysql查询
  14. StanfordDB class自学笔记 (5) JSON Data
  15. Introduction to Computer Networking学习笔记(十一):flow control 滑动窗口详解
  16. 解决ichat模块调用过程中——登录微信网页版失败的方法
  17. 透视相机怎么得到正交效果
  18. Xcelsius 2008和Crystal Xcelsius Professional 4.5截图对比
  19. PKUSC 2018 游记
  20. MAC通过ZOC远程访问Linux

热门文章

  1. Linux 测试端口是否 ping 的方法
  2. Annotation-specified bean name ‘mapper‘ for bean class [com.thoughtworks.xstream.mapper.Mapper] conf
  3. VisualVM安装,插件安装,各个面板信息讲解
  4. Android意图Intent总结(隐式意图,显示意图,意图数据传递,意图数据回传)
  5. uniapp —— 配合腾讯地图实现小程序自动定位
  6. 类k-均值算法无法解决非簇状分布的数据聚类问题_无监督机器学习中,有哪些最常见的聚类算法?...
  7. 什么是反射,为什么要用反射,反射的知识讲解
  8. axure产品原型图,元件库导入方法
  9. JavaScript面向对象学习小结
  10. Spring.net 容器注入是替换(后处理器appConfigPropertyHolder)