2019独角兽企业重金招聘Python工程师标准>>>

from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("My Spark Application").setMaster("local")
sc = SparkContext(conf=conf)
text = sc.textFile('/root/common_command/url_data.csv')
url_info = text.map(lambda line:line.split(","))
id_info = url_info.map(lambda fields:((fields[0], fields[1]),(fields[3])))
url_cnt = id_info.countByKey().items()
url_num = id_info.distinct().countByKey().items()
x = sc.parallelize(url_cnt)
y = sc.parallelize(url_num)
result = sorted(x.fullOuterJoin(y).collect())
print(result)
print("executed successfully!")

转载于:https://my.oschina.net/kyo4321/blog/1036721

spark做聚合计算相关推荐

  1. Spark GraphX图计算入门

    一.什么是图计算 图计算,可以简单理解为以图这种数据结构为基础,整合相关算法来实现对应应用的计算模型.社交网络中人与人之间的关系,如果用计算机数据结构表示,最合适的就是图了.其中图的顶点表示社交中的人 ...

  2. Spark Streaming 实时计算在甜橙金融监控系统中的应用、性能优化、任务监控

    1 写在前面 目前公司对实时性计算的需要及应用越来越多,本文选取了其中之一的 Spark Streaming 来介绍如何实现高吞吐量并具备容错机制的实时流应用.在甜橙金融监控系统项目中,需要对每天亿万 ...

  3. spark的流失计算模型_使用spark对sparkify的流失预测

    spark的流失计算模型 Churn prediction, namely predicting clients who might want to turn down the service, is ...

  4. 什么是spark的惰性计算?有什么优势?_spark——spark中常说RDD,究竟RDD是什么?

    本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是spark专题第二篇文章,我们来看spark非常重要的一个概念--RDD. 在上一讲当中我们在本地安装好了spark,虽然我们只有lo ...

  5. Spark精华问答 | Spark做大规模高性能数值计算可以吗?

    Spark作为一个用来实现快速而通用的集群计算的平台.扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,在处理大规模数据集的时候,速度是非常重要的.Spark的一个重要特点就是 ...

  6. Spark做数据分析:Spark大数据分析的优势

    Spark发展到今年,也已经有了十个年头了,在这十年的时间里,Spark在数据分析方面的优势得以显现,成为越来越多的企业的选择.Spark做数据分析,得益于Spark计算框架的优势,也获得了很好的竞争 ...

  7. spark大数据计算引擎原理深剖(优缺点)-spark简介

    用spark,你仅仅只是调用spark的API肯定是很low的. 今天来讲讲spark的原理,并且会针对部分源码进行讲解,如有不同意见请联系本人交流探讨. 目前大数据生态主要部分是Hadoop软件框架 ...

  8. pandas编写自定义函数计算多个数据列的加和(sum)、使用groupby函数和apply函数聚合计算分组内多个数据列的加和

    pandas编写自定义函数计算多个数据列的加和(sum).使用groupby函数和apply函数聚合计算分组内多个数据列的加和 目录

  9. Spark Streaming实时计算框架介绍

    随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐.用户行为分析等. Spark Streaming是建立在 ...

最新文章

  1. 我是架构师-设计模式-工厂模式-工厂方法
  2. AttributeError: module 'jwt' has no attribute 'ExpiredSignatureError'
  3. 白话设计模式——目录
  4. 在Asp.net core返回PushStream
  5. Windows 安装 MongoDB 和 可视化工具Robo3T
  6. 组态软件mcgs入库mysql_昆仑通态专题(四):MCGS嵌入版组态软件的数据报表
  7. 11个思维导图知识点整理帮你决胜考研(基础课和计算机专业课)| 寻找C站宝藏
  8. 使用HTML制作静态网站(圣诞节案例)
  9. FCM算法的matlab实现(Fuzzy C-means 算法)
  10. html 设置整体字体,html font标签如何设置字体样式
  11. 瑞利分布(Rayleigh Distribution)回顾
  12. 关于归并排序时间复杂度 T(n) =2T(n/2)+O(n)
  13. windows11磁盘分区步骤
  14. 无处不在的内存泄漏-苹果BUG?
  15. 计算机和人脑在线阅读,人脑与电脑课件.ppt
  16. aac格式怎么转换为MP3格式
  17. Android SDK 国内镜像
  18. 高速PCB 设计中终端匹配电阻的放置
  19. 树莓派3B学习资源链接——Ideas Deserve Spreading.
  20. Nachos系统调用的实现

热门文章

  1. 居里夫人为爱因斯坦写的推荐信(zz)
  2. 基于安卓的医院就诊丨医院挂号平台APP
  3. 如何用数组存储信息JAVA_从零自学Java-7.使用数组存储信息
  4. Win10 开启 Guest 或者 添加标准用户
  5. 平衡二叉树(AVL树)
  6. Signal ()函数用法和总结
  7. 自动取款机取款属于计算机应用,在自动取款机前取款时应该注意什么?
  8. 2021-06-06 SpringBoot 入门(五)组件添加(三) @Conditional条件装配
  9. 高并发之深度解析CAS [理论+案例+源码]
  10. python中imread什么意思_Python 中各种imread函数的区别与联系