加载刚才解析json格式存储而成的csv文件。

按用户所在单位分析

#导入积分落户人员名单数据
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('jifenluohu.csv')
#print(df)
df.createOrReplaceTempView("jflh")
#df.show()
#计算总数
spark.sql("select count(1) as num from jflh").show()
#按公司分组
spark.sql("select unit,count(1) as num from jflh group by unit order by num desc").show(50)
+----+
|num|
+----+
|6019|
+----++--------------------+---+
|unit|num|
+--------------------+---+
|北京华为数字技术有限公司|137|
|中央电视台|73|
|北京首钢建设集团有限公司|57|
|百度在线网络技术(北京)有限公司|55|
|联想(北京)有限公司|48|
|北京外企人力资源服务有限公司|40|
|中国民生银行股份有限公司|40|
|国际商业机器(中国)投资有限公司|39|
|中国国际技术智力合作有限公司|29|
|华为技术有限公司北京研究所|27|
|爱立信(中国)通信有限公司|26|
|腾讯科技(北京)有限公司|24|
|北京阿里巴巴云计算技术有限公司|23|
|用友软件股份有限公司|20|
|中国石油天然气股份有限公司管道北京...|20|
|中铁建工集团有限公司|19|
|中煤建设集团工程有限公司|17|
|微软(中国)有限公司|17|
|中信银行股份有限公司|17|
|甲骨文(中国)软件系统有限公司|16|
|西门子(中国)有限公司|16|
|北京市京才实业开发总公司|16|
|中国光大银行股份有限公司|16|
|中铁电气化局集团有限公司|15|
|中铁三局集团第四工程有限公司|15|
|中建二局安装工程有限公司|14|
|中煤建设集团有限公司|14|
|阿里巴巴(北京)软件服务有限公司|14|
|国际商业机器(中国)有限公司北京分公司|14|
|施耐德电气(中国)有限公司|14|
|北京四方继保自动化股份有限公司|14|
|百度时代网络技术(北京)有限公司|13|
|石化盈科信息技术有限责任公司|13|
|英特尔(中国)有限公司北京分公司|13|
|亚信科技(中国)有限公司|13|
|威睿信息技术(中国)有限公司|13|
|新华三技术有限公司北京研究所|12|
|中国国际金融股份有限公司|12|
|中国建筑第二工程局有限公司|12|
|一汽丰田汽车销售有限公司|12|
|阿里巴巴科技(北京)有限公司|12|
|北京京东尚科信息技术有限公司|11|
|诺基亚通信系统技术(北京)有限公司|11|
|华夏幸福基业股份有限公司北京管理咨...|11|
|中国石油天然气股份有限公司北京销售分公司|10|
|冠捷显示科技(中国)有限公司|10|
|北京铁路局|10|
|北京用友政务软件有限公司|10|
|瑞斯康达科技发展股份有限公司|10|
|华夏银行股份有限公司|9|
+--------------------+---+
onlyshowingtop50rows

用spark分析北京积分落户数据,按用户所在单位分析相关推荐

  1. 用spark分析北京积分落户数据,按用户身份证所在省份城市分析

    加载刚才解析json格式存储而成的csv文件. 按用户身份证所在省份城市分析 #导入积分落户人员名单数据 sqlContext = SQLContext(sc) df = sqlContext.rea ...

  2. python分析政策实施前后_使用Python分析北京积分落户数据,分析完我陷入了深思...

    北京积分落户制是北京市政协建议推行积分落户政策,以科技贡献.专业技能.在京时间等指标为考核项,计算非京籍人才的"积分",积分达标即可落户北京.也给了我们一众北漂希望,毕竟随着时间的 ...

  3. 使用Python分析北京积分落户数据,分析完我陷入了深思

    这是学习笔记的第 2183 篇文章 读完需要 9 分钟 速读仅需5分钟 北京积分落户制是北京市政协建议推行积分落户政策,以科技贡献.专业技能.在京时间等指标为考核项,计算非京籍人才的"积分& ...

  4. 《Spark商业案例与性能调优实战100课》第6课:商业案例之通过Spark SQL实现大数据电影用户行为分析

    <Spark商业案例与性能调优实战100课>第6课:商业案例之通过Spark SQL实现大数据电影用户行为分析 package com.dt.spark.sparksqlimport or ...

  5. Python采集3000条北京二手房数据,看我都分析出了啥?

    最近呢,对链家平台上的北京二手房数据做了个可视化分析,对目前北京的二手房交易情况有了个大致了解,最终得到一个很实在的结论:奋斗一辈子也买不到一个厕所这句话不是骗人的,是真的:关于具体分析内容请看下文 ...

  6. 毕设——电商产品评论数据的用户情感倾向分析

    1.主要研究内容包括:(1)在查阅国内外文献资料的基础上,了解电商产品评论数据情感分析关键技术流程及国内外研究现状:(2)采用网络爬虫工具(如八爪鱼采集器)采集评论数据,实现文本去重.压缩去词等文本评 ...

  7. 图表分析2020年和2018年北京积分落户数据

    一年一度的积分落户工作马上要开始了,刚好对于2020年的分数情况还做了一些统计,总体的感觉就是:水涨船高. 2020年10月15日,2019年北京积分落户人员名单出炉:最低分值93.58分,6007人 ...

  8. 利用python分析:2018年北京积分落户数据

    ''' 本次分析的数据是2018年北京积分落户数据分析 这个数据是从官网上下载下来的,因此此数据不存在数据缺失,不需要做数据清洗 本文是使用numpy.pandas和matplotlib来分析此数据 ...

  9. 北京积分落户2018年与2019年分析

    本月度的第一天也就是6月1号,北京交通委发布了<北京市小客车数量调控暂行规定(修订草案征求意见稿)>.<〈北京市小客车数量调控暂行规定〉实施细则(修订征求意见稿)>.<关 ...

最新文章

  1. dubbo接口测试_Django测试工具平台之Dubbo接口请求 + 前端
  2. python安装whl_EN-mysqlclient库安装问题
  3. 【GDOI2014模拟】旅行 题解代码
  4. 六大设计原则之迪米特法则
  5. T-SQL 实用函数总结
  6. Java企业面试算法新得体会之链表问题20问
  7. 【转】 一定要让孩子知道的20个小故事
  8. 爬虫headers参数
  9. DCOS到底是啥?看完这篇你就懂了
  10. IOS美图秀秀(滤镜和涂鸦)和 添加阴影功能
  11. RK3588平台开发系列讲解(文件系统篇)Linux 文件系统简介
  12. feign 传 MultipartFile Error converting request body 序列化 错误
  13. Servlet.service() for servlet SpringMVC threw exception ---- java.lang.NullPointerException
  14. python selenuim自动签到京东网页版
  15. RadiAnt DICOM Viewer 2021.1中文版
  16. 电脑桌面宠物-开机自启
  17. python中的max_row_基于row max定位条件列值
  18. Android 蓝牙开发(扫描设备、绑定、解绑)
  19. 聚合支付行业的基本情况
  20. 详解桂枝汤并说说流行的感冒偏方

热门文章

  1. Underlay和Overlay网络是什么
  2. 为什么有的东西能卖那么贵?
  3. 09-day6黑马javaweb笔记-html基础
  4. 【GNSS】GNSS原理:双频观测模型
  5. Android 自定义AlertDialog
  6. 滑步处理 - 让动画脚步和移位一致
  7. 个人小程序『小馒居』筹备中
  8. 最新省市区地区数据sql版本(2019年1月)
  9. 探索VGG网络与LeNet网络对精度的影响
  10. 什么牌子蓝牙耳机好?游戏党双十一最强蓝牙耳机选购清单