加载刚才解析json格式存储而成的csv文件。

按用户身份证所在省份城市分析

#导入积分落户人员名单数据
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('jifenluohu.csv')
#print(df)
df.createOrReplaceTempView("jflh")
#df.show()
#按省份分析
#按省份倒序
spark.sql("select province,provincename,count(*) as num from jflh group by province,provincename order by num desc").show(30)
#按城市倒序
spark.sql("select city,cityname,count(*) as num from jflh group by city,cityname order by num desc").show(60)+--------+------------+---+
|province|provincename|num|
+--------+------------+---+
|      13|         河北省|894|
|      21|         辽宁省|484|
|      37|         山东省|445|
|      23|         黑龙江|444|
|      15|      内蒙古自治区|340|
|      14|         山西省|316|
|      41|         河南省|309|
|      22|         吉林省|309|
|      42|         湖北省|290|
|      12|         天津市|239|
|      51|        null|225|
|      32|         江苏省|210|
|      43|         湖南省|210|
|      61|         陕西省|207|
|      36|         江西省|191|
|      34|         安徽省|184|
|      62|         甘肃省|109|
|      11|         北京市| 97|
|      33|         浙江省| 90|
|      65|   新疆维吾尔族自治区| 80|
|      35|         福建省| 79|
|      64|     宁夏回族自治区| 51|
|      45|          广西| 44|
|      52|         贵州省| 40|
|      44|         广东省| 37|
|      63|         青海省| 34|
|      53|        null| 31|
|      31|         上海市| 18|
|      46|        null| 10|
|      50|        null|  1|
+--------+------------+---+
only showing top 30 rows+------+-----------+---+
|  city|   cityname|num|
+------+-----------+---+
|110108|     北京市海淀区| 70|
|230103| 黑龙江哈尔滨市南岗区| 64|
|150102|内蒙古呼和浩特市新城区| 60|
|220104|  吉林省长春市朝阳区| 58|
|120104|     天津市南开区| 48|
|420106|  湖北省武汉市武昌区| 38|
|130226|     河北省迁安县| 37|
|132801|       null| 36|
|130105| 河北省石家庄市新华区| 35|
|610103|  陕西省西安市碑林区| 35|
|420111|  湖北省武汉市洪山区| 31|
|620102|  甘肃省兰州市城关区| 30|
|610113|  陕西省西安市雁塔区| 28|
|140102|  山西省太原市南城区| 28|
|150203| 内蒙古包头市昆都伦区| 28|
|131082|     河北省三河市| 28|
|120102|     天津市河东区| 27|
|120106|     天津市红桥区| 27|
|130102| 河北省石家庄市长安区| 26|
|132402|     河北省涿州市| 26|
|150204|  内蒙古包头市青山区| 25|
|120103|     天津市河西区| 25|
|410105|  河南省郑州市金水区| 25|
|210102|  辽宁省沈阳市和平区| 24|
|130702| 河北省张家口市桥东区| 23|
|140104|  山西省太原市河西区| 21|
|140103|  山西省太原市北城区| 21|
|132430|       null| 21|
|130302| 河北省秦皇岛市海港区| 20|
|410103|  河南省郑州市二七区| 20|
|130206|   河北省唐山市新区| 20|
|130203|  河北省唐山市路北区| 20|
|230102| 黑龙江哈尔滨市道里区| 19|
|130104| 河北省石家庄市桥西区| 19|
|210103|  辽宁省沈阳市沈河区| 19|
|120105|     天津市河北区| 19|
|140202|   山西省大同市城区| 19|
|210302|  辽宁省鞍山市铁东区| 18|
|120101|     天津市和平区| 18|
|142401|     山西省榆次市| 18|
|152601|     内蒙古集宁市| 17|
|130403|  河北省邯郸市丛台区| 17|
|130402|  河北省邯郸市邯山区| 17|
|370102|  山东省济南市历下区| 17|
|210105|  辽宁省沈阳市皇姑区| 16|
|130103| 河北省石家庄市桥东区| 16|
|130703| 河北省张家口市桥西区| 15|
|420107|  湖北省武汉市青山区| 15|
|120225|      天津市蓟县| 15|
|340104|  安徽省合肥市西市区| 15|
|410305|  河南省洛阳市涧西区| 15|
|230602| 黑龙江大庆市萨尔图区| 14|
|150302| 内蒙古乌海市海勃湾区| 14|
|210204| 辽宁省大连市沙河口区| 14|
|210703|  辽宁省锦州市凌河区| 14|
|210106|  辽宁省沈阳市铁西区| 14|
|210104|  辽宁省沈阳市大东区| 14|
|220102|  吉林省长春市南关区| 14|
|222401|     吉林省延吉市| 13|
|120109|     天津市大港区| 13|
+------+-----------+---+
only showing top 60 rows

用spark分析北京积分落户数据,按用户身份证所在省份城市分析相关推荐

  1. 用spark分析北京积分落户数据,按用户所在单位分析

    加载刚才解析json格式存储而成的csv文件. 按用户所在单位分析 #导入积分落户人员名单数据 sqlContext = SQLContext(sc) df = sqlContext.read.for ...

  2. python分析政策实施前后_使用Python分析北京积分落户数据,分析完我陷入了深思...

    北京积分落户制是北京市政协建议推行积分落户政策,以科技贡献.专业技能.在京时间等指标为考核项,计算非京籍人才的"积分",积分达标即可落户北京.也给了我们一众北漂希望,毕竟随着时间的 ...

  3. 使用Python分析北京积分落户数据,分析完我陷入了深思

    这是学习笔记的第 2183 篇文章 读完需要 9 分钟 速读仅需5分钟 北京积分落户制是北京市政协建议推行积分落户政策,以科技贡献.专业技能.在京时间等指标为考核项,计算非京籍人才的"积分& ...

  4. 《Spark商业案例与性能调优实战100课》第6课:商业案例之通过Spark SQL实现大数据电影用户行为分析

    <Spark商业案例与性能调优实战100课>第6课:商业案例之通过Spark SQL实现大数据电影用户行为分析 package com.dt.spark.sparksqlimport or ...

  5. 使用EEGLAB分析脑电数据,情绪图片的ERP成分分析

    使用EEGLAB分析脑电数据,情绪图片的ERP成分分析,超级详细,从头到尾,ERP分析看这一篇就够了(小菜狗的絮絮叨叨) 一共分为6组图片,每张图片出现2s后有0.5s的间隔,每组图片中有20s间隔. ...

  6. java获取用户的所在省份、城市的接口

    java获取用户的所在省份.城市的接口代码分享 解决方法: 1.以下是调用第三方接口获取用户地理位置信息的代码: private static void getlocation() { URL url ...

  7. 图表分析2020年和2018年北京积分落户数据

    一年一度的积分落户工作马上要开始了,刚好对于2020年的分数情况还做了一些统计,总体的感觉就是:水涨船高. 2020年10月15日,2019年北京积分落户人员名单出炉:最低分值93.58分,6007人 ...

  8. 利用python分析:2018年北京积分落户数据

    ''' 本次分析的数据是2018年北京积分落户数据分析 这个数据是从官网上下载下来的,因此此数据不存在数据缺失,不需要做数据清洗 本文是使用numpy.pandas和matplotlib来分析此数据 ...

  9. 大数据学情分析_大数据背景下的大学生学情分析研究

    宋承云 张琼敏 石美凤 厉华杰 摘 要:"学情分析"是教学活动的基本环节,也是教学研究的基本内容.在我国大学生教育从"量"到"质"转型的背景 ...

最新文章

  1. 安装很久_快看啦!吊轨推拉门安装图解在这里。
  2. 可以获取python整数类型帮助的是什么-PYthon如何把一个字符串类型转换为整数类型?...
  3. 【数字信号处理】序列傅里叶变换 ( 基本序列的傅里叶变换 | 求 a^nu(n) 的傅里叶变换 )
  4. P2597 [ZJOI2012]灾难(倍增LCA+拓扑排序)
  5. 身份证明检索失败,如何解决?
  6. python D28 粘包
  7. PL/SQL Developer远程连接Oracle数据库
  8. Android开发中遇到的问题(四)——Android中WARNING: Application does not specify an API level requirement!的解决方法
  9. mfc 学习的第二天
  10. 四位七段数码管pcb_BlockPi入门教程——数码管
  11. win7重新安装后删除文件权限不够(小技巧)
  12. 电脑网络wifi图标消失,图标变成灰色的解决办法之一
  13. zabbix_proxy代理服务器搭建教程
  14. 普通人存多少钱才能不焦虑?
  15. 「Adobe国际认证」运用“对象选择”工具,在PS中快速建立选区
  16. Android Studio download fastutil-7.2.0.jar下载依赖包超时问题
  17. 人体解剖学标本长廊的构成、管理及其优势
  18. 加载页面前执行js脚本,实现浏览器指纹变更
  19. linux亦步亦趋(19)文件管理之VI配置全局化
  20. Unity - But the dll is not allowed to be included or could not be found 打包时错误提示的解决方法

热门文章

  1. C++ 模板类和友元
  2. TCP 协议(序号和确认号)
  3. STM32中BOOT模式配置的作用
  4. OpenCV-趣味小游戏-手掌击球
  5. 生产者消费模型-管程法
  6. 天荒地老修仙功-第六部:Spring Cloud Eureka——服务发现
  7. Markdown语法教程
  8. js距离单位换算_javascript实现的平方米、亩、公顷单位换算小程序
  9. 3U VPX T2080通信处理板卡
  10. airpods二代降噪吗_小白初次入手AirPods,究竟有怎样的体验呢?