用spark分析北京积分落户数据,按用户身份证所在省份城市分析
加载刚才解析json格式存储而成的csv文件。
按用户身份证所在省份城市分析
#导入积分落户人员名单数据
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('jifenluohu.csv')
#print(df)
df.createOrReplaceTempView("jflh")
#df.show()
#按省份分析
#按省份倒序
spark.sql("select province,provincename,count(*) as num from jflh group by province,provincename order by num desc").show(30)
#按城市倒序
spark.sql("select city,cityname,count(*) as num from jflh group by city,cityname order by num desc").show(60)+--------+------------+---+
|province|provincename|num|
+--------+------------+---+
| 13| 河北省|894|
| 21| 辽宁省|484|
| 37| 山东省|445|
| 23| 黑龙江|444|
| 15| 内蒙古自治区|340|
| 14| 山西省|316|
| 41| 河南省|309|
| 22| 吉林省|309|
| 42| 湖北省|290|
| 12| 天津市|239|
| 51| null|225|
| 32| 江苏省|210|
| 43| 湖南省|210|
| 61| 陕西省|207|
| 36| 江西省|191|
| 34| 安徽省|184|
| 62| 甘肃省|109|
| 11| 北京市| 97|
| 33| 浙江省| 90|
| 65| 新疆维吾尔族自治区| 80|
| 35| 福建省| 79|
| 64| 宁夏回族自治区| 51|
| 45| 广西| 44|
| 52| 贵州省| 40|
| 44| 广东省| 37|
| 63| 青海省| 34|
| 53| null| 31|
| 31| 上海市| 18|
| 46| null| 10|
| 50| null| 1|
+--------+------------+---+
only showing top 30 rows+------+-----------+---+
| city| cityname|num|
+------+-----------+---+
|110108| 北京市海淀区| 70|
|230103| 黑龙江哈尔滨市南岗区| 64|
|150102|内蒙古呼和浩特市新城区| 60|
|220104| 吉林省长春市朝阳区| 58|
|120104| 天津市南开区| 48|
|420106| 湖北省武汉市武昌区| 38|
|130226| 河北省迁安县| 37|
|132801| null| 36|
|130105| 河北省石家庄市新华区| 35|
|610103| 陕西省西安市碑林区| 35|
|420111| 湖北省武汉市洪山区| 31|
|620102| 甘肃省兰州市城关区| 30|
|610113| 陕西省西安市雁塔区| 28|
|140102| 山西省太原市南城区| 28|
|150203| 内蒙古包头市昆都伦区| 28|
|131082| 河北省三河市| 28|
|120102| 天津市河东区| 27|
|120106| 天津市红桥区| 27|
|130102| 河北省石家庄市长安区| 26|
|132402| 河北省涿州市| 26|
|150204| 内蒙古包头市青山区| 25|
|120103| 天津市河西区| 25|
|410105| 河南省郑州市金水区| 25|
|210102| 辽宁省沈阳市和平区| 24|
|130702| 河北省张家口市桥东区| 23|
|140104| 山西省太原市河西区| 21|
|140103| 山西省太原市北城区| 21|
|132430| null| 21|
|130302| 河北省秦皇岛市海港区| 20|
|410103| 河南省郑州市二七区| 20|
|130206| 河北省唐山市新区| 20|
|130203| 河北省唐山市路北区| 20|
|230102| 黑龙江哈尔滨市道里区| 19|
|130104| 河北省石家庄市桥西区| 19|
|210103| 辽宁省沈阳市沈河区| 19|
|120105| 天津市河北区| 19|
|140202| 山西省大同市城区| 19|
|210302| 辽宁省鞍山市铁东区| 18|
|120101| 天津市和平区| 18|
|142401| 山西省榆次市| 18|
|152601| 内蒙古集宁市| 17|
|130403| 河北省邯郸市丛台区| 17|
|130402| 河北省邯郸市邯山区| 17|
|370102| 山东省济南市历下区| 17|
|210105| 辽宁省沈阳市皇姑区| 16|
|130103| 河北省石家庄市桥东区| 16|
|130703| 河北省张家口市桥西区| 15|
|420107| 湖北省武汉市青山区| 15|
|120225| 天津市蓟县| 15|
|340104| 安徽省合肥市西市区| 15|
|410305| 河南省洛阳市涧西区| 15|
|230602| 黑龙江大庆市萨尔图区| 14|
|150302| 内蒙古乌海市海勃湾区| 14|
|210204| 辽宁省大连市沙河口区| 14|
|210703| 辽宁省锦州市凌河区| 14|
|210106| 辽宁省沈阳市铁西区| 14|
|210104| 辽宁省沈阳市大东区| 14|
|220102| 吉林省长春市南关区| 14|
|222401| 吉林省延吉市| 13|
|120109| 天津市大港区| 13|
+------+-----------+---+
only showing top 60 rows
用spark分析北京积分落户数据,按用户身份证所在省份城市分析相关推荐
- 用spark分析北京积分落户数据,按用户所在单位分析
加载刚才解析json格式存储而成的csv文件. 按用户所在单位分析 #导入积分落户人员名单数据 sqlContext = SQLContext(sc) df = sqlContext.read.for ...
- python分析政策实施前后_使用Python分析北京积分落户数据,分析完我陷入了深思...
北京积分落户制是北京市政协建议推行积分落户政策,以科技贡献.专业技能.在京时间等指标为考核项,计算非京籍人才的"积分",积分达标即可落户北京.也给了我们一众北漂希望,毕竟随着时间的 ...
- 使用Python分析北京积分落户数据,分析完我陷入了深思
这是学习笔记的第 2183 篇文章 读完需要 9 分钟 速读仅需5分钟 北京积分落户制是北京市政协建议推行积分落户政策,以科技贡献.专业技能.在京时间等指标为考核项,计算非京籍人才的"积分& ...
- 《Spark商业案例与性能调优实战100课》第6课:商业案例之通过Spark SQL实现大数据电影用户行为分析
<Spark商业案例与性能调优实战100课>第6课:商业案例之通过Spark SQL实现大数据电影用户行为分析 package com.dt.spark.sparksqlimport or ...
- 使用EEGLAB分析脑电数据,情绪图片的ERP成分分析
使用EEGLAB分析脑电数据,情绪图片的ERP成分分析,超级详细,从头到尾,ERP分析看这一篇就够了(小菜狗的絮絮叨叨) 一共分为6组图片,每张图片出现2s后有0.5s的间隔,每组图片中有20s间隔. ...
- java获取用户的所在省份、城市的接口
java获取用户的所在省份.城市的接口代码分享 解决方法: 1.以下是调用第三方接口获取用户地理位置信息的代码: private static void getlocation() { URL url ...
- 图表分析2020年和2018年北京积分落户数据
一年一度的积分落户工作马上要开始了,刚好对于2020年的分数情况还做了一些统计,总体的感觉就是:水涨船高. 2020年10月15日,2019年北京积分落户人员名单出炉:最低分值93.58分,6007人 ...
- 利用python分析:2018年北京积分落户数据
''' 本次分析的数据是2018年北京积分落户数据分析 这个数据是从官网上下载下来的,因此此数据不存在数据缺失,不需要做数据清洗 本文是使用numpy.pandas和matplotlib来分析此数据 ...
- 大数据学情分析_大数据背景下的大学生学情分析研究
宋承云 张琼敏 石美凤 厉华杰 摘 要:"学情分析"是教学活动的基本环节,也是教学研究的基本内容.在我国大学生教育从"量"到"质"转型的背景 ...
最新文章
- 安装很久_快看啦!吊轨推拉门安装图解在这里。
- 可以获取python整数类型帮助的是什么-PYthon如何把一个字符串类型转换为整数类型?...
- 【数字信号处理】序列傅里叶变换 ( 基本序列的傅里叶变换 | 求 a^nu(n) 的傅里叶变换 )
- P2597 [ZJOI2012]灾难(倍增LCA+拓扑排序)
- 身份证明检索失败,如何解决?
- python D28 粘包
- PL/SQL Developer远程连接Oracle数据库
- Android开发中遇到的问题(四)——Android中WARNING: Application does not specify an API level requirement!的解决方法
- mfc 学习的第二天
- 四位七段数码管pcb_BlockPi入门教程——数码管
- win7重新安装后删除文件权限不够(小技巧)
- 电脑网络wifi图标消失,图标变成灰色的解决办法之一
- zabbix_proxy代理服务器搭建教程
- 普通人存多少钱才能不焦虑?
- 「Adobe国际认证」运用“对象选择”工具,在PS中快速建立选区
- Android Studio download fastutil-7.2.0.jar下载依赖包超时问题
- 人体解剖学标本长廊的构成、管理及其优势
- 加载页面前执行js脚本,实现浏览器指纹变更
- linux亦步亦趋(19)文件管理之VI配置全局化
- Unity - But the dll is not allowed to be included or could not be found 打包时错误提示的解决方法