作者 | 石头哥

来源 | 程序猿石头(id:tangleithu)

图 by:石头@泸沽湖

背景

就在昨天,一年一度的北京积分落户结果出来了,我们照旧来看看今年(2020年)的数据情况。

在看这篇文章之前,你可以通过如下文章来得到石头是如何快速拿到这些数据分析结果的:

  • 优秀的程序员是如何利用工具来提升工作效率的?

  • Shell 助力开发效率提升

  • 提升开发效率N倍的20+命令行神器!(附 demo)

数据可以通过北京市人力资源和社会保障局官方网站下载获取,关于2020年积分落户公示及落户办理有关工作的通告。公示名单 形如:

2020 年积分落户公式名单

点击每一项明细可以获得积分具体数值,以最高分为例:

2020积分落户最高分明细

然后,稍微动点小技巧即可获取完整的 6032 条记录。

数据分析

输入就是下载处理后的 csv,每行分别为“姓名、出生年月、单位名称、积分分值”。

本文将从 积分分数分布、公司分布、年龄分布 等几个方面做简单分析。

2020年积分落户数据 CSV

分数分布

我们来看看积分分布情况,大部分人积分分布在 97~102 分之间。这个分数虽然没有高考相差那么夸张,但一个 0.01 也能相差不少人,比如有 98 人都得了 97.5 分。98.17 有 39 人,少 0.01 的 98.16 有 21 人。

 1➜  积分落户2020数据分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1  | head -n 102  98 97.503  84 97.254  80 97.335  73 97.176  72 97.217  67 98.508  66 98.009  61 97.46
10  57 98.46
11  54 97.13
12➜  积分落户2020数据分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1  | grep 98.17
13  39 98.17
14➜  积分落户2020数据分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1  | grep 98.16
15  21 98.16
16➜  积分落户2020数据分析 git:(master) ✗ 

2020 年北京积分落户积分分布

按照上次《首批积分落户数据分析》的老规矩,拿到这个文件,比如希望你用最快的方法获得以下信息,你将会怎么做?

  • 获取取得户口名额最多的top10公司

  • 获取取得户口名额的人中姓氏最多的

  • 获取年龄分布

当然,方法有很多,比如熟悉各种编程语言的,例如  Python, Php, Java 等等写个简单的脚本程序,也能比较快获取答案。或者把相应的数据提取出来,放到 Excel 中也可以。

如果你对 Shell 很熟悉,那真的是分分钟,应该是秒秒钟就能获取答案。本文不对 Shell 具体每个命令做过多的解释,不熟悉的同学可以直接 man $cmd 或者 $cmd --help 等等查看。

之前我也写过一篇名叫《Shell 助力开发效率提升》的文章,算是给常用的命令的常用参数做了一个解释和示例,有兴趣的同学可以前往查阅。显然这次的输入数据比上次《首批的 json 数据》更简单。

获取取得户口名额最多的top10公司

直接 awk 得到公司名字,对结果进行 sort 排序进行去重 uniq 统计得到重复次数,次时结果为重复次数 公司名,再对第一列-k 1重复数字进行按照数字排序逆序-nr 即 sort -nr -k 1,最后取结果的前10行 head -n 10。

 1➜  首批积分落户  > grep 'unit' jifenluohu.json| cut -f2 -d: | sort | uniq -c | sort -nr -k 1 | head -n 102 137  "北京华为数字技术有限公司"3  73  "中央电视台"4  57  "北京首钢建设集团有限公司"5  55  "百度在线网络技术(北京)有限公司"6  48  "联想(北京)有限公司"7  40  "北京外企人力资源服务有限公司"8  40  "中国民生银行股份有限公司"9  39  "国际商业机器(中国)投资有限公司"
10  29  "中国国际技术智力合作有限公司"
11  27  "华为技术有限公司北京研究所"
12
13  ➜  积分落户2020数据分析 git:(master) ✗ awk '{print $4}' 10000.csv |sort | uniq -c | sort -nr -k 1 | head -n 10
14 112 北京华为数字技术有限公司
15  71 中央电视台
16  28 北京外企人力资源服务有限公司
17  28 华为技术有限公司北京研究所
18  27 中国石油天然气股份有限公司管道北京输油气分公司
19  27 北京首钢建设集团有限公司
20  24 中国建筑第二工程局有限公司
21  24 腾讯科技(北京)有限公司
22  24 联想(北京)有限公司
23  23 中国新华航空集团有限公司

对比上次的结果看, “华为” 又是榜首,中央电视台又位列第二,百度下去了,腾讯起来了。(“北京外企人力资源服务有限公司”)挂靠在 FESCO 下的外企,仍然挤进前 10 了。

以下是有户口指标前 50 的公司分布,快看看你的公司是否在榜(完整公司排名名单请后台回复“2020积分落户”获取)。

2020年北京积分落户公司分布

获取取得户口名额的人中姓氏最多的

看看想通过积分落户,最好是姓啥,哈哈

看结果还是姓 "张, 王" 之类的最有戏。????

 1➜  首批积分落户  > grep '"name":' jifenluohu.json| sed 's|"name": "||g' | sed 's| ||g' | cut -c 1 | sort | uniq -c | sort -nr -k 1 | head -n 102 541 张3 531 王4 462 李5 376 刘6 205 陈7 193 杨8 166 赵9 132 孙
10  95 郭
11  95 徐
12
13➜  积分落户2020数据分析 git:(master) ✗ awk '{print $2}' 10000.csv |cut -c 1 | sort | uniq -c | sort -nr -k 1 | head -n 10
14 553 王
15 477 李
16 457 张
17 369 刘
18 173 陈
19 168 杨
20 165 赵
21 126 孙
22 114 周
23 100 吴

对比这个数据,才发现真的是很牛 X,前 10 名的姓氏中,只有两个不一样。估计这是否也符合整个中国的姓氏?哪里能拿到这部分数据?可以验证一下。

2020北京积分落户姓氏分布

为了把石头的姓氏“唐”找出来,取了前 50 个,发现像平时不怎么常见的姓氏还能入围前 50,还是很有意思的呢。比如“于”、“丁”等。

获取户口名字中叫啥名最流行

这个数据没啥有意思的结论就不给了,看看重名的数据吧

 1➜  积分落户2020数据分析 git:(master) ✗ awk '{print $2}' 10000.csv  | sort | uniq -c | sort -nr -k 1 | head -n 102   9 王鹏3   6 王伟4   6 张颖5   5 赵静6   5 石磊7   5 王琳8   5 王燕9   5 王涛
10   5 王勇
11   5 孙涛

作为码农,必须得养成对自己得到结果进行自测的习惯,所以如果对自己的结果不够自信,可以正向去计算一下最终的结果。

例如可以简单 grep 一下进行验证,叫 "王鹏" 的是不是9个。

 1➜  积分落户2020数据分析 git:(master) ✗ grep '王鹏' 10000.csv2202000543 王鹏飞 1979-02 北京航天发射技术研究所 104.093202001150 王鹏 1980-03 中国扶贫基金会 101.804202001449 王鹏 1972-10 北京汇众博思信息科技有限公司 101.255202002088 王鹏 1977-11 银河航天(北京)通信技术有限公司 100.426202002114 王鹏 1977-05 《中国经济周刊》杂志社 100.387202002753 王鹏 1976-11 北京睿驰青果科技有限公司 99.668202003455 王鹏 1983-04 北京首创股份有限公司 98.969202003514 王鹏飞 1980-07 云粒智慧科技有限公司 98.92
10202003694 王鹏 1976-05 上海创景计算机系统有限公司北京办事处 98.75
11202003763 王鹏 1980-01 北京兴庆房地产土地评估有限公司 98.71
12202004190 王鹏 1980-09 北京欧拓技术有限公司 98.34

获取年龄分布

 1# 拿到出生年后, 直接通过 awk 计算结果输出2➜  首批积分落户  > grep '"idCard":' jifenluohu.json| cut -f2 -d: | cut -c 9-12 |awk '{print 2019-$1}' | sort | uniq -c3   3 344  13 355  39 366 109 377 162 388 302 399 507 40
10 773 41
11 799 42
12 813 43
13 757 44
14 586 45
15 507 46
16 378 47
17 238 48
18   4 49
19   9 50
20   1 51
21   4 52
22   3 53
23   2 54
24   5 55
25   1 56
26   1 58
27   1 59
28   1 60
29   1 61
30
31➜  积分落户2020数据分析 git:(master) ✗ awk '{print $3}' 10000.csv  | cut -f1 -d"-" |awk '{print 2020-$1}' | sort | uniq -c
32   1 32
33   3 35
34  30 36
35  83 37
36 290 38
37 468 39
38 644 40
39 741 41
40 808 42
41 751 43
42 636 44
43 507 45
44 365 46
45 329 47
46 108 48
47 107 49
48  85 50
49  27 51
50   6 52
51  10 53
52   9 54
53   8 55
54   6 56
55   5 57
56   3 58
57   2 59
1➜  积分落户2020数据分析 git:(master) ✗ grep '1988' 10000.csv
2202004964 XX磊 1988-07 中煤北京煤矿机械有限责任公司 97.71

2020年积分落户指标年龄最小者

年龄分布如下所示,主要还是集中在 38 ~ 47 岁之间。

2020积分落户年龄分布

其他

这次的数据就先分享到这里,如果你有兴趣,可以到网站上采集更多数据(例如各项分数的明细,例如教育背景、合法稳定就业住所等)进行分析。

另外,如果你想计算一下自己能获得多少分,可以直接到官网网站进行计算,地址为:http://fuwu.rsj.beijing.gov.cn/integraltool/tool/simulation

积分落户模拟计算工具

更多精彩推荐
☞这么多年,终于有人讲清楚 Transformer 了!
☞昇腾万里·让AI无所不及!DevRun开发者沙龙在武汉成功举办
☞卫星数据现已加入 Azure 豪华套餐,在太空向女神表个白?
☞告别CNN?一张图等于16x16个字,计算机视觉也用上Transformer了
☞Serverless 架构下的服务优雅下线实践
☞赠书 | 五大原型:挖掘当下组织中隐藏的商机
点分享点点赞点在看

2020 北京积分落户结果公示,落户指标最多的公司竟然又是 ?相关推荐

  1. 北理工计算机2020学硕录取,北京理工大学各学院2020年硕士研究生拟录取名单的公示...

    北京理工大学(Beijing Institute of Technology)是中华人民共和国工业和信息化部直属的一所以理工科为主干,工.理.管.文协调发展的全国重点大学. 以下是研学长整理的&quo ...

  2. 北京积分落户2021年新政策细则详解

    2021年是施行北京积分落户政策的第四个年头,2018-2020年的数据如下: 上图可以看出,申报积分落户的人数每年大概在十几万人,但每年只有6000个名额,落户成功率大概在5%,分数线是每年是上涨的 ...

  3. 北京积分落户需要多少年才能上岸

    北京积分落户是根据每年第6000名的分数作为当年的分数线,所以它没有一个确定的数值. 2018年90.75 2019年93.58 2020年97.13 2021年100.88 三年涨了10分之多,恐怖 ...

  4. 北京积分落户要积多少分才可以

    如果是2021年想上岸的话,总积分应该在100左右. 可以推算下: 硕士学历26+年龄小于45加20+社保15年45分+8年租房4分+7年买房7分=102.硕士学历,15年社保,租房8年,买房7年,勉 ...

  5. 案例:2018年北京积分落户分析

    一.北京积分落户政策概述 北京积分落户制是北京市政协建议推行的积分落户政策,以科技贡献.专业技能.在京时间等指标为考核项,计算非京籍人才的"积分",积分达标即可落户北京.北京市积分 ...

  6. 2021年度全国勘察设计注册工程师执业资格考试成绩合格人员公示和资格核查的通知汇总(3月18日更新)

    北京:已公示,链接已失效 上海:暂未公示 天津:关于2021年度勘察设计注册工程师执业资格考试成绩合格.拟取得资格证书人员公示_通知公告_天津市人力资源和社会保障局 重庆:关于2021年度勘察设计注册 ...

  7. 拟上市公司发公示是什么意思

    一.拟上市公司发公示是什么意思 拟上市公司是指以上市为目标,上市有实质性进展并经省发展改革委确认的公司. 拟上市公司享受优惠政策,要向同级发改部门提出申请,按程序经市发改部门审查并出具书面确认意见后到 ...

  8. 转载:北京积分落户门槛有多高?首批6019人公示

    18-10-17近日,北京市人力资源和社会保障局公布了许多人关注的一条信息--首批北京积分落户公示人员名单.这个名单共有6019人榜上有名,仔细分析一下这些名单及相关的3个关键数据,你可以感受到积分落 ...

  9. 北京理工大学计算机学院复试名单2020,电气与信息工程学院2020年赴北京理工大学复试名单公示...

    电气与信息工程学院2020年赴北京理工大学复试名单公示 ‍ 根据<北京理工大学 湖北汽车工业学院"京鄂对口协作"框架合作协议>精神和学校教务处<关于选拔2020年 ...

最新文章

  1. 数据库的这些性能优化,你做了吗?
  2. 跳一跳201803-1
  3. Spring Cloud 系列之 Nacos 配置中心
  4. LeetCode 1135. 最低成本联通所有城市(最小生成树+排序+并查集)
  5. 陶哲轩实分析 引理8.2.7 注
  6. 1000道Python题库系列分享22(40个填空题)
  7. 10许可证即将到期_食品经营许可证延续
  8. ExcelToHtmlTable转换算法:将Excel转换成Html表格并展示(项目源码+详细注释+项目截图)...
  9. oracle授权v$lock,Oracle八大性能视图之v$lock
  10. java在数组中放入随机数_如何在Java中随机播放数组
  11. STC8H开发(十二): I2C驱动AT24C08,AT24C32系列EEPROM存储
  12. 实验三(无线局域网组成与管理实验)
  13. 八爪鱼批量爬取html中的数据,批量采集网页数据 - 八爪鱼采集器
  14. # Markdown 学习笔记 ## 标题的使用 1. 一级标题 # 2. 二级标题 ## 3. 三级标题 ### 4. 四级列表#### 5. 五级列表##### 6. 六级列表####
  15. 【内存】ECC内存简介
  16. itest(爱测试) 4.1.1 发布,开源BUG 跟踪管理 敏捷测试管理软件
  17. SIR,CQI,RSSI(转自搜狗百科)LTE上报的CQI、PMI、RI分别有什么用(转载自C114论坛)...
  18. 关于机壳地和板子地(GND)的连接
  19. C++中using的四大用法总结
  20. NHWC BGR -> NCHW RGB

热门文章

  1. redis命令之哈希表类型hset命令用法详情(返回值需要特别注意)
  2. typescript浅拷贝与深拷贝
  3. 今天送修yoga book有感
  4. 手机产销趋于PC化 杨元庆给联想移动“松绑”
  5. Golang 基础学习
  6. 找出纳入PRS/GRS计算的SNP是哪些?
  7. java将古诗竖排_写一个java程序 将一首古诗竖着排序从右往左读
  8. 使用Ray Tune自动调参
  9. 报错 mysql: command not found
  10. C语言如何自己写一个游戏商城的交易系统