图:清华主楼,from 一个师弟的朋友圈

关于作者:程序猿石头(ID: tangleithu),现任阿里巴巴技术专家,清华学渣,前大疆后端 Leader。用不同的视角分享高质量技术文章,以每篇文章都让人有收获为目的,欢迎关注,交流和指导!

背景

这两天公布了北京首批家庭新能源小客车指标积分排序结果。

当然,意料之中,很遗憾,本人并未入围,排名 8W 左右。看样子,要想新能源积分排序上去,还得抓紧增加家庭代际数啊,假设生个娃,我的分数直接近 60 了,还是有希望能尽快排到的。

积分排序结果

看看数据涨啥样

让我们来看看这些数据都是怎样的?

网站下载了 pdf,不便于分析,显然作为程序猿还是习惯用程序员的方式来进行分析,首先还是先转为纯文本文件吧,可转换为 csv。(官网下载地址:https://www.bjhjyd.gov.cn/jggb/2020910/1599732631719_1.htm)

  1. 网上有工具,可上传 pdf,转 csv。

  2. 可以直接 copy 出来,粘贴纯文本即可。笔者采用了这种方式很快。

有了前面这两篇文章作为基础,下面这些数据可轻易获得:

提升开发效率N倍的20+命令行神器!(附 demo)

因为 copy 出来纯文本,姓名和身份证连在一起了,需要拆分一下,很简单:

cat car2020.csv | awk '{print substr($3, 1, match($3,/[0-9]/)-1) "\t"  substr($3, match($3,/[0-9]/)) "\t" $4 "\t" $5 "\t" $6 "\t" $7}' > car-2020.csv

摇号数据集csv

分数分析

首先,文件结果直接按照分数倒序的。

  • 最高分 228 分,家庭共 7 个人组成。

  • 最低分 72 分,2 代 4 人的家庭居多,也有 3 代 4 人的。

cat car-2020.csv | awk '{print $5}'  | uniq -c  | sort -k 1 -nr

积分分布

看看分数的分布,大多数围绕着 70 -120 分之间,占比 80%。

家庭情况

  • 家庭代数, 近 70% 为 3 代人。

    ➜ Downloads cat car-2020.csv | awk '{print $4}'  | sort | uniq -c
    6621 2
    13379 3
    

  • 家庭人口数,居然还有 9 口人的。看了下,9 口人 3 代,猜测 双方父母 4 + 两口 2 + 3 小孩?还是怎样的,我看家庭主要申请人也是从第一期就开始申请摇号了,这么大一家人,也没个车牌,也是不容易啊。

  • ➜  Downloads cat car-2020.csv | awk '{print $3}'  | sort | uniq -c
    4245 3
    5124 4
    6912 5
    2284 6
    1240 7193 82 9
    

主申请人

太多人从第一年就开始了参与摇号了。

➜  Downloads cat car-2020.csv | awk '{print substr($6, 1, 4)}'  | sort | uniq -c
6874 2011
7401 2012
3729 2013
1384 2014482 2015111 201619 2017

看了下,从第一期摇号的就有 1367 个。

➜  Downloads cat car-2020.csv | awk '{print substr($6, 1, 7)}'  | sort | uniq -c
1367 2011-01797 2011-02665 2011-03519 2011-04473 2011-05356 2011-06424 2011-07448 2011-08407 2011-09516 2011-10434 2011-11468 2011-12

中签者老家哪里的?

这个,需要借助身份证号对应的行政区域了,思路跟之前 没想到 Shell 命令竟然还能这么玩?| Shell 玩转大数据分析 这篇文章上一样,直接给结论吧。

  • 先看按照省这个级别来划分的。

➜  Downloads join -1 2 -2 1 <(cat car-2020.csv | awk '{print substr($2, 1, 2)}' |sort | uniq -c | sort -k1 -nr | head -n 30 | sort -k2) id-area.code2.sort.txt | sort -k2 -nr
11 14792 北京市
13 1101 河北省
37 638 山东省
41 360 河南省
14 330 山西省
23 296 黑龙江省
21 291 辽宁省
42 239 湖北省
15 224 内蒙古自治区
22 217 吉林省
43 175 湖南省
61 174 陕西省
34 169 安徽省
32 162 江苏省
51 161 四川省
36 135 江西省
12 107 天津市
62 82 甘肃省
33 64 浙江省
35 53 福建省
65 46 新疆维吾尔族自治区
64 34 宁夏回族自治区
45 33 广西壮族自治区
50 21 重庆市
63 19 青海省
53 19 云南省
44 19 广东省
52 17 贵州省
31 12 上海市
46 6 海南省
  • 第一列:身份证开头的两位,基本定位到省;

  • 第二列:对应的人数

  • 第三列:对应省

从中可以看出,还是老北京占比最大,占比74%了。石头想找个免费的热力地图生成工具展示一下的,短时间之类没找到,先放弃了。

  • 再看看到市区级别的,参考身份证前 6 位。

先看看前 30 的吧,基本也就是围绕着北京了。

➜  Downloads join -1 2 -2 1 <(cat car-2020.csv | awk '{print substr($2, 1, 6)}' |sort | uniq -c | sort -k1 -nr | head -n 30 | sort -k2) address_code_uniq.csv | sort -k2 -nr
110111 1592 房山区
110223 1531 通县
110224 1439 大兴县
110108 1109 海淀区
110105 1108 朝阳区
110222 1075 顺义县
110229 846 延庆县
110106 734 丰台区
110221 725 昌平县
110226 610 平谷县
110228 599 密云县
110102 570 西城区
110227 557 怀柔县
110101 475 东城区
110104 471 宣武区
110109 415 门头沟区
110103 382 崇文区
110107 332 石景山区
110225 189 房山县
131082 43 三河市
230103 34 南岗区
140202 28 城区
110110 25 燕山区
220104 24 朝阳区
150102 23 新城区
130102 23 长安区
610103 22 碑林区
130203 21 路北区
420106 19 武昌区
130681 18 涿州市

其中,address_code_uniq.csv 来自 https://raw.githubusercontent.com/jxlwqq/address-code-of-china/master/address_code.csv,有个坑的地方就是政府官方网站下载的行政区域代码数据 http://www.mca.gov.cn//article/sj/xzqh/2020/是最新的,有的行政区域代码已撤销,不再使用。(幸亏石头校验了一下结果数据综合,发现和总数 2000 相差比较大)

但之前已经核发的身份证总不能作废吧。举个例子:行政区划代码110223(北京市 通县)已撤销,新发的身份证中不再使用。

另外,还发现有一例不是用身份证号码作为证件号码的?看样子是护照?CH1HFP******** 这个,我也不懂了,有知道的朋友么?

先就这么多吧。另外,若感兴趣的朋友需要本文分析的数据集合用作交流学习使用,可回复“积分排序”获取处理的 Excel和 CSV 文件。

附《摇号解题积分对照表》

回到题目本身,这个㊙️秘密就是:如果要想家庭摇号尽早“中签”,那就赶紧生娃吧,哈哈哈,别打我。

后记

觉得本号分享的文章有价值,记得添加星标哦。周更很累,不要白 piao,需要来点正反馈,安排个 “一键三连”(点赞、在看、分享)如何????? 这将是我持续输出优质文章的最强动力。

推 荐 阅 读

终于把QQ和微信一键打通了,功能实用!

Java 15 正式发布, 好多新特性,刷新你的认知!!

国内互联网公司梯队划分,阿里,腾讯,华为第一挡,网友坐不住了!

GitHub科技 

GitHub科技:每天给你分享一个GitHub开源项目,以及一些好玩有用的文章,每天都有收获!

分析了获得家庭摇号新能源指标的数据后,我发现了一个秘密相关推荐

  1. 我用Python分析淘宝低价人群和匿名人群的连衣裙数据后,发现了这些秘密!

    1.我是一个低价人群用户 小伙伴们都在秀自己的淘宝连衣裙搜索价格,相较于小伙伴们搜索出的数百.数千的搜索"连衣裙"结果价格,很显然,我低价人群无疑了.以下是州的先生在淘宝上搜索&q ...

  2. 用 Python 分析了所有微信好友,发现了一个秘密...

    点击上方"何俊林",马上关注,每天早上8:50准时推送 真爱,请置顶或星标 Illustrations by Evgenij Kungur 文/ Python攻城狮 最近研究了一下 ...

  3. 小心Python爬取了你的微信隐私!用Python分析了数千个微信昵称后,发现了这些秘密!

    01 Let's get it 1. 基本信息获取 访问 英文取名 的用户基本信接口,获取 英文取名 用户微信名(NickName).访问次数(Count).总数据集(ResponseData),并将 ...

  4. 用Python分析了数千个微信昵称后,发现了这些秘密!

    01 Let's get it 1. 基本信息获取 访问 英文取名 的用户基本信接口,获取 英文取名 用户微信名(NickName).访问次数(Count).总数据集(ResponseData),并将 ...

  5. 分析全球最大美食点评网站万家餐厅数据 寻找餐厅经营成功的秘密

    ◆ ◆ ◆ 摘要 各位美食爱好者对于Yelp应该比"大众点评"更加熟悉.这家美食评论起家的网站是被全球公认的"美食攻略提供者",它是利用大众经验和点评的最好例子 ...

  6. python分析销量10w+的车厘子,发现了一个秘密

    又到了吃车厘子的季节. 冬季,中国市面上的车厘子主要来自南半球的智利.新西兰和澳大利亚等地,其中中国更是智利最大的车厘子出口国,出国占比达百分之90以上.. 远隔重洋.长途跋涉而来的车厘子的消费价格里 ...

  7. 用 python 分析了微信上所有的微信好友,发现了一个秘密...

    最近研究了一下itchat和matplotlib,目前实现了对微信好友头像.性别.区域.个性签名的采集及展示. 本文就来详细介绍一下这个库的用法和一些核心逻辑实现. 1.微信登录 三行代码实现登录,为 ...

  8. 学区摇号软件设计_小升初家长必看!2018年最全升学信息及小摇号汇总分析。...

    2018年的小升初已经落下帷幕 对于2019级的孩子和家长而言 你们已经正式进入小升初最关键的一年 这一年 家长要做的不只是孩子成绩的提升 更要做好孩子坚强的后盾 那就是---- 了解小升初的基本知识 ...

  9. 技术宅男揭秘:北京机动车摇号真的公平?

    [编者按]本文作者为蚂蚁金服人工智能部高级算法工程师墨眀(网名:沙漠之鹰),曾就职于三星研究院从事语音合成工作,擅长自然语言处理.网页爬虫和数据分析.本文为作者在加入蚂蚁金服之前的个人业余兴趣项目.本 ...

  10. 北京小客车摇号程序PHP版

    相信很多北京本地or北漂一族摇了N年车牌号的人大有人在,作为一个即将加入摇号大军的程序员,带着好奇心查看了一下摇号相关的规则和程序,是否公平公正公开公... 官方信息 温馨提示:摇号月的25日,在公证 ...

最新文章

  1. Scheme来实现八皇后问题(2)
  2. CentOS7.2 安装Docker
  3. 服务器报错:“/usr/local/var/run/nginx.pid”failed
  4. java交换数组元素_交换数组中的元素(Java)
  5. c语言内部堆排序的实现,内部排序之堆排序的实现详解
  6. latex 数学公式
  7. Android odex文件反编译
  8. day3-3.4字符编码与转码
  9. wifi破解到局域网渗透
  10. mysql做时间判断_mysql关于时间函数的判断
  11. OCT-模拟电路设计八边形法则的探讨
  12. [架构之美]一款APP从想法-开发-上线-产品的全过程
  13. 记一次CTFd平台搭建
  14. 超全!40000字 Matplotlib 实战
  15. servercat IOS Linux监控 SSH客户端
  16. 计算机考研专业课课件,【考研计算机专业课】武汉大学计算机网络PPT课件 习题课.ppt...
  17. The 16th Heilongjiang Provincial Collegiate Programming Contest部分题解
  18. Springboot redis多数据源过期监听案例
  19. 计算机网络技术职业生涯规划书一千字,计算机网络技术大学生职业生涯规划书...
  20. 集成学习精讲02 - Bagging方法:多个基模型的聚合(SAP大神黄佳新作《零基础学机器学习》节选)

热门文章

  1. 国开文学英语赏析 2021春(2021年7月)
  2. 中兴服务器bios启动顺序设置,bios设置启动图解教程
  3. 灰度变换与空间滤波——图像增强
  4. 安恒信息明御WEB应用防火墙产品白皮书
  5. 华为路由器eNSP的基本配置
  6. 5、聊聊大名鼎鼎的张正友标定法
  7. C#导入.dll Please make sure that the file is accessible and that it is a valid assembly or COM compone
  8. 重力加速度陀螺仪传感器MPU-6050(一)
  9. HFSS周期结构超表面结构单元仿真
  10. 简单的路由器设置下一条(小白像)