点击上方蓝色字体,关注我 ——

一个在阿里云打工的清华学渣!

关于作者:程序猿石头(ID: tangleithu),现任阿里巴巴技术专家,清华学渣,前大疆后端 Leader。公众号后台回复关键字 “1024” 获取程序员大厂面试指南。

图by: 石头

前奏

上周末团建了,没来得及肝文。跟同事们一起自驾去了秦皇岛阿那亚,吃吃烧烤,玩玩德扑,吹吹海风,很是惬意~

还学了一款新桌游 —— 阿瓦隆,很有意思,不知道你玩过没? 期间自己还闹了个大乌龙,这让我明白了一个道理:类似这种需要 “隐藏自己真实身份”的推理游戏的秘诀就是彻底忘记自己的身份,不仅能骗过“敌人”,还能让“队友”,甚至让拥有 “上帝视角”的“法官” 也懵逼到“怀疑人生”。

另外,本部门最近急招P6/P7技术岗,热烈欢迎感兴趣的同学联系我啊,下次团建咱们一起去,一起来玩德州扑克,我们都很菜的,很容易就能赢咱们。

分享几张本人拍的图片给大家(技术挫了点,大家将就看看)。

正文开始

在前面的这篇文章中 —— 优秀的程序员是如何利用工具来提升工作效率的?,石头介绍了可以提高程序猿工作效率的一些软件和工具及相关配置。文中提到了, 程序猿应该了解一些常见的命令行工具来提高效率。

本文是一个命令行工具的综合应用,将用一个具体的例子来阐述如何用 Shell 来进行高效地数据统计和分析。最近北京又开始了新一批积分落户的填报工作,恰好这篇文章用 shell 来对首批北京积分落户同学进行 "大数据"分析。

现如今到处都是各种"大数据",本文分析对象也就是首批积分落户的6000多条数据而已,显然不能算什么大数据。

印象中,我记得当初该官网的这6000多条数据也是一次性就能wget下来的(后端估计没做限制,可能稍微调整下接口的分页参数之类不需要严格按照各种分页多次下载)。(注:本文旧文重新整理发送。)

问题描述

输入是 json数据,格式化之后的 json 数据主题结构如下所示,rows为数组,数组中元素所代表的 object 即描述了获得北京户口的同学的各种属性:例如分数、排名、身份证号(后四位打码了)、公司等等信息。为了方便大家练习对数据进行试验,我将文中的数据附在这里(https://www.tanglei.name/resources/use-shell-to-analysis-the-first-people-of-getting-residence-of-beijing-by-score/jifenluohu.json.gz)。

"rows": [
{"id": 62981,"idCard": "32092219721222****","idCardSHA": "9ef70bde894959a4e4a1d1b2b9592b470294f9e4012a8cf480319665d1a7c1c6","insertTime": 1539518353000,"integralQualified": 1,"internetAnnual": {"annual": 2018,"id": 43,"insertTime": 1539518353000,"publicityEnd": 1540224000000,"publicityStart": 1539591600000,"publishResultEndDate": 1541679300000,"publishResultStartDate": 1539591600000,"publishResultStatus": 1,"score": 90.75,"status": 1},"md5Code": "54e9ff7ce0b004f7141b157f8afc66db","name": "杨效丰","pxid": 1,"ranking": 1,"s1": 51,"s10": 0,"s2": 12.59,"s3": 15,"s4": 0,"s5": 4,"s6": 0,"s7": 20,"s8": 20,"s9": 0,"score": 122.59,"unit": "北京利德华福电气技术有限公司"
},

拿到这个文件,比如希望你用最快的方法获得以下信息,你将会怎么做?

  • 获取取得户口名额最多的top10公司

  • 获取取得户口名额的人中姓氏最多的

  • 获取户口名字中叫啥名最流行

  • 获取年龄分布

  • 获取取得户口的同学户籍地top10

  • 生肖/星座/生日...

当然,方法有很多,比如熟悉各种编程语言的,例如 python, php, java 等等写个简单的脚本程序,也能比较快获取答案。或者把相应的数据提取出来,放到 excel 中也可以。

如果你对 Shell 很熟悉,那真的是分分钟,应该是秒秒钟就能获取答案。就算用 Shell 来实现,不同的人可能也有不同的写法,后面我就列举其中的一种来解决这些问题。

本文不对 Shell 具体每个命令做过多的解释,不熟悉的同学可以直接 man $cmd 或者 $cmd --help 等等查看。

之前我也写过一篇名叫 Shell 助力开发效率提升 的文章,算是给常用的命令的常用参数做了一个解释和示例,有兴趣的同学可以前往查阅。

问题解答

获取取得户口名额最多的top10公司

看看想通过积分落户,最好是进哪些公司,哈哈。

"unit": "北京利德华福电气技术有限公司"

先通过 grep 得到包含公司名字的一行,然后通过 ":" 分割 cut 取第2列得到公司名字,对结果进行sort排序进行去重uniq统计得到重复次数,次时结果为重复次数 公司名,再对第一列-k 1重复数字进行按照数字排序逆序-nr 即 sort -nr -k 1,最后取结果的前10行 head -n 10

➜  积分落户  > grep 'unit' jifenluohu.json| cut -f2 -d: | sort | uniq -c | sort -nr -k 1 | head -n 10137  "北京华为数字技术有限公司"73  "中央电视台"57  "北京首钢建设集团有限公司"55  "百度在线网络技术(北京)有限公司"48  "联想(北京)有限公司"40  "北京外企人力资源服务有限公司"40  "中国民生银行股份有限公司"39  "国际商业机器(中国)投资有限公司"29  "中国国际技术智力合作有限公司"27  "华为技术有限公司北京研究所"

获取取得户口名额的人中姓氏最多的

看看想通过积分落户,最好是姓啥,哈哈。

"name": "杨效丰",

套路跟之前差不多的,我这边就不特别指出了。

下面shell实际上是取到这行后,将真正表示名字之前的所有字符都删除,就只剩下名字开头了,取行首第一个字符cut -c 1即得到姓,再按照之前的套路就能拿到了。

其实用什么sed替换冗余的字符都是多余的,因为json的格式都是良好的,可以直接通过 cut -c ? 取姓这个字符即可。

也不用挨个去数到底是第几个字符,直接 copy出来,然后 echo -n $paste | wc -c 就能数到第几个字符了。

看结果还是姓 "张, 王" 之类的最有戏。????

# 或者 grep '"name":' jifenluohu.json| sed 's|"name": "||g' | sed 's|[[:space:]]||g' | cut -c 1 | sort | uniq -c | sort -nr -k 1 | head -n 10
➜  积分落户  > grep '"name":' jifenluohu.json| sed 's|"name": "||g' | sed 's| ||g' | cut -c 1 | sort | uniq -c | sort -nr -k 1 | head -n 10541 张531 王462 李376 刘205 陈193 杨166 赵132 孙95 郭95 徐

获取户口名字中叫啥名最流行

套路差不多,不做过多解释了。

➜  积分落户  > grep '"name":' jifenluohu.json| sed 's|"name": "||g' | sed 's|[[:space:]]||g' | cut -c 2-4 | sort | uniq -c | sort -nr -k 1 | head -n 1051 伟",39 静",38 涛",36 勇",36 军",32 敏",31 颖",30 鹏",28 杰",28 峰",
# 取名字, 必须包含2个字
➜  积分落户  > grep '"name":' jifenluohu.json| sed 's|"name": "||g' | sed 's|[[:space:]]||g' | cut -c 2-3 | sed  '/"/d' | sort | uniq -c | sort -nr -k 1 | head -n 1019 海涛19 晓东12 志强11 海燕11 永强11 建华10 雪梅9 海龙9 丽娜8 洪涛

作为码农,必须得养成对自己得到结果进行自测的习惯,所以如果对自己的结果不够自信,可以正向去计算一下最终的结果。

例如可以简单grep一下进行验证,叫 "海涛" 的是不是19个。

➜  积分落户  > grep '海涛' jifenluohu.json | wc -l19

获取年龄分布

思路是截取身份证中号码中代表出生年的4位数,然后拿当前年份2019减出生年得到年龄,后面的套路又一样了。

bc 一个简单的计算器程序,了解下?

➜  shell-train  > echo "3+2-5/5" | bc
4
➜  shell-train  > echo "3.141592*5-4" | bc
11.707960
#思路1: `cut -c 9-12` 获取出生年, 拼接表达式 `2019-出生年` 得到年龄.
➜  积分落户  > grep '"idCard":' jifenluohu.json| cut -f2 -d: | cut -c 9-12 | xargs -n1 echo 2019 -|bc | sort | uniq -c3 3413 3539 36109 37162 38302 39507 40773 41799 42813 43757 44586 45507 46378 47238 484 499 501 514 523 532 545 551 561 581 591 601 61

awk 是个好东西, 多练练.

# 拿到出生年后, 直接通过 awk 计算结果输出
➜  积分落户  > grep '"idCard":' jifenluohu.json| cut -f2 -d: | cut -c 9-12 |awk '{print 2019-$1}' | sort | uniq -c3 3413 3539 36109 37162 38302 39507 40773 41799 42813 43757 44586 45507 46378 47238 484 499 501 514 523 532 545 551 561 581 591 601 61

获取取得户口的同学户籍地top10

有时候,我们在写Shell的时候,为了debug方便,可能会将一些中间结果缓存到文件中,后续以该文件为基础进行后续的计算。

比如先拿到top10的身份证中代表的户籍地的四位编码,这里需要借助另外的一个表示身份证户籍地的编码来进行对应。

借此机会解释下 join 这个命令。

# 身份证前4位为例, 拿到户籍地
grep '"idCard":' jifenluohu.json| cut -f2 -d: | cut -c 3-6 | sort | uniq -c | sort -nr -k 1 >topcity.code
# 城市列表
➜  积分落户  > more city.csv
11,北京市
1101,北京市市辖区
110101,北京市东城区
110102,北京市西城区
110103,北京市崇文区
110104,北京市宣武区
110105,北京市朝阳区
# grep -E '^[0-9]{4},' city.csv | sed 's|,| |g' > city.code4
➜ shell-train  > head -n 2 city.code4
1101 北京市市辖区
1102 北京市市辖县
➜ shell-train  > head -n 2 topcity.code197 1201156 1302
➜ shell-train  > join
usage: join [-a fileno | -v fileno ] [-e string] [-1 field] [-2 field][-o list] [-t char] file1 file2

其实,join 就类似sql中的 ...inner join ...on ..., -t 分隔符,默认为空格或tab

# 未排序, 所以没有将所有的导出(join需要排序)
➜ shell-train  > join -1 1 -2 2 city.code4 topcity.code
1201 天津市市辖区 197
1302 河北省唐山市 156
2301 黑龙江哈尔滨市 123
4201 湖北省武汉市 118
6101 陕西省西安市 100
6201 甘肃省兰州市 59
6501 新疆乌鲁木齐市 29
6523 新疆昌吉回族自治州 11

一定需要将结果输出到文件,然后再进行吗?

其实也不一定。用管道的方式 | 可以将上一个命令的输出结果作为下一个命令的输入,可以通过 <(command) 的方式,将command 的输出作为一个文件输入。

# 需要排序
➜ shell-train  > join -1 1 -2 2 city.code4 <(head -n 10 topcity.code | sort -k 2)
1201 天津市市辖区 197
1301 河北省石家庄市 114
1302 河北省唐山市 156
1324 河北省保定地区 103
1501 内蒙古呼和浩特市 88
2101 辽宁省沈阳市 109
2201 吉林省长春市 113
2301 黑龙江哈尔滨市 123
4201 湖北省武汉市 118
6101 陕西省西安市 100

举个例子paste用来将两个文件按列合并在一起:

➜  shell-train  > cat paste.f1
hello, i am
world, you are
➜  shell-train  > cat paste.f2
tanglei, wechat is: tangleithu
?, hahaha
➜  shell-train  > paste paste.f1 paste.f2
hello, i am tanglei, wechat is: tangleithu
world, you are ?, hahaha

以上用paste将两个文件合并在一起了,实际上通过 <(cmd)的方式,可以不借助外部文件也能做到。

方法如下:

➜  shell-train  > paste <(echo "hello, i am \nworld, you are") <(echo "tanglei, wechat is: tangleithu\n?, hahaha")
hello, i am  tanglei, wechat is: tangleithu
world, you are ?, hahaha

其他的任务交给你了

这里就不重复多讲了,剩下的问题,要不你动手试试,比如看看生日最多的?

再试试获取 生肖/星座 最多的top10。

有任何疑问,欢迎留言交流参与交流讨论。

后记

觉得本号分享的文章有价值,记得添加星标哦。周更很累,不要白 piao,需要来点正反馈,安排个 “一键三连”(点赞、在看、分享)如何????? 这将是我持续输出优质文章的最强动力。

关于作者:程序猿石头(ID: tangleithu),现任阿里巴巴技术专家,清华学渣,前大疆后端 Leader。用不同的视角分享高质量技术文章,以每篇文章都让人有收获为目的,欢迎关注,交流和指导!

公众号后台回复关键字 “1024” 获取程序员大厂面试指南。

推 荐 阅 读

快快加入我们——“阿里云-ECS/神龙计算平台” 招人啦
面试官:会玩牌吧?给我讲讲洗牌算法和它的应用场景吧!

面了 7 轮 Google,最终还是逃不脱被挂的命运

从一道面试题谈谈一线大厂码农应该具备的基本能力

- 欢迎加入互联网大厂内推群 & 技术交流群 -

没想到 Shell 命令竟然还能这么玩?| Shell 玩转大数据分析相关推荐

  1. 八、Linux 常用 Shell 命令,控制台的快捷键以及 Shell 编程(中)

    @Author : Runsen @Date:2020/9/11 文章是Runsen在Gitchat付费文章分享:Linux 常用 Shell 命令,控制台的快捷键以及 Shell 编程 顺便同步到C ...

  2. 七、Linux 常用 Shell 命令,控制台的快捷键以及 Shell 编程(上)

    @Author : Runsen @Date:2020/9/11 文章是Gitchat付费文章分享:Linux 常用 Shell 命令,控制台的快捷键以及 Shell 编程 顺便同步到CSDN中,这里 ...

  3. 辞职了,好几万的年终奖都没了,公司竟然还来问我要工会费!

    分手见人品,离职见司品,这话不假. 一位网友就遇到了这样一件糟心事: 都辞职了,公司竟然还来问自己要工会费! 下面是聊天记录: 楼主说,因为辞职,好几万的季度绩效和年终奖都没了,公司竟然来问自己要这么 ...

  4. 解决 Jupyter notebook 运行SHELL 命令(!xxx), 出错: OSError: “/bin/bach“ shell not found

    我在JUPYTER NOTEBOOK新增加一个环境ai, 进入后,在NOTEBOOK的代码行中运行 SHELL 命令 (!pip install gradio) 出错: import os os.en ...

  5. 万万没 想到,Redis性能测试还能这样做

    01 服务器环境 Redis之redis-benchmark redis 提供了 redis-benchmark 工具便于我们做性能测试,可以使用 redis-benchmark- h 查看参数. 0 ...

  6. 万万没想到! logger.info() 还能导致线上故障?

    事故代码 直入主题,生产环境日志级别为warn,请看如下这行代码: LOGGER.info("the DTO info: {}", JSON.toJSONString(DTO)); ...

  7. killall命令_没想到Linux命令也有“吓人”的一面……

    是时候稍微关注一下 Linux 那吓人的一面了. crypt 好吧,我们一直都有crypt.顾名思义,crypt不是存放垃圾文件的地宫或墓坑,而是加密文件内容的命令. 如今,"crypt&q ...

  8. 万万没想到,“红孩儿”竟然做了程序员,还是 CTO!

    作者 | 年素清 来源 | 码农故事汇(ID:sunianqingshi) 说起老版<西游记>,大家肯定都不陌生,毕竟这是90后一代人的童年回忆.相信大家一定还记得里面的红孩儿,那个嚣张跋 ...

  9. 没想到国美竟然用oracle的团队来搭建电商平台

    最近接触到几个国美的人,得知国美将重温阿里当年开发路:采用oracle的电商实施团队进行平台的搭建.所有开发人员将学习oracle的开发工具进行二次开发.虽然没接触过oracle的电商研发团队,我想无 ...

最新文章

  1. mysql怎么通过frm和ibd文件还原数据
  2. javascript里的post和get有什么区别
  3. DataInputStream
  4. 网络广告联盟和网站联盟全解析
  5. 网络技术学习资料分享
  6. php项目部署lnmp,如何在lnmp环境里,部署多个php项目?
  7. 程序员该如何合理安排时间呢?
  8. tp5 前台 点击显示一个弹窗
  9. python 标准库 —— http(http.cookiejar)
  10. Flex_As操作大全
  11. 2021数据结构学习笔记(严蔚敏版)
  12. 解决visio图片生成PDF有留白的问题
  13. css样式的属性包括,css字体样式属性有哪些
  14. 【免公众号】新版盲盒交友程序源码盲盒交友系统一元交友
  15. AndroidStudio Screen Capture 按钮点击提示:Unexpected error while obtain screenshot from device:EOF
  16. android js桥接,聊一聊桥接(JSBridge)的原理(下)
  17. 销售人员必看~~三个经典电话销售案例
  18. 第一次创建百度脑图介绍自己,把创建过程分享一下吧,嘿嘿。
  19. Python selenium定位动态下拉框
  20. Educoder/头歌JAVA实训——JAVA面向对象:类与对象

热门文章

  1. VCU整车控制器 ,量产模型搭配底层软件量产VCU模型搭配英飞凌tc234底层驱动
  2. 苹果x充电慢是什么原因_苹果手机充不进去电?什么原因?怎么解决?
  3. Java面向对象程序设计 - 清览云题库
  4. Echarts使用总结(一)
  5. java 8 重复注解报错,重复注解 · Java 8 Document Translation · 看云
  6. 一步一步教你安装redis(超详细,图文)
  7. zf2使用TableGateway查询postgresql时的问题
  8. “春节十二响”C语言代码开源了,命名是亮点
  9. Java中Excel导出
  10. 移动云物联网预研及阿里云开发对比分析