多图,请确保在Wi-Fi环境下点开!

主要是爬取数据,并把爬回来的数据进行分析和挖掘,做过的小项目主要有:

  1. 扒了扒蔡徐坤100万+微博转发中,假流量占了多少的比例

随机抓取蔡徐坤100万+转发的微博《再见,“任性的”千千…》的10万条转发数据,并且分析蔡徐坤真假转发流量的比例以及真假粉丝的用户画像。


发现102313条转发数据中,有95397条是由假粉丝转发的,占了总转发的93.24%,只有6916条是由真粉丝转发的,占6.76%。6916条数据中,除去重复转发的粉丝,真实粉丝数量只剩下3926个。也就是说,真实转发的粉丝数量,占总转发量的3.84%。


与之相比,吴青峰10006条转发数据中,只有很少比例的假粉丝量,绝大部分都是真粉丝转发的。在9658条真粉丝转发数据中,真粉丝量也高达9318,说明不存在粉丝打榜的情况。


另外还有一些有趣的发现:假粉丝的平均关注是3.44,平均粉丝数是1.04,没有简介,昵称基本上都是“中文+英文和数字”这个格式,很多假粉丝的昵称都带有“坤”、“蔡”、“葵”、“kun”等字,头像都是蔡徐坤(说明很多都是定制粉啊)。

爬虫和数据分析代码戳:CaiXuKun,具体的数据分析文章戳:《用大数据扒一扒蔡徐坤的真假流量粉》

2. 爬取英语外籍老师与本土老师招聘数据,分析洋外教是否真的是一群没学历、没教学经验的外国人拿着高工资在我们国家逍遥快活

爬取外籍人员招聘网站JobLEADChina上的外籍英语老师招聘数据945条,万行教师人才网上的英语老师招聘数据5780条,以及微信群成员信息498条,并分析外教教师的招聘状况。


大部分中教的工资都在10K以内,而大部分的外教工资都在10K以上。中教的月平均工资是8.3K(按照城市为单位平均后是7.9K),而外教的月平均工资是15.7K,大概是中教的2倍。


在国内实习的外教月薪可以轻松破万,入门级的外教更是可以拿到15.8K的高薪。而我们的教师,即使工作了五到十年,还是拿不到入门级外教的工资。


Any education(也就是不管你的学历)的外教,来到中国可以拿的月平均工资是13.9K人民币,比我们硕士毕业的英语老师还要高出不少。有本科学历的外教平均工资是16.3K,硕士毕业的轻松上2万。


我们把外教群里的外教来源省份画了出来,可以看到,有来自美国纽约的、有来自加拿大多伦多的,有来自英格兰的,当然,也有来自法国巴黎的(法语)、有来自土耳其伊斯坦布尔的(土耳其语)、有来自荷兰阿姆斯特丹的(荷兰语),有来自西班牙拉科鲁尼亚的(西班牙语),还有来自其它各种各样地方的,你们自己感受一下。

爬虫和数据分析代码戳:ESL,具体的数据分析文章戳:《没经验没学历的外教为啥能拿1.4W+的高薪?》

3. 爬取最近大火的程序员集体抵制996的项目996.ICU中,Issues页面讨论数据和点了star的程序员Github个人信息数据,并且分析这群抵制996的程序员都是何方神圣

爬取了Github热门项目996.ICU中Issues页面的10037条讨论数据和39987条点了star的程序员Github个人信息数据。


可见,抵制996的程序员,最多的是来自阿里系的公司,有148人,其次是腾讯、百度、京东等,以加班文化著称的华为,排名才第9。当然,还有很多来自小米、微软、谷歌、中兴、联想、ThoughtWorks等各个公司的程序员。


可以看到,浙大以59人star了该repos排名榜首,其次是上海交大、清华、电子科大、北邮、武大、哈工大、中科大、复旦大学。这些大学,都是非常有名的大学啊,也是出产程序员的大学。当然,还有很多人来自于华中科大、卡耐基梅隆大学、北航、北理工、中山大学等学校的学生。


北京以2094人位居榜首!其次是上海、杭州、深圳等等。这些城市,恰恰是国内互联网行业发展得最好的城市。看来这个repos确实在全国程序员界都引起了巨大的反响,乃至新加坡、日本、美国等地的程序员都前来支持。


这群程序员的平均粉丝数为10.9,关注数为14.6,repos数为19.1。从数据可以看出,大部分都是默默无闻又兢兢业业的苦逼基层程序员。


关注996工作制的程序员中,有程序员大牛。排名第一的是一个熟悉的面孔,轮子哥!另外有来自腾讯的Coco,来自滴滴的singwhatiwanna,技术博主颜海镜等,这些人都在关注996。在39987个star了该repos的程序员中,粉丝数大于1000的有47人,大于500的有110,大于100的有598人。说明还是有很多有影响力的程序员在关注996工作制。

爬虫和数据分析代码戳:ICU996,具体的数据分析文章戳:《大胆,都是哪些程序员在反对996?!》

4. 爬取丁香人才网的医生招聘数据,分析儿科医生的生存处境

看了《人间世》第二季第8集《儿科医生:坚守,还是逃离?》之后,爬取了丁香人才网10950条涵盖儿科、内科、外科、妇产科、眼科的招聘数据,并且分析儿科医生的真实处境。



相比于公立医院招聘中更看重高学历人才,民营医院招聘时更加看重医生的工作经验。所以公立医院中由于学历导致发展受限的有经验的医生,很多都跳槽去民营医院了。


儿科岗位平均招聘持续时间是73天,将近2个半月的时间,位居榜首!看来儿科招人难,确实是千真万确的,而外科是最好招人的。


儿科医生在所有类型的单位里,公立医院开出的工资是最低的。连诊所和药房的工资都比公立医院高。


相同工资水平下,民营医院对学历不限和大专的要求比公立医院多,而公立医院对本科、硕士、博士的要求比民营医院多。也就是说,在民营医院,不需要那么高的学历,就可以拿到跟公立医院同价位的待遇。

爬虫和数据分析代码戳:Paediatrician,具体的数据分析文章戳:《儿科医生的眼泪,全被数据看见了》

5. 爬取北上广深链家网全部租房数据,并给出租房建议

爬取北上广深链家网全部租房房源数据,并且得出租金分布、租房考虑因素等建议。

把北上广深四个城市的房源都以小点的形式投射在地图上,先来看看北京的:


上海的:


广州的:


深圳的:


租房房源分布透露出来的信息其实不多,我们更关心的是各区域的价格。为此我计算了各房源每平米每月的租金,并绘制了热力地图,先来看北京的。


热力地图还有互动版本,可以随意放大缩小定位到自己感兴趣的区域:北京市每平米租金热力图

上海市


互动地图点击:上海市每平米租金热力图

广州市


互动地图点击:广州市每平米租金热力图

深圳市


互动地图点击:深圳市每平米租金热力图

爬虫和数据分析代码戳:BSGS_Rent,具体的数据分析文章戳:《北上广深租房图鉴》

6. 全国367个城市春节期间的空气质量指数数据爬取和分析

爬了全国367个城市从除夕到初七的空气质量数据,数据有68155条,并分析烟花爆竹对空气质量的影响,以及城市禁放烟花爆竹是否有效。




可以看到,PM2.5和PM10在除夕晚上六点之后开始飙升


全国大部分城市空气质量指数飙升为原来的1-5倍,有城市甚至飙升到20-25倍!


有些管控严格的城市,虽然除夕当晚管控地很好,可是时间一过就开始反弹飙升。

爬虫和数据分析代码戳:Fireworks_and_Pm2.5,具体的数据分析文章戳:《六万条数据全面解析,城市春节禁放烟花爆竹真的有用吗?》

7. 爬取电影《流浪地球》的猫眼评论和评分,并分析该电影出现低分的原因

爬了102580条《流浪地球》的猫眼评论,分析观众打分的时间规律,并对观众的评论做了词云图,分析大家打高分和低分的原因。




晚上21点、22点的时候(也就是观影高峰期)最容易出现低评分。


对高分的评论画了词云图,高分的观众觉得:

1. 这部电影很不错、很好看、很震撼、很感人,会大力推荐;

2. 观众乐于把这部片跟好莱坞的科幻片进行比较,并且认为其特效完美、场面宏大,是中国里程碑式的科幻大片,相比以前有很大进步;

3. 吴京、刘慈欣、导演多次被提及,说明观众对演员、剧本和导演都有很大的认可度,认为演员演技优秀、剧本扎实、导演良心。


对低分的评论也画了词云图,打低分的观众觉得:

1. 这部影片虽然特效很好,但是剧情东拉西扯、强行煽情、年轻演员演技捉急、没有逻辑,是烂片;

2. 吴京的英雄主义和强行的爱国情怀让这部片看起来像太空版的《战狼》,很尴尬;

3. 女主的演讲是本片最大的败笔,年轻演员撑不起这样的巨作。

爬虫和数据分析代码戳:TheWanderingEarth,具体的数据分析文章戳:《十万条评论告诉你,给《流浪地球》评1星的都是什么心态?》

8. 模拟登录微博手机端爬取海量表情包(其实代码同样也可以爬小姐姐的图片)

爬了一千多张点赞量最高、目前最火的表情包,让自己的表情包库再也不捉襟见肘。


另外还用这个爬虫爬了很多女装大佬的美图,哈哈哈。


以及很多小姐姐的美图。


爬虫代码戳:Weibo_Comment_Pics,具体的爬虫步骤分析文章戳:《开年表情包局部富有指南,盘它!》

9. 分析美国从1920年以来,每个年代的人的流行英文名

总数据有1924665条,通过分析每个年代的流行英文名,为需要取英文名的童鞋提供一些建议。


2010年以来最受欢迎的男生英文名

2010年以来最受欢迎的女生英文名

注:横轴是该名字人数在每个年代所占总数的百分比

几乎发音相同的名字的书写变体

数据分析代码戳:English_names,具体的数据分析文章戳:《看完这片分析,楼下的Tony和Kevin都改名了!》

10. 分析了70多万场绝地求生的比赛数据,总结出独家吃鸡攻略

分析了总共20多G、70多万场的绝地求生比赛数据,总结出各种地图哪里跳的人最多、近战最佳武器、狙击最佳武器等,程序员嘛,靠技术吃鸡也很重要。


海岛地图中,跳机场跟学校是死得最快的。


沙漠地图中,跳Pecado、San Martin、Power Grid是死得最快的。


开车对吃鸡很重要!!!



满配的M416是海岛和沙漠地图中最好用的枪。


每场比赛场均有1.47个人自己被自己蠢倒(也就是自毙),自毙的方式中,手榴弹高居榜首!哈哈哈。

数据分析代码戳:PUBG-juediqiusheng-data_analysis,具体的数据分析文章戳:《【20G】Kaggle数据集强势分析“绝地求生”,攻略吃鸡!》

11. 为新媒体运营的女票写了一个公众号文章采集器,一键采集各个行业内公众号发表的文章

整个项目只有50行代码,每天早上9点的时候都把昨天一天以来各个行业内公众号发表的文章的标题、摘要和链接等相关信息爬下来,形成一个文档发给女票,这样可以大大方便阅读。


这是爬回来的文档。

爬虫代码戳:Wechat_article_collector,具体的爬虫步骤分析文章戳:《50行代码教你打造一个公众号文章采集器》

12. 爬取雪球网投资组合的历史调仓记录,以及每日根据模型输出自动化调仓

模拟登录雪球网,爬取特定投资组合的历史调仓记录,实时计算收益率。并且每日根据数据模型的预测输出,进行自动化调仓。

需要爬取的投资组合历史调仓记录

爬回来的数据

自动化调仓

作者:Alfred数据室
链接:https://www.zhihu.com/question/20799742/answer/602006382
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

致转行AI的在校大学生的一封信

转行AI需要看的一些文章

转行学AI,具体细分方向如何选,来自一线工程师的感悟

用法律武器,痛击腾讯侵权行为!!!湾区人工智能可以改善知识产权现状吗?

【送书PDF】Python编程从入门到实践

Python从入门到精通,深度学习与机器学习资料大礼包!

【免费】某机构最新3980元机器学习/大数据课程高速下载,限量200份

觉得不错, 请随意转发,麻烦点个在看!

【大开眼界】Python爬虫骚操作相关推荐

  1. 25个python专属骚操作

    本文我总结了25个python专属骚操作,实属提高效率/同事吹牛只利器,确定不收藏吗? 一.原地交换 Python 提供了一个直观的在一行代码中赋值与交换(变量值)的方法 x, y = 10, 20 ...

  2. Python爬虫入门教程 50-100 Python3爬虫爬取 m3u8 视频-Python爬虫6操作

    爬虫背景 原计划继续写一下关于手机APP的爬虫,结果发现夜神模拟器总是卡死,比较懒,不想找原因了,哈哈,所以接着写后面的博客了,从50篇开始要写几篇python爬虫的骚操作,也就是用Python3通过 ...

  3. python爬虫selenium操作下拉框详解

    使用python爬虫的selenium操作网页的下拉框. 以该网站为例:https://www.17sucai.com/pins/demo-show?id=5926 该网页下存在多个可供测试的下拉框. ...

  4. python声音识别歌曲_听歌识曲!python这个骚操作可以了解一下!

    音频指纹识别的目的是确定音频的数字"摘要".从而与音频样本进行比对得出它出自哪首歌曲,像现在QQ音乐.网易云音乐等各大音乐软件都有此功能,它根据歌曲的前两到五秒识别音乐歌名.今天我 ...

  5. 王者荣耀五周年,带你入门Python爬虫基础操作(102个英雄+326款皮肤)

    简单的目录 1.概述 2.网页分析 2.1.html页面源数据 2.2.json源数据 3.数据请求 4.数据解析 4.1.html数据解析 4.1.1.bs4 4.1.2.xpath 4.2.jso ...

  6. 王者荣耀五周年,带你入门Python爬虫基础操作!

    1.概述 <王者荣耀>上线至今5个年头了,作为这些年国内最热门的手游(没有之一),除了带来游戏娱乐之外,我们在这五周年之际,试着从他们的官网找点乐趣,学习一下Python爬虫的一些简单基础 ...

  7. python实现骚操作,表白神技:整个朋友圈都是爱你的样子

    你还在为撩不到妹而烦恼吗? 是你不够帅吗? 还是不够幽默? 不,是因为你没有关注我! 关注学一波骚操作,学完撩妹,妹子都排到火车站了. 今天要给大家分享一手操作是教你如何用微信好友的头像拼成想要的文字 ...

  8. Python爬虫基础操作二

    目录 四.爬虫数据存储csv/excel 五.session与cookies 六.selenium库:控制浏览器操作 七.定时与邮件 上一篇爬虫操作基础,本篇讲解爬虫数据存储.cookies,sess ...

  9. 17个Python的骚操作,你都OK吗?

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 Python 是一门非常优美的语言,其简洁易用令人不得不感概人生苦 ...

最新文章

  1. 开发日记-20190915 关键词 汇编语言王爽版 第十二章
  2. 剑指offer 算法 (时间空间效率的平衡)
  3. 图像处理(三)图像分割(1)Random Walks分割
  4. Python学习笔记:面向对象编程(1)
  5. JavaScript拖拽
  6. HTML颜色代码表/颜色名(网摘)
  7. ubuntu中wps缺失字体
  8. HDU 6034 - Balala Power! | 2017 Multi-University Training Contest 1
  9. 钢结构节点板计算小程序_节点应用程序目录结构
  10. 金仕达程序化交易平台初步设计
  11. Flume下读取kafka数据后再打把数据输出到kafka,利用拦截器解决topic覆盖问题
  12. 批量计算图片的均值与标准差
  13. PKCS#11标准解读-Cryptoki库如何工作
  14. MySQL 变量的详细讲解
  15. sd3403开发板学习(一)
  16. kafka和zookeeper下载地址和安装方法和JAVA消费者方法
  17. 基于异常注入(混沌工程)的测试思考
  18. 仙剑奇侠传4 即将上线,情怀党集体走一波
  19. iPhone6 AirDrop找不到我的mac解决方法!注销mac和iPhone的icloud账号
  20. Ubuntu14.04使用Systemback进行系统克隆

热门文章

  1. 基本可编程芯片初始化字8255、8253、8259
  2. 计算机学院志愿服务活动 2013/12/23 爱心6+1,计算机学院赴淮南南站开展志愿服务活动...
  3. 【LeetCode】剑指 Offer 44. 数字序列中某一位的数字
  4. Linux服务器SSH免密登录
  5. java中为什么要使用代理
  6. 后缀自动机概念的温习
  7. 为什么中国人穷得只剩房子
  8. Android:通过startActivityForResult方法来得到Activity的回传值
  9. 存储过程,游标和触发器实例
  10. 【Ubuntu】VMware下Ubuntu和主机的共享文件夹