在文章开始前,先来一张图给大家热热身。这里是宅男们最喜欢的妹子中排名前200位的头像(实际193张图,部分不规则的图已被二胖过滤)。排名不分先后哈!快来看看有没有你们熟悉的面孔。

找到眼熟的人了吗?说不定你也在里面哦,找到了别忘记点赞哈,文末有福利!!!

二胖相信大家最关心以下两点:

1. 除了照片外还有什么信息?

——那必须呀,肯定还有干货。

2. 这些漂亮美眉是怎样被找出来的呢?

——二胖马上就给大家解答。

01

挖取策略

PS:不关心技术和流程的童鞋可以直接跳过这部分看后面的数据分析部分

首先给大家解释下,二胖是怎么找到这些漂亮美眉的。

先用一张流程图介绍一下整个流程:[左边的方框代表操作,右边的椭圆代表数据]

第一步

人工选择的初始群体很关键,但是并不难。

可以从关注某些问题的相关用户中抓取目标人群,如问题:女生腿长是什么感觉?或者抓取这些问题下活跃男性用户关注或点赞的女性。

二胖这里选择了部分问题和部分男性的关注动态和点赞动态,筛选出了第一批女性群体,也就是上图中的初始美眉群体(具体选择了哪些问题和男性用户二胖就不在这里公布了)。

她们由于某种特殊的关联或者用户行为被聚类在了一起,我们可以简称她们为相似性用户。这里二胖找到了2553人作为初始群体,下图为读取的redis中的记录数。

第二步

下面需要抓取所有美眉的男性粉丝的关注关系。

请注意:这里为什么要抓取关注关系,而不是男性粉丝的集合呢?——因为我们要找到“最佳宅男”。

举个例子:假设初始美眉群体有三个用户:小美、中美和大美,关注关系如下所示:

男性粉丝的集合是:{1,2,3,4,5}

而关注关系指的是:有几条线就有几个关注关系,这里有9个关注关系。

在这一步中,二胖共抓取了219165条关注关系。

第三步

下面需要找出上一步中关注初始女性群体中人数最多的男性粉丝。

这里很容易理解,比如在大美中美小美那张图里,关注初始女性群体人数最多的男性分别是3>2>=4>1>=5,“最佳宅男”就是3啦。

对上一步中的数据进行排序后,共计男性粉丝人数105379人。

二胖在这里截取了前2106名男性作为“宅男”群体。

悄悄给大家看看排行前10的“宅男们”,“宅男”第一名关注了2000多位初始女性美眉中的858人,快一半了,我只想说,老司机带带我。

当然,二胖肯定不能公布他们的信息啦。【下图中打码的部分是他们的url_token,即唯一身份标识;后面的数字是他们所关注的初始美眉群体中的美眉数量】

我只能说,排第一的哥们儿,你吓到我了,赔钱。

第四步

有了这2000多个“宅男”就好办了,接下来的步骤和上面类似。抓取这些“宅男”关注的女性用户,同样按关注关系排序,得到前2000名最受欢迎的美眉:

其中女性关注关系有:344849条。

女性用户集合中有:66869人。

同样,悄悄给大家看看排行前十的美眉被多少宅男关注了,二胖已经悄悄地看了这些美眉们的主页,确实很漂亮,她们的回答中也有特别多的照片

用python挖一挖知乎上宅男们最喜欢的1000个妹子相关推荐

  1. 用Python挖一挖知乎宅男最喜欢的1000个妹子

    作者 | 二胖 来源 | 大数据前沿(ID:bigdataqianyan) 在文章开始前,先来一张图给大家热热身.这里是宅男们最喜欢的妹子中排名前200位的头像(实际193张图,部分不规则的图已被二胖 ...

  2. Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中

    Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块 主要是requests模块,用于得到的网页的数据 安装命令为:pip install requests 2 ...

  3. 【Python】爬取知乎上的问答数据来汇总出有哪些免费的论文查重网站

    本文目录:哪里获取-如何获取-代码编写-数据处理 本文作者:小赖同学 最近突然感觉自己越来越社会人,这不,小我三届的师弟都来请教我有关毕业的事情了. 不知不觉,就又到了一年的毕业季,曾经在校园潇洒的我 ...

  4. 三十多岁学python来得及吗_三十岁宅男自学Python,以前没有编程经验|后院活动部...

    原标题:三十岁宅男自学Python,以前没有编程经验|后院活动部 小咖是一个三十岁的有志青年,自从几个月前开始在网上自学Python,在没有任何编程经验下进步神速. "第一周我平均每天看一章 ...

  5. 学会python爬虫,这简直就是二次元宅男的福利

    目标网站 https://divnil.com 1.先去主页面获取每个图片的详细页面的链接 这链接还是比较好获取的,直接 F12 审核元素,或者右键查看代码,手机上chrome和firefox在url ...

  6. 用Python爬取知乎上关于程序员的神回复

    数据科学俱乐部 中国数据科学家社区 ♚ 作者:强哥,曾供职于摩根士丹利和eBay. 爬取知乎神回复很简单,这篇文章我们就来揭晓一下背后的原理. 知乎神回复都有些什么特点呢?我们先来观察一下 大家看出什 ...

  7. python 爬取搞笑视频_Python爬取知乎上搞笑视频,一顿爆笑送给大家

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:Huangwei AI 来源:Python与机器学习之路 PS:如有需 ...

  8. 利用python爬取_在知乎上利用Python爬取了三百万数据!服务器崩了!企业级大项目...

    请各位注意: 以下所有分析结果都基于我抓取到的这300万用户的个人信息,非权威分析,仅供参考. 数据抓取时间为2017年7月份,用户数据会随着时间推移而变化,所以该报告具有一定时效性. 知乎的用户个人 ...

  9. python爬取知乎上的小姐姐

    知乎上的东西质量都很好,有些问题下会有很多很好的回答,其中就有些关于图片的. 比如: 你见过最漂亮的女生长什么样? 平常人可以漂亮到什么程度? 有没有第一次见就让人震惊的手机壁纸? 有哪些图片适合做电 ...

最新文章

  1. 文件上传到ftp服务工具类
  2. improvement不可数
  3. 【笔记】numpy使用详解 matplotlib绘图
  4. 张量网络机器学习:最近的进展和前沿,109页ppt
  5. 创建一个新数组并指定数组的长度
  6. NTKO OFFICE控件帮助文档部分汇总
  7. B2B跨境电子商务平台综合服务解决方案 1
  8. 基于Matlab/Simulink的1/4车辆动力学模型
  9. Python学习笔记-条件语句
  10. 一、财务框架与基础知识
  11. psp/psvita联机工具xlinkhandheldassistant,平台Xlink Kai
  12. 祝所有的考生考试顺利!!!
  13. vue element-ui中有关表格中的数据整条显示红色/绿色等等颜色的问题
  14. 服务器显示蜘蛛,解决因服务器而导致的蜘蛛抓取失败
  15. 2019经济寒冬,软件定制开发公司的竞争力在哪里??
  16. python爬取地表水水质监测数据(爬虫)
  17. 读书笔记之富爸爸穷爸爸
  18. JAVA的ActionListener监听器
  19. Java 第二次作业
  20. postcss-px-to-viewport插件教程和适配问题(移动端和PC端)

热门文章

  1. 为容器提供持久存储,这个方法试试看
  2. BeetleX.Redis基础操作和对象格式
  3. 误删50节点K8s集群为何3小时才能复原?Spotify揭自家事故幕后经验
  4. 给 asp.net core 写一个简单的健康检查
  5. IIS作为ASP.NET Core2.1 反向代理服务器未说的秘密
  6. 手写AspNetCore 认证授权代码
  7. 在 Windows 上可以用 Docker 吗?| 洞见
  8. asp.net core 错误定位 vs2017 远程调试部署在centos上的asp.net core程序
  9. 升级项目到.NET Core 2.0,在Linux上安装Docker,并成功部署
  10. 一步步学习EF Core(2.事务与日志)