经常逛知乎、B站,作为吃瓜群众也很好奇这两个网站「头部用户」是哪些人。

为了满足各位好奇心,先上名单后上爬虫思路和代码。

居然是他们。

体验网页:

http://rank.python666.cn/

下面说说爬取和可视化思路:

这两个平台的被关注数都是公开的数据,不像微信公众号。所以只要你一个个用户翻过去,就可以找出哪些用户的“粉丝”更多。但显然,我们不可能人工来做这样的事情,这两个平台的账号数都已过亿。我们需要借助程序来做这件事。

即使用程序,上亿个用户每个都查一下,假设1秒钟查10个,也需要查100多天。所以我们需要改进下“算法”:知乎上选取几个大V用户(实际上我们就是从“张佳玮”一个号开始),只去查他们关注的用户,如果发现里面有超过1万粉的大V,就加入到大V队列末尾,直到遍历完整个队列。再对所有找到的用户进行排序。因为通常来说,一个大V总会被其他大V所关注,所以这样就几乎包括了所有大V。

B站上也是类似,但是选取了今年播放数超50万视频的UP主,以他们作为最初的大V队列。之后再通过他们关注的人进行数据更新。

当然,这种方法也存在遗漏的可能,比如或许存在某个大V,因为某些原因恰好没有被我们所抓取的队列总任何一个用户所关注,那么他就不会存于排行榜中。虽然从统计学的角度来说,这个概率很小。但我们也为此做了一个弥补,就是一旦你发现某个大V不在列表中,可以通过页面上方的输入框提交他的主页链接,那么我们就会收录在队列中,下次更新时就会增加进去。

有了这个排行,平台上的大V都有谁就一目了然了。更进一步,你还可以从细节看出些有意思的东西。举几个例子:

  1. B站UP主“敬汉卿”,上周因为名字被某公司恶意抢注的事件,得到较多关注,粉丝涨了100多万

  2. 本期B站排名第69的“罗汉解说”,上周上升24名。对这位UP主我不熟悉,看了下也是因为一个维权相关的视频受到了关注

  3. 知乎上现在排名最前和涨幅最猛的是几个自家账号:知乎日报、刘看山、知科技。丁香医生超张佳玮成知乎一哥,而他俩则远高于后面一位。

  4. 知乎榜上只有一位用户的关注是负增长:无耻采铜。老知乎用户应该知道他,也是有一些历史遗留八卦在其中。此账号65万关注,但现在已没有任何回答。

通过数据的整理和可视化,经常会让人发现一些平常注意不到的信息。这个排行工具只是个练手的小程序,功能还简陋,也没做移动端适配。不过对于需要运营知乎账号的新媒体从业者,或者榜上的创作者们,类似的工具还是很有用处的。普通用户也可以从榜上去发掘一些宝藏作者/UP主。

这个案例对于想要做爬虫的同学来说是个比较好的套路案例。类似的方法,你可以用在监控商品价格波动、新品上架、库存量变化、番剧更新、明星的微博等等需求中。尽管现在有很多工具可以完成类似的工作,但如果遇到工具不能满足的时候,如果自己可以动手用几行代码解决,那就很能增加你的竞争力了。

此项目实现有一点特殊的地方在于,它的数据是另一个分析项目的副产品,是使用 scrapy 抓取的。因此在本案例中,我们以原始数据的形式直接给出。具体 scrapy 抓取部分的代码会在后续项目中提供。

此项目用 django 搭建了展示的页面,前端展示使用了 Datatables 表格插件。定时抓取是通过 Linux 下的 cronjob 功能来实现(windows 可以使用计划任务),抓取时使用了 requests 模块。

源代码及文档:

https://github.com/spiderbeg/bili_rank

爬虫终于找到了知乎/B站 Top100大V,关注!相关推荐

  1. python爬取微博数据词云_爬虫篇:使用Python动态爬取某大V微博,再用词云分析...

    这是我用大V冯大辉老师最近5000多条微博内容做的词云,大家可以围观一下. 之前也写了一篇用python 来爬取朋友的QQ说说,大家也可以围观一下 好了,开始进入正题:#coding:utf-8 &q ...

  2. python b站 排行_用python爬虫追踪知乎/B站大V排行!

    今天要给大家看的,是在数据分析过程中产出的一个副产品: 知乎/B站的Top100大V排行 这个排行不是一次性的结果,而是 每周更新 的.所以从这个上面还可以显示出榜上大V一周来的用户增长和排名变化情况 ...

  3. python b站 排行_用python爬虫追踪知乎/B站大V排行

    原标题:用python爬虫追踪知乎/B站大V排行 最近,我们的实训生清风小筑在学习和实践 python 的数据分析,前几周把知乎.B站.虎扑上的各种信息都抓了个遍,比如粉丝数.关注关系.发布时间.阅读 ...

  4. python b站 排行_【圆老司】用python爬虫追踪知乎/B站大V排行

    之前我们一位同学在学习和实践 python 数据分析的时候把知乎.B站.虎扑上的各种信息都抓了个遍,比如粉丝数.关注关系.发布时间.阅读量.回复数.标题关键字.地域分布--然后又对这些数据进行了整理, ...

  5. “泻药,人在知乎,刚吃月饼”,众大V吃定制月饼后腹泻,知乎道歉

    来源:北京商报 谢邀?这次是真"泻药"! 中秋将至,知乎给自己的大V发月饼.但近日却有多名大V反映,吃了知乎的月饼之后拉肚子,还有网友玩起了"泻药"梗:&quo ...

  6. python爬虫知乎图片_python爬虫(爬取知乎答案图片)

    python爬虫(爬取知乎答案图片) 1.⾸先,你要在电脑⾥安装 python 的环境 我会提供2.7和3.6两个版本的代码,但是本⽂只以python3.6版本为例. 安装完成后,打开你电脑的终端(T ...

  7. Javascript:郁闷了好久终于找到原因了,原理还不明白

    <a href='javascript:Test()'>ttttt</a>与<input type="button" value="tttt ...

  8. 清理C盘(浪费了很多时间,终于找到了一个比较高效的方法)

    之前由于仗着C盘空间大,任性的往上面装了很多软件(200G). 终于在昨天,C盘飘红了!!!哭唧唧 本来用360的磁盘清理器清理了一下午,以为终于能多点儿空间,结果他妹的越清空间越小,最后直接给我清到 ...

  9. 《Python网络爬虫从入门到实践 第2版》第15章 爬虫实践二:知乎Live

    第15章 爬虫实践二:知乎Live 知乎是中文互联网一个非常大的知识社交平台.在知乎上,用户可以通过问答等交流方式获取知识.区别于百度知道等问答网站,知乎的回答往往非常深入,都是回答者精心写的,知乎上 ...

最新文章

  1. 生成对抗网络(GAN)
  2. java swing游戏_Java Swing井字游戏
  3. HMM和CRF 条件随机场详解
  4. vue控制台报错Duplicate keys detected: 'xxxx'. This may cause an update error.解决方案
  5. 【Head First 设计模式】-装饰者模式读后总结
  6. 百练(十三~十六)题解
  7. Vue项目整体添加加载中Loading页面
  8. win10计算机的数字小键盘,让Win10登录时默认开启数字小键盘
  9. BIOS设置中功能的翻译及介绍
  10. 练习4-10 找出最小值 (20分) 本题要求编写程序,找出给定一系列整数中的最小值。
  11. 51单片机两只老虎 c语言,基于51单片机的简易电子琴(两只老虎)
  12. python 导入自己写的类
  13. go juju/ratelimit 简单使用示例
  14. YV12,I420,YUV420P的区别与格式转换
  15. java中产生随机数
  16. Python量化代码源码160个,聚宽直接使用,已全部整理
  17. 用于android的音乐可视化工具,Android音乐播放可视化
  18. 最佳编程语言_2020年最佳职业和未来编程语言
  19. linux 下怎么将可执行文件做成镜像 开机就能运行这个可执行文件,圣诞老人的ELFs:在没有execve的情况下运行Linux可执行文件...
  20. mybatis 插件机制

热门文章

  1. 微信中那种卡片形式的图文链接是如何制作的
  2. 格林纳达常驻WTO大使孙宇晨视频会见印度驻WTO大使
  3. Aura Component Cope Snippets
  4. 电话号码组成分析 东海陈光剑
  5. Python语言实现机器学习
  6. C#中ref和out关键字的应用以及区别。
  7. 浔阳江头夜送客,枫叶荻花秋瑟瑟——python标准输入、标准输出和注释
  8. 《C游记》 第二章 - 初识分支句 循环助本心(贰)
  9. 实习随笔2(独自乘车南下深圳)
  10. 模拟【The Biggest Water Problem】+模拟【明明的随机数】