之前我们一位同学在学习和实践 python 数据分析的时候把知乎、B站、虎扑上的各种信息都抓了个遍,比如粉丝数、关注关系、发布时间、阅读量、回复数、标题关键字、地域分布……然后又对这些数据进行了整理,将数据通过各类图表进行可视化,进而分析出诸如:用户最喜欢在什么时候刷、什么样的标题更容易被点击、哪个地区的用户最喜欢评论、哪个UP主最勤奋等等。

在这个过程中,产出的一个副产品:

知乎/B站的Top100大V排行

这个排行不是一次性的结果,而是每周更新的。所以从这个上面还可以显示出榜上大V一周来的用户增长和排名变化情况。排行榜 Top10(上周数据)

微博早期是有一个“粉丝数排行榜”的,可以看到谁的被关注数最多,现在好像已经取消了。像知乎、B站这种以内容为核心的网站,官方没有提供这样的榜单。不过某些吃瓜群众(比如我)多少还是会好奇,“头部”用户有哪些人?

这两个平台的被关注数都是公开的数据,不像微信公众号。所以只要你一个个用户翻过去,就可以找出哪些用户的“粉丝”更多。但显然,我们不可能人工来做这样的事情,这两个平台的账号数都已过亿。我们需要借助程序来做这件事。

即使用程序,上亿个用户每个都查一下,假设1秒钟查10个,也需要查100多天。所以我们需要改进下“算法”:知乎上选取几个大V用户(实际上我们就是从“张佳玮”一个号开始),只去查他们关注的用户,如果发现里面有超过1万粉的大V,就加入到大V队列末尾,直到遍历完整个队列。再对所有找到的用户进行排序。因为通常来说,一个大V总会被其他大V所关注,所以这样就几乎包括了所有大V。

B站上也是类似,但是选取了今年播放数超50万视频的UP主,以他们作为最初的大V队列。之后再通过他们关注的人进行数据更新。

当然,这种方法也存在遗漏的可能,比如或许存在某个大V,因为某些原因恰好没有被我们所抓取的队列总任何一个用户所关注,那么他就不会存于排行榜中。虽然从统计学的角度来说,这个概率很小。但我们也为此做了一个弥补,就是一旦你发现某个大V不在列表中,可以通过页面上方的输入框提交他的主页链接,那么我们就会收录在队列中,下次更新时就会增加进去。

有了这个排行,平台上的大V都有谁就一目了然了。更进一步,你还可以从细节看出些有意思的东西。举几个例子:B站的罗翔老师最近增粉势头很猛,一周就多了34万多,对于大多数UP主来说是可望而不可即的

知乎上现在排名最前和涨幅最猛的是几个自家账号:知乎日报、刘看山、知乎科技、知乎电影。丁香医生超张佳玮成知乎一哥,而他俩则远高于后面一位。

知乎榜上只有一位用户的关注是负增长:无耻采铜。老知乎用户应该知道他,也是有一些历史遗留八卦在其中。此账号65万关注,但现在已没有任何回答。

相比之下,B站账号掉粉就司空见惯了。几乎每个大规模掉粉的背后都能顺藤摸出瓜来。

通过数据的整理和可视化,经常会让人发现一些平常注意不到的信息。这个排行工具只是个练手的小程序,功能还简陋,也没做移动端适配。不过对于需要运营知乎账号的新媒体从业者,或者榜上的创作者们,类似的工具还是很有用处的。普通用户也可以从榜上去发掘一些宝藏作者/UP主。

这个案例对于想要做爬虫的同学来说是个比较好的套路案例。类似的方法,你可以用在监控商品价格波动、新品上架、库存量变化、番剧更新、明星的微博等等需求中。尽管现在有很多工具可以完成类似的工作,但如果遇到工具不能满足的时候,如果自己可以动手用几行代码解决,那就很能增加你的竞争力了。

此项目用 django 搭建了展示的页面,前端展示使用了 Datatables 表格插件。定时抓取是通过 Linux 下的 cronjob 功能来实现(windows 可以使用计划任务),抓取时使用了 requests 模块。

排行网页已上线,不过目前只是放在一个测试服务器上,带宽不大,有时访问人多会卡住。如果大家觉得这个功能有用,或者有其他建议的话,可以在本文下留言,我们之后还会再做进一步的更新。

在浏览器中打开rank.python666.cn 可以进入排行页面。

一起学,不孤单

圆老司 @ Crossin的编程教室

python b站 排行_【圆老司】用python爬虫追踪知乎/B站大V排行相关推荐

  1. python b站 排行_用python爬虫追踪知乎/B站大V排行

    原标题:用python爬虫追踪知乎/B站大V排行 最近,我们的实训生清风小筑在学习和实践 python 的数据分析,前几周把知乎.B站.虎扑上的各种信息都抓了个遍,比如粉丝数.关注关系.发布时间.阅读 ...

  2. python b站 排行_用python爬虫追踪知乎/B站大V排行!

    今天要给大家看的,是在数据分析过程中产出的一个副产品: 知乎/B站的Top100大V排行 这个排行不是一次性的结果,而是 每周更新 的.所以从这个上面还可以显示出榜上大V一周来的用户增长和排名变化情况 ...

  3. python如何自学模块_跟老齐学Python之Import 模块

    认识模块 对于模块,在前面的一些举例中,已经涉及到了,比如曾经有过:import random (获取随机数模块).为了能够对模块有一个清晰的了解,首先要看看什么模块,这里选取官方文档中对它的定义: ...

  4. python分析出nba球员的位置_【圆老司】用python展示NBA球员出手位置偏好

    之前发过一篇用python展示NBA球员出手位置偏好的视频: 有些同学想要其中的代码和讲解.再加上当时用的NBA官方接口现在极不稳定,几乎无法使用,所以我这里就再发一篇图文,简单讲解下代码,以及新的替 ...

  5. 跟老齐学python轻松入门_跟老齐学Python 轻松入门 中文pdf_Python教程

    资源名称:跟老齐学Python 轻松入门 中文pdf 第0章 预备 1第1章 基本对象类型 13第2章 语句和文件 100第3章 函数 145第4章 类 181第5章 错误和异常 233第6章 模块 ...

  6. python新手入门教程思路-Python新手入门教程_教你怎么用Python做数据分析

    Python新手入门教程_教你怎么用Python做数据分析 跟大家讲了这么多期的Python教程,有小伙伴在学Python新手教程的时候说学Python比较复杂的地方就是资料太多了,比较复杂.很多网上 ...

  7. python实验室怎么样_跟老齐学Python之一个免费的实验室

    在学生时代,就羡慕实验室,老师在里面可以鼓捣各种有意思的东西.上大学的时候,终于有机会在实验室做大量实验了,因为我是物理系,并且,遇到了一位非常令我尊敬的老师--高老师,让我在他的实验室里面,把所有已 ...

  8. 零基础python从入门到精通 pdf-跟老齐学Python从入门到精通 电子版(pdf格式)

    跟老齐学python从入门到精通是一款由老齐写作的Python电子书籍.书籍讲述了零基础读者的Python入门教程,内容涵盖了Python的基础知识和初步应用,需要的赶紧在巴士下载站下载吧! 目录: ...

  9. python画图小猪佩奇_吊炸天!Python 20秒画出小猪佩奇

    原标题:吊炸天!Python 20秒画出小猪佩奇 今年社交平台上的带货女王是谁?范冰冰?杨幂?Angelababy?不,是猪猪女孩小猪佩奇. 小猪佩奇在构图基本是各种曲线,类抛物线.类圆.类椭圆.类二 ...

最新文章

  1. 1102 Invert a Binary Tree 需再做
  2. 统计简单学_正态分布
  3. SaltStack组件
  4. PHP + Redis 实现一个简单的twitter
  5. 12月16日课程安排
  6. 输入学生成绩,并按升序排列 Ascending.java
  7. OpenInfra Days China 2020大会议程已上线!
  8. php border-style,border-style
  9. 如何恢复初始git提交?
  10. ubuntu 学习笔记2--安装tomcat
  11. wget下载命令使用说明
  12. robocode_Robocode大师的提示,技巧和建议的集合
  13. SECS/GEM 产品开发和介绍
  14. 利用计算机为祖国做贡献的人,李晓维:祖国,我把科研事业献给您
  15. 优酷搞笑--万万没想到--台词
  16. 30行js爬取顶点全网任意小说
  17. 什么是纯虚函数?什么是抽象类?
  18. HCIA笔记-----第二天
  19. APISpace 中文分词API
  20. 张粤磊:从杂牌野战军到王牌正规军的蜕变

热门文章

  1. 对于威纶通MT8071ip与正点原子stm32f103的modbus通信,如何接线和配置
  2. cocos2dx3.16+lua 音乐音效
  3. 【教程】0基础开发游戏的第三课-使用Playmaker制作坦克开炮模块
  4. 老司机管理系统(Julia Ann)
  5. Cydia Tweak--Cydia Substrate
  6. vue3.0(包含中文官方文档)
  7. 小程序利用云函数发送电子邮件功能详解
  8. 京东云重磅发布 JDStack 5.0 , 打造行业最轻量专有云
  9. 英语学习详细笔记(十八)连接词
  10. 山东专升本计算机网络(四)