Python爬虫爬了七天七夜终于爬出了博客园粉丝数排行榜

【Python爬虫】爬了七天七夜,终于爬出了博客园粉丝数排行榜!

爬虫数据采集接单,大小不限,欢迎各位科研教师,学生,企业相关人员咨询,QQ:739848314

起因

为了督促自己更加积极地写博客,我希望有一个排名系统能让我看到自己的进步。但是博客园对用户的排名体系相对是比较少的,主要是推荐博客排行和积分排行;但它们人数少难度大,短期内难以进入排名。因此我决定自力更生,爬取一份博客园粉丝数排行榜。

为避免误(封)会(号),先做如下声明:

1、本排行榜非官方发布,是我通过爬虫得到的。

2、爬虫过程一直坚持网站友好原则:

(1)只查询网站公开内容(当然,非公开的我也不会)

(2)为避免对服务器造成压力,一直使用单线程发送请求,且每两个请求之间都设置了一定时间间隔

首先介绍一下爬虫的思路,不感兴趣的朋友可以直接拉到文章最后看结果,或者点击这里查看:博客园粉丝数排行榜(粉丝数不少于100)

思路基本分两步:1、初始化种子用户;2、迭代。

1、初始化种子用户

这一步的目标,是找到尽可能多的种子用户,种子用户最好发过文章,尤其是高质量文章,这样他们有较大概率有较多的粉丝。

下面是我选取的种子用户来源,在博客园的对应位置在下图标出:

1、首页文章作者(200页):

2、精华文章作者(80+页)

3、编辑推荐文章作者(160+页)

4、推荐博客排行(100+人)

5、积分排行榜(3000人)

得到种子用户的用户名后,便可以在其个人页面获取昵称、粉丝数、园龄、文章首页等基本信息。例如,榜首(昵称:孤傲苍狼)的用户名是xdp-gacl,则他的个人页面是:https://home.cnblogs.com/u/xdp-gacl/

2、迭代

迭代的目的是从种子用户出发,找到其他粉丝数较多的用户;方法是获取种子用户“关注的人”——因为被关注的人有较大概率有更多的粉丝。用户关注的人在这里(还是以榜首孤傲苍狼为例):https://home.cnblogs.com/u/xdp-gacl/followees/

因此一轮迭代的步骤是这样的:

(1)遍历当前用户列表,得到他们关注的用户;

(2)将这些关注的用户加入到当前用户列表。

如此循环往复,进行多轮迭代;直到不再有新的用户为止。

3、不足

有义务说明一下本排行榜的不足之处:

(1)爬取时间主要在5.10-5.19,排行榜不会反映在此期间及之后发生的变化(如用户粉丝数上涨)。

(2)通过这种方式,肯定无法爬取所有用户信息,但是粉丝数较多的用户被爬到的概率要大得多;因此为了尽可能保证准确性,排行榜只列出了粉丝数不少于100的用户。

(3)排行究竟漏掉了多少用户,仍是一个未知数,如果你认为有什么方法上的漏洞,或者有漏掉的用户,欢迎讨论。

本次爬虫使用的技术比较常规:语言使用Python3,发送请求使用requests库,HTML解析使用BeautifulSoup,数据存储使用Redis;此外,爬虫过程中还会遇到动态加载页面、使用cookie进行身份校验等,都比较常见,不再赘述。

数据存储之所以选择Redis,主要是考虑到数据在内存中,访问快,且Redis提供了丰富的数据类型(如有序集合),使用起来比较方便;为了保证数据不丢失,一定要保证Redis开启了持久化,最好开启AOF持久化。

排行榜(粉丝数不小于100)可以点击链接查看:博客园粉丝数排行榜

前25名截图如下:

其中:

1、榜首是孤傲苍狼,有1.8w+粉丝,遥遥领先;在我爬虫这几天,涨了几十名粉丝,实在厉害。

2、粉丝数10000以上的,共有5位;粉丝数1000以上的,有286位;粉丝数100以上的,有3068位。

3、官方账号博客园团队有4644位粉丝,排第26位。

4、如果你的目标是进入前100名,至少需要2200+位粉丝;如果你的目标是进入前1000名,至少需要300+位粉丝。

Python爬虫爬了七天七夜终于爬出了博客园粉丝数排行榜相关教程

python爬虫抢演唱会_Python爬虫爬了七天七夜终于爬出了博客园粉丝数排行榜相关推荐

  1. python爬虫难度排行_【Python爬虫】爬了七天七夜,终于爬出了博客园粉丝数排行榜!...

    [Python爬虫]爬了七天七夜,终于爬出了博客园粉丝数排行榜! 文章发出不到30分钟就被首页下架了,默哀-- 起因 为了督促自己更加积极地写博客,我希望有一个排名系统能让我看到自己的进步.但是博客园 ...

  2. 【Python爬虫】爬了七天七夜,终于爬出了博客园粉丝数排行榜!

    文章发出不到30分钟就被首页下架了,默哀-- 起因 为了督促自己更加积极地写博客,我希望有一个排名系统能让我看到自己的进步.但是博客园对用户的排名体系相对是比较少的,主要是推荐博客排行和积分排行:但它 ...

  3. python爬虫抢演唱会_Python爬虫告诉你:为什么杨超越不会唱不会跳也能躺赢出道!...

    这个夏天,除了世界杯,还有101 上周六,创造101的小姐姐们终于成团,11个被粉丝选中的火箭少女即将一飞冲天. 打破土偶多项数据记录的土创终于出人头地,成为2018年夏天最受人关注的选秀.选手中成功 ...

  4. Selenium3+python3自动化(四十三)--爬取我的博客园粉丝的名称,并写入.text文件...

    爬取目标 1.爬取目标网站:我的博客:https://home.cnblogs.com/u/canglongdao/followers/ 爬取内容:爬取我的博客的所有粉丝的名称,并保存到txt 3.由 ...

  5. python 12306抢票_Python爬虫实战:12306抢票开源!

    今天就和大家一起来讨论一下python实现12306余票查询(pycharm+python3.7),一起来感受一下python爬虫的简单实践 我们说先在浏览器中打开开发者工具(F12),尝试一次余票的 ...

  6. python爬虫入门教程-Python爬虫入门教程——爬取自己的博客园博客

    互联网时代里,网络爬虫是一种高效地信息采集利器,可以快速准确地获取网上的各种数据资源.本文使用Python库requests.Beautiful Soup爬取博客园博客的相关信息,利用txt文件转存. ...

  7. python爬虫教程-Python爬虫入门教程——爬取自己的博客园博客

    互联网时代里,网络爬虫是一种高效地信息采集利器,可以快速准确地获取网上的各种数据资源.本文使用Python库requests.Beautiful Soup爬取博客园博客的相关信息,利用txt文件转存. ...

  8. nodejs爬虫与python爬虫_【nodeJS爬虫】前端爬虫系列 -- 小爬「博客园」

    写这篇 blog 其实一开始我是拒绝的,因为爬虫爬的就是cnblog博客园.搞不好编辑看到了就把我的账号给封了:). 言归正传,前端同学可能向来对爬虫不是很感冒,觉得爬虫需要用偏后端的语言,诸如 ph ...

  9. 推荐一部python教程_Python爬虫入门教程:博客园首页推荐博客排行的秘密

    1. 前言 虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客.(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高.看到首 ...

最新文章

  1. cocos2d-x解决中文乱码问题的几种办法
  2. openstack-mitaka之Telemetry服务(controller安装部署二)
  3. 测试用例的常用设计方法
  4. 人生第一次删好友,删的就是你!连路飞都怒了!
  5. windows上dmg转换cdr_云主机装黑果实践(6):处理云主机上变色龙启动后置过程:驱动和黑屏...
  6. react使用setState注意事项
  7. Android SDK Manager 更新慢解决办法
  8. scala运算符_Scala的所有符号运算符是什么意思?
  9. 对于圣杯布局和双飞翼布局的新认识
  10. 全网段ip扫描工具_FuzzScanner 信息搜集的工具集
  11. python必背入门代码-python必背内容有哪些
  12. Git钩子:自定义你的工作流
  13. HIL自动驾驶仿真:VTD分布式显示配置详解
  14. 2021年P气瓶充装模拟考试及P气瓶充装考试试题
  15. 通过docker搭建Yapi
  16. win8打印机显示服务器脱机,Win8连接局域网打印机失败解决方法汇总
  17. Mac PhotoShop CS6破解
  18. 子域名是什么意思?有关子域名的价值介绍
  19. 数据分析课堂笔记Day2(20221114)
  20. WebServer应用示例:不到100行代码玩转Siri语音控制 | ESP32轻松学(Arduino版)

热门文章

  1. hdu 4699 2个栈维护 or 伸展树 (2013多校联合)
  2. php反射类 ReflectionClass
  3. 【花雕动手做】有趣好玩的音乐可视化系列项目(32)--P10矩阵LED单元板
  4. 前端渲染方案:边缘渲染
  5. CanalServerException: rollback error, clientId:1001 batchId:xxx (2022-05-13)
  6. IT男写恶意程序获利超3000元,3万多QQ中招偷偷下载软件
  7. 浅析磁传感器HALL、AMR、GMR、TMR技术(转载)
  8. vue下拉框二级联动
  9. 线程池核心线程数的设置
  10. 2021年高考成绩查询时间会不会提前,2021高考完多久出成绩 高考什么时候出分