现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户。源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的up主比比皆是。

今天,小编就带领大家来爬取并分析一下B站的最热视频排行榜,看看大家究竟都喜欢看什么样子的视频~~

01.榜单信息抓取

对于榜单的爬取,我们爬取了榜单的前一百名视频的播放量,弹幕数量,以及视频的点赞、投币、收藏和up主的粉丝数目等信息。

对于排行榜的播放量、弹幕数量和视频链接的爬虫程序,如下图所示:

由于网页是静态网页,所以我们可以直接采用requests请求的方式,来获取网页源代码,然后使用beautifulsoup来进行网页的解析,并抓取我们需要的信息。对于每个网页的点赞、投币、收藏和up主的粉丝数量。

可以采用我们之前介绍的web scraper来进行抓取。最后将两部分的内容进行合并,得到最终的抓取信息。

对于数据中存在的字符串类型的数值,例如观看数量为“122万”,已经经过数据清洗转化为int类型的数值。

02.数据分析

接下来,我们来看一下,最热视频排行榜前十位中,up主们的粉丝数量的分布情况,程序如下图所示:

首先,我们对数据按照粉丝数量的数值进行降序排序,然后将前十名的粉丝数量进行按“万”为单位进行计数,最后利用pyecharts中的Bar类来及进行可视化的展示。结果如下。

可以看到,粉丝数量排名最高的up主是“罗翔说刑法”,粉丝数量超过了1000万,妥妥的B站超级up主,也说明了在B站上小伙伴们不仅是为了娱乐,还可以在B站上进行学习。大家看看前十的排行中,有没有大家关注的up主呢?

03.可视化展示

接下来,我们对于排行榜中弹幕的数目进行一个分布的可视化展示:

程序中 ,我们首先将弹幕的数量进行一个分段的划分,分别为0-5000,5000-10000一直到25000-30000,然后创建一个Pie类对象,进行数据的可视化展示。

可以看到,视频的弹幕数量中,有62%的是在0-5000的范围内,视频的个数随着弹幕数量的增加而呈现快速减少的趋势,弹幕数量在25000到30000之间的视频只有一个。这也符合大家正常的观看趋势。

那对于视频的点赞数目的视频分布又是怎样的呢?

上图中横坐标对应的是不同的点赞数量分布区间,利用0到2万指的是,点赞数在0到2万次,而纵坐标对应的就是视频的数量;

从点赞数和视频的分布数量来看,呈现了不规则的趋势,点赞在2万到4万和12万赞以上的视频数目是最多的;

而点赞在0到2万的视频数目是最少的,看来大家对于视频是不会吝啬自己的“赞”;

另一方面,相比于发弹幕,点赞的操作更加的便捷,也也许就是大家更愿意点赞的原因吧。

04.词云分析

最后,小编抓取了榜单排行第一位的视频《众所周知,猫是一种尊老爱幼的动物》的弹幕,并进行了去重,来看一下弹幕中大家提及的关键词都有哪些吧。

python b站 礼物_用Python爬取并分析了B站最热排行榜,我发现了这些秘密相关推荐

  1. python爬取抖音用户数据的单位是_爬取并分析一下B站的最热视频排行榜,看看大家都喜欢看什么视频...

    前言 现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉 ...

  2. 用Python爬取并分析了B站最热排行榜,我发现了这些秘密

    现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...

  3. bilibili助手C2C服务器,Bilibili (B站)200万用户数据爬取与分析(附源码)

    原标题:Bilibili (B站)200万用户数据爬取与分析(附源码) 数据挖掘入门与实战 公众号: datadw 该爬虫仅供学习使用 B站用户爬虫 B站视频爬虫 B站弹幕下载器 关注并回复公众号da ...

  4. 【Python课程作业】食物数据的爬取及分析(详细介绍及分析)

    食物数据爬取及分析 项目概述 网页爬取 食物类别 表头设置 食物数据爬取保存 运行结果 数据分析 CSV文件读取 总体描述 分类分析 特定食物分析 运行结果 项目资源 项目概述 日常生活中我们食用的各 ...

  5. python视频网站分类_科学网—爬取网站视频简单方法之一:python的you-get模块使用方法 - 周朝宪的博文...

    目的:网站有海量的视频(包括讲座.电影电视剧等),用python语言的you-get模块爬下来 1.安装you-get模块 在pycharm的terminal下安装.pip install you-g ...

  6. python爬虫小案例_从豆瓣爬取《哪吒之魔童降世》的剧照

    一.在豆瓣电影网爬取以下剧照保存到本地: 本次案例只爬取前 5 页的剧照,先获取前五页的链接: for i in range(5):url = 'https://movie.douban.com/su ...

  7. python数据采集课设-京东手机评论爬取与分析

    数据采集模块: 1.手机评论采集,数据信息(评论,评分,用户,评论发布时间) 爬取不同的手机评论,需要设置不同的id 如上图红圈处即为手机vivo S12的id import requests imp ...

  8. python爬虫实例电商_Python实现爬取并分析电商评论

    现如今各种APP.微信订阅号.微博.购物网站等网站都允许用户发表一些个人看法.意见.态度.评价.立场等信息.针对这些数据,我们可以利用情感分析技术对其进行分析,总结出大量的有价值信息.例如对商品评论的 ...

  9. python分析b站_Python爬取并分析B站最热排行榜,我发现了这些秘密

    现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...

最新文章

  1. Windows7下配置MinGW+CodeBlocks+OpenCV2.3.1
  2. windows下配置java环境jdk
  3. 【JZOJ1637】【ZJOI2009】狼和羊的故事
  4. 【堆栈应用一】一个数divided=几个最小质因数的乘积
  5. 函数初识(文字总结)
  6. 谈判学:三招了解对方底线
  7. MySQL主从复制遇到的问题以及如何解决
  8. html5中语义元素的是,在html5中语义元素应用分析
  9. JZOJ4742 单峰
  10. AttributeError: 'module' object has no attribute 'main'
  11. UVa 1592 数据库
  12. 开关电源测试系统用哪个软件,开关电源测试系统
  13. 成熟的Richardson模型
  14. [转载]云架构师的进阶之路
  15. 阿里健康:大数据下的北京雾霾经济
  16. 【detectron】FPN网络中RPN构建与相应的损失函数
  17. QEMU-KVM设备热插拔机制简析
  18. 取号机排队取号服务算法(数据结构 队列(Queue))
  19. 新零售 —— 智慧门店原理详解
  20. Java—二维码生成与识别(一)

热门文章

  1. 助力政企高效协同办公,巨杉数据库与九思软件完成产品互认证
  2. 大话设计模式之爱你一万年:第十五章 行为模式:状态模式:为烧烤造个电梯:1. 状态模式基本概念
  3. idea的代码突然消失了怎么复原
  4. 日语蔬菜水果相关词汇(3)
  5. 开源AI智能客服系统源码 人工智能对话软件源码 完整程序包+搭建教程
  6. 2021icpc上海站G
  7. 究极丐版客制化机械键盘制作全纪录(下:程序下载)
  8. idea错误: 找不到或无法加载主类 cn.itcast.user.UserApplication
  9. Appium-Background App(后台应用程序)
  10. OSPF路由协议知识点总结 2023.1.7