前言

现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户。源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的up主比比皆是。

今天,小编就带领大家来爬取并分析一下B站的最热视频排行榜,看看大家究竟都喜欢看什么样子的视频~~

01.榜单信息抓取

对于榜单的爬取,我们爬取了榜单的前一百名视频的播放量,弹幕数量,以及视频的点赞、投币、收藏和up主的粉丝数目等信息。

对于排行榜的播放量、弹幕数量和视频链接的爬虫程序,如下图所示:

由于网页是静态网页,所以我们可以直接采用requests请求的方式,来获取网页源代码,然后使用beautifulsoup来进行网页的解析,并抓取我们需要的信息。对于每个网页的点赞、投币、收藏和up主的粉丝数量。

可以采用我们之前介绍的web scraper来进行抓取(牛逼的chrome插件,不用一行代码,轻松爬取各大网站公开信息!(附视频))。最后将两部分的内容进行合并,得到最终的抓取信息。

对于数据中存在的字符串类型的数值,例如观看数量为“122万”,已经经过数据清洗转化为int类型的数值。

02.数据分析

接下来,我们来看一下,最热视频排行榜前十位中,up主们的粉丝数量的分布情况,程序如下图所示:

首先,我们对数据按照粉丝数量的数值进行降序排序,然后将前十名的粉丝数量进行按“万”为单位进行计数,最后利用pyecharts中的Bar类来及进行可视化的展示。结果如下。

可以看到,粉丝数量排名最高的up主是“罗翔说刑法”,粉丝数量超过了1000万,妥妥的B站超级up主,也说明了在B站上小伙伴们不仅是为了娱乐,还可以在B站上进行学习。大家看看前十的排行中,有没有大家关注的up主呢?

03.可视化展示

接下来,我们对于排行榜中弹幕的数目进行一个分布的可视化展示:

程序中 ,我们首先将弹幕的数量进行一个分段的划分,分别为0-5000,5000-10000一直到25000-30000,然后创建一个Pie类对象,进行数据的可视化展示。

可以看到,视频的弹幕数量中,有62%的是在0-5000的范围内,视频的个数随着弹幕数量的增加而呈现快速减少的趋势,弹幕数量在25000到30000之间的视频只有一个。这也符合大家正常的观看趋势。

那对于视频的点赞数目的视频分布又是怎样的呢?

上图中横坐标对应的是不同的点赞数量分布区间,利用0到2万指的是,点赞数在0到2万次,而纵坐标对应的就是视频的数量;

从点赞数和视频的分布数量来看,呈现了不规则的趋势,点赞在2万到4万和12万赞以上的视频数目是最多的;

而点赞在0到2万的视频数目是最少的,看来大家对于视频是不会吝啬自己的“赞”;

另一方面,相比于发弹幕,点赞的操作更加的便捷,也也许就是大家更愿意点赞的原因吧。

04.词云分析

最后,小编抓取了榜单排行第一位的视频《众所周知,猫是一种尊老爱幼的动物》的弹幕,并进行了去重,来看一下弹幕中大家提及的关键词都有哪些吧。

python爬取抖音用户数据的单位是_爬取并分析一下B站的最热视频排行榜,看看大家都喜欢看什么视频...相关推荐

  1. python爬取抖音用户数据_使用python爬取抖音视频列表信息

    如果看到特别感兴趣的抖音vlogger的视频,想全部dump下来,如何操作呢?下面介绍介绍如何使用python导出特定用户所有视频信息 抓包分析 Chrome Deveploer Tools Chro ...

  2. python爬取抖音用户数据_一篇文章教会你用Python抓取抖音app热点数据

    今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一 ...

  3. python爬取抖音用户数据_python批量爬取下载抖音视频

    本文实例为大家分享了python批量爬取下载抖音视频的具体代码,供大家参考,具体内容如下 import os import requests import re import sys import a ...

  4. python爬取抖音用户数据_「docker实战篇」python的docker-抖音web端数据抓取(19)

    import re import requests import time from lxml import etree def handle_decode(input_data,share_web_ ...

  5. 用python爬取淘宝用户数据的单位是_国内有没有数据爬取方面的公司?

    1).diffbot,官网:https://www.diffbot.com/,这是被腾讯资本加持的一家人工智能公司,通过人工智能技术,让"机器"识别网页内容,抓取关键内容,并输出软 ...

  6. python爬取抖音用户评论_python实现模拟器爬取抖音评论数据的示例代码

    目标: 由于之前和朋友聊到抖音评论的爬虫,demo做出来之后一直没整理,最近时间充裕后,在这里做个笔记. 提示:大体思路 通过fiddle + app模拟器进行抖音抓包,使用python进行数据整理 ...

  7. 抖音短视频数据抓取实战系列(三)——Fiddler抓取抖音用户详细信息数据

    抖音短视频数据抓取实战系列(三)--Fiddler抓取抖音用户详细信息数据 项目目录 1.抖音短视频数据抓取实战系列(〇)--前言 2.抖音短视频数据抓取实战系列(一)--模拟器的选择与设置 3.抖音 ...

  8. Python爬取抖音用户相关数据(目前最方便的方法)

    import json import urllib.parse import requeststestId = 'J1DaRdD'def getFansNum(strSecUid):'''获取粉丝数: ...

  9. 使用python + Fiddler爬取抖音用户下所有视频

    1.下载Fiddler 2.设置fiddler_FiddlerScript 加入以下内容H:/baidu  为json数据保存的文件夹 3.打开你要下载的抖音用户详情页面,右上角三个点,分享主页,复制 ...

最新文章

  1. Java中的BigDecimal类你真的了解吗?
  2. Linux vi/vim使用方法 总结
  3. SQL 学习与工作日常:语句积累
  4. Android 的 生命周期_ 界面的切换 和 吐司
  5. [ECMAScript] 说说你对set数据结构的理解
  6. XV6陷入,中断和驱动程序
  7. linux磁盘格式化
  8. mysql完成字符串分割
  9. 网络编程与分层协议设计:基于linux平台实现,网络编程与分层协议设计基于Linux平台实现[按需印刷]...
  10. YY一下淘宝商品模型
  11. 无法向会话状态服务器发出会话状态请求请。确保 ASP.NET State Service (ASP.NET 状态服务)已启动
  12. kubernetes 二进制安装(v1.20.16)(四)部署 master
  13. shp文件导入postgresql数据库
  14. 一文让你知道测试职业到底有哪些发展方向
  15. Ubuntu操作系统安装
  16. i3 10100f和i5 9400f哪个好?
  17. 从零开始学C语言 : 初阶指针
  18. 「Python爬虫系列讲解」七、基于数据库存储的 BeautifulSoup 招聘爬取
  19. 计算机英语五人对话,英文应聘对话5人的急求一篇英语对话 关于应聘的 最好是五人的...
  20. vue扫描二维码,真机调试

热门文章

  1. 服务器显示禁止设置多个ip地址,服务器禁止设置多个ip解决办法
  2. mysql sqlite 分页查询_sqlite分页查询
  3. python 自动收集经济数据_完结】数据分析思维案例实战92 用Python自动办公,做职场高手【更新中】91.一课经济...
  4. pytorch以特征图的输入方式训练LSTM模型
  5. pytorch Tensor转numpy并解决RuntimeError: Can‘t call numpy() on Tensor that requires grad.报错
  6. Linux 比特币Bitcoin采集节点搭建
  7. 程序—java年月日转换
  8. 水文特点是什么意思_自动气象站应建在什么地方?
  9. Python Day03
  10. 不同网段的PC与交换机的原理