python爬取抖音用户数据的单位是_爬取并分析一下B站的最热视频排行榜,看看大家都喜欢看什么视频...
前言
现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户。源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的up主比比皆是。
今天,小编就带领大家来爬取并分析一下B站的最热视频排行榜,看看大家究竟都喜欢看什么样子的视频~~
01.榜单信息抓取
对于榜单的爬取,我们爬取了榜单的前一百名视频的播放量,弹幕数量,以及视频的点赞、投币、收藏和up主的粉丝数目等信息。
对于排行榜的播放量、弹幕数量和视频链接的爬虫程序,如下图所示:
由于网页是静态网页,所以我们可以直接采用requests请求的方式,来获取网页源代码,然后使用beautifulsoup来进行网页的解析,并抓取我们需要的信息。对于每个网页的点赞、投币、收藏和up主的粉丝数量。
可以采用我们之前介绍的web scraper来进行抓取(牛逼的chrome插件,不用一行代码,轻松爬取各大网站公开信息!(附视频))。最后将两部分的内容进行合并,得到最终的抓取信息。
对于数据中存在的字符串类型的数值,例如观看数量为“122万”,已经经过数据清洗转化为int类型的数值。
02.数据分析
接下来,我们来看一下,最热视频排行榜前十位中,up主们的粉丝数量的分布情况,程序如下图所示:
首先,我们对数据按照粉丝数量的数值进行降序排序,然后将前十名的粉丝数量进行按“万”为单位进行计数,最后利用pyecharts中的Bar类来及进行可视化的展示。结果如下。
可以看到,粉丝数量排名最高的up主是“罗翔说刑法”,粉丝数量超过了1000万,妥妥的B站超级up主,也说明了在B站上小伙伴们不仅是为了娱乐,还可以在B站上进行学习。大家看看前十的排行中,有没有大家关注的up主呢?
03.可视化展示
接下来,我们对于排行榜中弹幕的数目进行一个分布的可视化展示:
程序中 ,我们首先将弹幕的数量进行一个分段的划分,分别为0-5000,5000-10000一直到25000-30000,然后创建一个Pie类对象,进行数据的可视化展示。
可以看到,视频的弹幕数量中,有62%的是在0-5000的范围内,视频的个数随着弹幕数量的增加而呈现快速减少的趋势,弹幕数量在25000到30000之间的视频只有一个。这也符合大家正常的观看趋势。
那对于视频的点赞数目的视频分布又是怎样的呢?
上图中横坐标对应的是不同的点赞数量分布区间,利用0到2万指的是,点赞数在0到2万次,而纵坐标对应的就是视频的数量;
从点赞数和视频的分布数量来看,呈现了不规则的趋势,点赞在2万到4万和12万赞以上的视频数目是最多的;
而点赞在0到2万的视频数目是最少的,看来大家对于视频是不会吝啬自己的“赞”;
另一方面,相比于发弹幕,点赞的操作更加的便捷,也也许就是大家更愿意点赞的原因吧。
04.词云分析
最后,小编抓取了榜单排行第一位的视频《众所周知,猫是一种尊老爱幼的动物》的弹幕,并进行了去重,来看一下弹幕中大家提及的关键词都有哪些吧。
python爬取抖音用户数据的单位是_爬取并分析一下B站的最热视频排行榜,看看大家都喜欢看什么视频...相关推荐
- python爬取抖音用户数据_使用python爬取抖音视频列表信息
如果看到特别感兴趣的抖音vlogger的视频,想全部dump下来,如何操作呢?下面介绍介绍如何使用python导出特定用户所有视频信息 抓包分析 Chrome Deveploer Tools Chro ...
- python爬取抖音用户数据_一篇文章教会你用Python抓取抖音app热点数据
今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一 ...
- python爬取抖音用户数据_python批量爬取下载抖音视频
本文实例为大家分享了python批量爬取下载抖音视频的具体代码,供大家参考,具体内容如下 import os import requests import re import sys import a ...
- python爬取抖音用户数据_「docker实战篇」python的docker-抖音web端数据抓取(19)
import re import requests import time from lxml import etree def handle_decode(input_data,share_web_ ...
- 用python爬取淘宝用户数据的单位是_国内有没有数据爬取方面的公司?
1).diffbot,官网:https://www.diffbot.com/,这是被腾讯资本加持的一家人工智能公司,通过人工智能技术,让"机器"识别网页内容,抓取关键内容,并输出软 ...
- python爬取抖音用户评论_python实现模拟器爬取抖音评论数据的示例代码
目标: 由于之前和朋友聊到抖音评论的爬虫,demo做出来之后一直没整理,最近时间充裕后,在这里做个笔记. 提示:大体思路 通过fiddle + app模拟器进行抖音抓包,使用python进行数据整理 ...
- 抖音短视频数据抓取实战系列(三)——Fiddler抓取抖音用户详细信息数据
抖音短视频数据抓取实战系列(三)--Fiddler抓取抖音用户详细信息数据 项目目录 1.抖音短视频数据抓取实战系列(〇)--前言 2.抖音短视频数据抓取实战系列(一)--模拟器的选择与设置 3.抖音 ...
- Python爬取抖音用户相关数据(目前最方便的方法)
import json import urllib.parse import requeststestId = 'J1DaRdD'def getFansNum(strSecUid):'''获取粉丝数: ...
- 使用python + Fiddler爬取抖音用户下所有视频
1.下载Fiddler 2.设置fiddler_FiddlerScript 加入以下内容H:/baidu 为json数据保存的文件夹 3.打开你要下载的抖音用户详情页面,右上角三个点,分享主页,复制 ...
最新文章
- Java中的BigDecimal类你真的了解吗?
- Linux vi/vim使用方法 总结
- SQL 学习与工作日常:语句积累
- Android 的 生命周期_ 界面的切换 和 吐司
- [ECMAScript] 说说你对set数据结构的理解
- XV6陷入,中断和驱动程序
- linux磁盘格式化
- mysql完成字符串分割
- 网络编程与分层协议设计:基于linux平台实现,网络编程与分层协议设计基于Linux平台实现[按需印刷]...
- YY一下淘宝商品模型
- 无法向会话状态服务器发出会话状态请求请。确保 ASP.NET State Service (ASP.NET 状态服务)已启动
- kubernetes 二进制安装(v1.20.16)(四)部署 master
- shp文件导入postgresql数据库
- 一文让你知道测试职业到底有哪些发展方向
- Ubuntu操作系统安装
- i3 10100f和i5 9400f哪个好?
- 从零开始学C语言 : 初阶指针
- 「Python爬虫系列讲解」七、基于数据库存储的 BeautifulSoup 招聘爬取
- 计算机英语五人对话,英文应聘对话5人的急求一篇英语对话 关于应聘的 最好是五人的...
- vue扫描二维码,真机调试
热门文章
- 服务器显示禁止设置多个ip地址,服务器禁止设置多个ip解决办法
- mysql sqlite 分页查询_sqlite分页查询
- python 自动收集经济数据_完结】数据分析思维案例实战92 用Python自动办公,做职场高手【更新中】91.一课经济...
- pytorch以特征图的输入方式训练LSTM模型
- pytorch Tensor转numpy并解决RuntimeError: Can‘t call numpy() on Tensor that requires grad.报错
- Linux 比特币Bitcoin采集节点搭建
- 程序—java年月日转换
- 水文特点是什么意思_自动气象站应建在什么地方?
- Python Day03
- 不同网段的PC与交换机的原理