现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户。源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的up主比比皆是。

今天,我就带领大家来爬取并分析一下B站的最热视频排行榜,看看大家究竟都喜欢看什么样子的视频~~

01.榜单信息抓取

对于榜单的爬取,我们爬取了榜单的前一百名视频的播放量,弹幕数量,以及视频的点赞、投币、收藏和up主的粉丝数目等信息。

对于排行榜的播放量、弹幕数量和视频链接的爬虫程序,如下图所示:

由于网页是静态网页,所以我们可以直接采用requests请求的方式,来获取网页源代码,然后使用beautifulsoup来进行网页的解析,并抓取我们需要的信息。对于每个网页的点赞、投币、收藏和up主的粉丝数量。

可以采用我们之前介绍的web scraper来进行抓取(牛逼的chrome插件,不用一行代码,轻松爬取各大网站公开信息!(附视频))。最后将两部分的内容进行合并,得到最终的抓取信息。

对于数据中存在的字符串类型的数值,例如观看数量为“122万”,已经经过数据清洗转化为int类型的数值。

02.数据分析

接下来,我们来看一下,最热视频排行榜前十位中,up主们的粉丝数量的分布情况,程序如下图所示:

首先,我们对数据按照粉丝数量的数值进行降序排序,然后将前十名的粉丝数量进行按“万”为单位进行计数,最后利用pyecharts中的Bar类来及进行可视化的展示。结果如下。

可以看到,粉丝数量排名最高的up主是“罗翔说刑法”,粉丝数量超过了1000万,妥妥的B站超级up主,也说明了在B站上小伙伴们不仅是为了娱乐,还可以在B站上进行学习。大家看看前十的排行中,有没有大家关注的up主呢?

03.可视化展示

接下来,我们对于排行榜中弹幕的数目进行一个分布的可视化展示:

程序中 ,我们首先将弹幕的数量进行一个分段的划分,分别为0-5000,5000-10000一直到25000-30000,然后创建一个Pie类对象,进行数据的可视化展示。

可以看到,视频的弹幕数量中,有62%的是在0-5000的范围内,视频的个数随着弹幕数量的增加而呈现快速减少的趋势,弹幕数量在25000到30000之间的视频只有一个。这也符合大家正常的观看趋势。

那对于视频的点赞数目的视频分布又是怎样的呢?

上图中横坐标对应的是不同的点赞数量分布区间,利用0到2万指的是,点赞数在0到2万次,而纵坐标对应的就是视频的数量;

从点赞数和视频的分布数量来看,呈现了不规则的趋势,点赞在2万到4万和12万赞以上的视频数目是最多的;

而点赞在0到2万的视频数目是最少的,看来大家对于视频是不会吝啬自己的“赞”;

另一方面,相比于发弹幕,点赞的操作更加的便捷,也也许就是大家更愿意点赞的原因吧。

04.词云分析

最后,小编抓取了榜单排行第一位的视频《众所周知,猫是一种尊老爱幼的动物》的弹幕,并进行了去重,来看一下弹幕中大家提及的关键词都有哪些吧。

注意:如果你是打算找python高薪工作的话。我建议你多写点真实的企业项目积累经验。不然工作都找不到,当然很多人没进过企业,怎么会存在项目经验呢? 所以你得多找找企业项目实战多练习下撒。如果你很懒不想找,也可以进我的Python交流圈:1156465813。群文件里面有我之前在做开发写过的一些真实企业项目案例。你可以拿去学习,不懂都可以在裙里找我,有空会耐心给你解答下。

以下内容无用,为本篇博客被搜索引擎抓取使用

(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)

python 是干什么的 零基础学 python 要多久 python 为什么叫爬虫

python 爬虫菜鸟教程 python 爬虫万能代码 python 爬虫怎么挣钱

python 基础教程 网络爬虫 python python 爬虫经典例子

python 爬虫

(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)

以上内容无用,为本篇博客被搜索引擎抓取使用

python分析b站_Python爬取并分析B站最热排行榜,我发现了这些秘密相关推荐

  1. python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析

    基于 Python 的新浪微博用户信息爬取与分析 邓文萍 [摘 要] 摘要:本文设计并实现了一个微博用户信息爬取与分析系统 , 利用 Cookie 实现了用户的模拟登录 , 使用 Python 语言的 ...

  2. python微博爬虫分析_python爬取和分析新浪微博(一):scrapy构建新浪微博榜单、博主及微博信息爬虫...

    1. 爬虫项目介绍 爬虫首先基于python scrapy 框架,使用了随机用户代理和IP代理等反爬技巧,将爬取到的微博领域数据,各领域榜单博主信息和博主的微博信息分别存入的mysql数据库对应的表格 ...

  3. python爬取数据分析淘宝商品_python爬取并分析淘宝商品信息

    python爬取并分析淘宝商品信息 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍 有个同学问我:"XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计".于是 ...

  4. python电商数据挖掘_Python 爬取淘宝商品数据挖掘分析实战

    作者 孙方辉 本文为CDA志愿者投稿作品,转载需授权 项目内容 本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目 ...

  5. python爬取站_python爬取某站磁力链

    不同磁力链网站网页内容都不同,需要定制 1,并发爬取 并发爬取后,好像一会就被封了 import requests from lxml import etree import re from conc ...

  6. python制作手机壁纸_Python爬取手机壁纸图片

    使用Python爬取图片. 1 说明 本文通过爬虫程序的编写,实现了一个简单易懂的爬虫程序,方便初学者理解,主要程序分为网页获取函数,以及保存下载函数,这就是所有爬虫程序的基本思想.(本文不涉及反爬, ...

  7. python获取游戏数据_Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是.........

    原标题:Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是...... 作者 |量化小白H 责编 | 胡巍巍 本文爬取了豆瓣游戏网站上所有可见的游戏评分数据进行分析,全文包括以下几 ...

  8. 做一个python的旅游系统_Python爬取13个旅游城市,告诉你新年大家最爱去哪玩?...

    2020年马上就要到了,放一天假,很多人只是选择周边游,因为时间不是很充裕,各个景点成了人山人海,拥挤的人群,甚至去卫生间都要排队半天,那一刻我突然有点理解灭霸的行为了. 今天,通过分析去哪儿网部分城 ...

  9. python唯美壁纸_Python爬取5K分辨率超清唯美壁纸

    转载: 简介 壁纸的选择其实很大程度上能看出电脑主人的内心世界,有的人喜欢风景,有的人喜欢星空,有的人喜欢美女,有的人喜欢动物.然而,终究有一天你已经产生审美疲劳了,但你下定决定要换壁纸的时候,又发现 ...

最新文章

  1. [网络流24题] 最长k可重区间集
  2. 项目实施中应该注意的事项
  3. Google 工程师:为什么 CDN 对移动客户端加速“没有”效果
  4. python使用字典格式化字符串-Python字符串格式方式 %s format()
  5. 前端之javaScript
  6. [20171109]缓存命中率神话.txt
  7. POJ2536、3370
  8. R语言安装;Rstudio安装
  9. 待办事项桌面插件_让浏览器重获整洁——标签页管理插件:OneTabOneTab PlusToby...
  10. Python type函数和isinstance函数区别 - Python零基础入门教程
  11. 树莓派该文件名_树莓派:文本编辑器与文件
  12. 最长数组对 Maximum Length of Pair Chain
  13. Tornado-Secure cookie and Session
  14. CentOS+Subversion 配置Linux 下 SVN服务器
  15. 实验:DHCP中继代理
  16. JavaNIO读取文件
  17. oracle orderby多个字段,Oracle Order By用法详解
  18. tinyTorrent: 从头写一个 Deno 的 BitTorrent 下载器
  19. 分享5款干净好用的电脑浏览器,用最后一款工作不累
  20. oracle连接读本机DNS,oracle 11gR2 修改 DNS 方式 SCAN IP

热门文章

  1. Boost源码剖析之:容器赋值-assign
  2. 【Spark深入学习 -14】Spark应用经验与程序调优
  3. h5 移动端 常见 重要问题记录
  4. 《易学Python》——第6章 类与面向对象编程 6.1 类是什么
  5. VRRP+MSTP 实现流量分流与核心层备份
  6. makefile变量赋值
  7. python常见的错误总结
  8. C#对图片文件的压缩、裁剪操作初探
  9. 白话讲山寨SOA,少一些迷惑、多一些理解,你的程序架构SOA了吗?
  10. sql server修改索引名称_【索引潜规则】覆盖索引、ICP、MRR详解