尽管抄袭傍身,也没能阻挡《爱情公寓5》进击的脚步。

最近爱情公寓电视剧微博发布了长达8分钟的揭幕视频,官宣新季将在2020正式开播。

几位主演纷纷转发宣传,将#爱情公寓5揭幕#的话题送上了热搜。

观众在经历过一次《爱情公墓》的诈骗后,能否接受《爱情公寓5》(下文简称爱5)?

让我们来分析一下。

获取数据

首先,我选取了在B站上最热的视频,目前已经179万播放量,2万弹幕。

为什么选择B站呢?

著名UP主“残狼之卑”,曾经在b站上传了几十个对比视频,做成《爱情公寓的抄袭史》,每期视频播放量都几十万,所以按理来说B站的用户反对爱情公寓的人应该很多。

如果B站的用户都可以接受,那么《爱5》可能真的会取得不错的播放量。

B站的弹幕数据是有接口的,比如说:

https://comment.bilibili.com/********.xml

它以一个固定的url地址+视频的cid+.xml组成。只要找到你想要的视频cid,替换这个url就可以爬取所有弹幕了。

以刚才的视频为例

它的cid就是123519261,构成url就是:

https://comment.bilibili.com/123519261.xml

下载并打开这个XML格式的弹幕文件。

观察上图,所有的弹幕都放在了<d>标签下

那么我们写段爬虫:

from bs4 import BeautifulSoup
import pandas as pd
import requestsurl = 'http://comment.bilibili.com/123519261.xml'
html = requests.get(url)
html.encoding='utf8'soup = BeautifulSoup(html.text, 'lxml')
results = soup.find_all('d')comments = [comment.text for comment in results]
comments_dict = {'comments': comments}df = pd.DataFrame(comments_dict)
df.to_csv('bili_ai5.csv', encoding='utf-8-sig')

最后成功获取1000条弹幕数据。

(b站给出的字幕限制是1000条)

数据分析

在弹幕中看到很多人提及“大二了”,“从小学5年级开始看”,我们来看一下学生阶段在弹幕中的提及数。

#学生阶段在弹幕中的提及数
a = {'小学':'小学|一年级|二年级|三年级|四年级|五年级|六年级', '初中':'初中|初一|初二|初三', '高一':'高一', '高二':'高二','高三':'高三', '大一':'大一', '大二':'大二', '大三':'大三', '大四':'大四',}
for key, value in a.items():data[key] = data['comments'].str.contains(value)
staff_count = pd.Series({key: data.loc[data[key], 'comments'].count() for key in a.keys()}).sort_values()
print(staff_count)

1000条弹幕就包含了这么多关于年龄的怀念。

数据可视化

我们将爬取得到的弹幕做个词云,更加直观地展示。

词云图上,可以看到《爱情公寓》依旧是一代人快乐的回忆,即便是电影导致IP口碑全面崩盘,但粉丝好感似乎用之不尽。即便有人提到抄袭借鉴之类的,也会被说“黑粉gun开”。

通过这次B站弹幕的爬取分析,我现在可以肯定的是《爱5》依然会有很多人看。只要片方挥舞着“十年怀旧,挥别青春”的大旗便会无往不利,这也是他们的底气所在。

其实我理解大家只是想要一个结局。

但《爱5》过后。

没有演技的演员重新找路。

靠着怀旧的片方盆丰钵满。

这是我们想要的结局吗?

朱小五,某互联网公司数据分析师,热衷于爬虫,数据分析,可视化,个人公众号《凹凸玩数据》

本文相关代码已上传github:

https://github.com/zpw1995/aotodata/tree/master/bilibili_danmu

- END -
如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「perfect_iscas」,关注后回复「进群」或者扫描下方二维码即可进入无广告技术交流群。
扫描二维码进群↓

在看 

用Python爬取b站弹幕,看大家还会接受《爱情公寓5》吗?相关推荐

  1. Python爬取B站弹幕方法介绍

    Python爬取B站弹幕方法介绍 文章目录 Python爬取B站弹幕方法介绍 前言 寻找弹幕数据 编写爬虫 B站弹幕数量 新技术介绍 参考文章 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数 ...

  2. python接收弹幕_闲着没事,尝试一下用Python爬取B站弹幕呀~

    原标题:闲着没事,尝试一下用Python爬取B站弹幕呀~ 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数据做分析,于是请我帮忙爬取 B 站视频的弹幕数据. 对于爬虫而言,我们需要找到对应数据 ...

  3. 萌新学习Python爬取B站弹幕+R语言分词demo说明

    代码地址如下: http://www.demodashi.com/demo/11578.html 一.写在前面 之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这 ...

  4. 用Python爬取B站弹幕并做成词云

    用Python爬取B站弹幕并做成词云 一.获取视频的cid号 1.进入想爬的视频,打开浏览器设置里的"开发者工具": 进入NetWork后等待requests刷出,数据够了后可随意 ...

  5. python爬取b站弹幕并进行数据可视化

    python爬取b站弹幕并进行数据可视化 1.第一步,爬取b站弹幕 我们随便打开一个b站视频 打开开发者模式,在network下搜索list,可以找到该视频的弹幕文件 打开之后是这个样子的 结构还是比 ...

  6. python爬取b站弹幕分析_B站弹幕爬取原理解析(python)

    感谢 原理 概念 cid : 爬取弹幕需要的id号,可以由BV号通过API接口获得 步骤BV转cid 浏览器输入:https://api.bilibili.com/x/player/pagelist? ...

  7. Python爬取B站弹幕+Gephi梳理主线剧情

    作者 | 皖渝 出品 | 凹凸数据(ID:alltodata) 头图 |  CSDN 下载自东方IC 爬取介绍 利用 Chrome 浏览器抓包可知,B站的弹幕文件以 XML 文档式进行储存,如下所示( ...

  8. python爬取b站弹幕_如何爬取B站弹幕

    前言 主要记录自己完成爬虫的思路:从how to do到what to do这是一个拿 python 练手的项目,虽说是入门级,但其余爬虫也万变不离其宗 ̄へ ̄ [源代码地址 Github:bili-d ...

  9. python爬取b站弹幕分析_python爬取B站视频弹幕分析并制作词云

    目录1.分析网页 2.爬虫+jieba分词+制作词云2.1爬虫 2.2jieba分词 2.3制作词云 3.成品展示 4.完整代码 1.分析网页 视频地址:https://www.bilibili.co ...

最新文章

  1. 用电脑自带画图工具加字方法
  2. 关于flume配置加载(二)
  3. Coding-数组(Array)
  4. Python从入门到精通 - 入门篇 (下)
  5. 〖Linux〗Bash快捷键使用
  6. 直接用Win32 API创建对话框Demo
  7. WEB开发者应该有哪些必备的技能?
  8. SQL SERVER CLR Trigger功能
  9. 无状态会话bean(1)---定义
  10. java 蓝桥杯算法训练 秘密行动
  11. 鸿蒙引领着未来,华为智慧屏V65图赏:鸿蒙OS引领未来
  12. 用 Ajax 和 RSS 攒个首页新闻——(上)
  13. 四种方法下载网络文本数据到本地内存
  14. Makefile教程一
  15. 终极算法【3】——符号学派
  16. 微信小程序列表局部(单条)刷新
  17. 冰点下载器手机版apk_冰点下载器官网
  18. 硬盘检测神器-HD Tune Pro/Hard Disk Sentinel
  19. 二、设计模式总览及工厂模式详解
  20. 显卡优化以提高计算机性能,《绝地求生》完美显卡优化教程:低配电脑也能吃鸡无压力!...

热门文章

  1. AI 盯上了外包司机,看后视镜就被扣分,奖金拜拜!
  2. 不用深度学习,怎么提取图像特征?
  3. Java 开发技巧详细知识体系总结
  4. ​吐血整理:手拿几个大厂offer的秘密武器!
  5. 谷歌AI专家爆料:90%的人都不知道,写不出好代码,是输在了这点上!
  6. 10分钟搭建你的第一个图像识别模型 | 附完整代码
  7. 专访NIPS主席:如何保证论⽂评审的公平性?| 人物志
  8. Python的最佳学习方式
  9. 写高质量的代码,永不言晚!
  10. 2018 区块链技术及应用峰会(BTA)·中国全日程新鲜出炉,更多精彩议题看不停