Python爬取并分析 201865 条《隐秘的角落》弹幕
最近又火了一部国产剧:《隐秘的角落》
如果你没看过,那可能会对朋友圈里大家说的“一起去爬山”、“小白船”、“还有机会吗”感到莫名其妙。
今天我们就来用Python爬一爬这部热门剧的弹幕,看看大家都在聊什么?由于《隐秘的角落》是在爱奇艺独播,所以数据从爱奇艺下手最直接。
除了爱奇艺,可以考虑使用豆瓣、微博、知乎(电视剧数据分析 · 万能三件套)的数据。
爬虫
剧很精彩,但追剧界有句俗话说得好:“弹幕往往比剧更精彩”,为了让精彩延续下去,我终究没能忍住对弹幕下手。[1]
爱奇艺的弹幕数据是以 .z
形式的压缩文件存在的,先获取 tvid 列表,再根据 tvid 获取弹幕的压缩文件,最后对其进行解压及存储,大概就是这样一个过程。
def get_data(tv_name,tv_id):
注:避免引起不必要的麻烦,本爬虫仅指出关键步骤,不再公开提供。
共爬取得到201865 条《隐秘的角落》弹幕数据。
弹幕发射器
按照用户id分组并对弹幕id计数,可以得到每位用户的累计发送弹幕数。
#累计发送弹幕数的用户
累计发送弹幕数用户top5
第一名竟然发送了2561条弹幕,这只是一部12集的网剧啊。
真 · 弹幕发射器
难道他/她是水军?每条都发的差不多?
df_top1 = df[df['uid'] == 1810351987].sort_values(by="likeCount",ascending = False).reset_index()
然而并不是,每一条弹幕都是这位观众的有感而发,可能他/她只是在发弹幕的同时顺便看看剧吧。
这位“弹幕发射器”朋友,在每一集的弹幕量又是如何呢?
分集&平均弹幕量
是不是通过上图可以侧面说明个别剧集的戏剧冲突更大,更能引发观众吐槽呢?
“弹幕发射器”同志,11、12集请加大输出!
这些弹幕大家都认同
抛开“弹幕发射器”同志,我们继续探究一下分集的弹幕。
看看每一集当中,哪些弹幕大家都很认同(赞)?
df_like = df[df.groupby(['tv_name'])['likeCount'].rank(method="first", ascending=False)==1].reset_index()[['tv_name','contents','likeCount']]
每一集中点赞最多的弹幕
每一集的最佳弹幕都是当集剧情的浓缩,这些就是观众们票选出来的梗(吐槽)啊!
应该不算剧透吧,不算吧,不算吧
实在不行我请你去爬山也可
朝阳东升
除了剧本、音乐等,“老戏骨”和“小演员”们的演技也获得了网友的一致好评。
这部剧虽然短短12集,但故事线不仅仅在一两个人身上。每个人都有自己背后的故事,又因为种种巧合串联在一起,引发观众的持续性讨论。
我们统计一下演员们在弹幕中的出现次数,看看剧中的哪些角色大家提及最多。
a = {'张东升':'东升|秦昊|张老师', '朱朝阳':'朝阳', '严良':'严良', '普普':'普普', '朱永平':'朱永平', '周春红':'春红|大娘子', '王瑶':'王瑶', '徐静':'徐静|黄米依', '陈冠声':'王景春|老陈|陈冠声', '叶军':'叶军|皮卡皮卡', '马主任':'主任|老马', '朱晶晶':'晶晶','叶驰敏':'叶驰敏'}
先计算出现次数,再利用pyecharts
制作极坐标图。
弹幕中提到的主要演员
比较让我疑惑的三个小孩当中的朱朝阳
提及量这么低,按理说应该与其其他两位大体相当啊。
又去源数据看了一遍,提及朱朝阳(朝阳)的弹幕确实很少,因为大部分在弹幕中观众一般就叫他“学霸”、“儿子”之类的了。
词云
总所周知,一篇数分文章不能少了词云。
每篇的词云都尽量用不同的方式。这次我采用的是stylecloud
,它算是wordcloud
词云包的升级版,看起来美观多了。
import stylecloud
20万条弹幕词云
除了主角的名字以外,在这部以“孩子”为主题的剧中,对孩子的思想、行为的探讨占据重要部分,另外,剧中从年长的戏骨到年幼的孩子,每一个人都贡献了高光的演技,对他们演技的称赞也成为高频词汇。
而最出圈的“爬山”梗,更是被频频提及。
一起爬山吗?
从《无证之罪》到《隐秘的角落》,都在证明悬疑犯罪题材在当下并非没有市场,要收获高人气高口碑,如何传播与营销终归只是手段,越来越多的团队沉下心来打磨精品剧集,观众才会愿意为剧买单,让“爬山”这样的梗一步步“出圈”。
本文相关数据和可视化源码下载:https://alltodata.cowtransfer.com/s/5b483c08987243
关注公众号:Python爬虫数据分析挖掘,学习更多python知识
Python爬取并分析 201865 条《隐秘的角落》弹幕相关推荐
- python爬取+BI分析5000条内衣数据,发现妹子最爱这款文胸
生活中我们经常会用python进行数据爬取,但是爬取简单分析难,很多人喜欢用echarts图表接口或者是python的第三方库进行数据可视化,甚至是用matlab,基本上都需要用代码实现,在数据展示上 ...
- python爬取国家男女比例_用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?...
用python爬取3万多条评论,看韩国人如何评价韩国电影<寄生虫>? 朱小五 凹凸数据 大家好,我是朱小五 今天给大家带来一个关于电影的数据分析文章. 别走啊,这次不是豆瓣,也不是猫眼 真 ...
- Python 爬取 B 站 5000 条视频,揭秘为何千万人为它流泪!
[CSDN 编者按]<哪吒>看哭了无数人!编者看的那场,有很多小朋友,一开始他们还被太乙真人的滑稽,逗得哈哈笑.到了哪吒成魔要杀父亲.跪别父母.因为宿命不得以和敖丙为敌时,影院里突然安静下 ...
- python爬取并分析淘宝商品信息
python爬取并分析淘宝商品信息 背景介绍 一.模拟登陆 二.爬取商品信息 1. 定义相关参数 2. 分析并定义正则 3. 数据爬取 三.简单数据分析 1.导入库 2.中文显示 3.读取数据 4.分 ...
- 利用 Python 爬取了近 3000 条单身女生的数据,究竟她们理想的择偶标准是什么?
灵感来源与学习:利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论? 本文原创作者:壹加柒 本文来源链接:https://blog.csdn.net/yu1300000363/a ...
- 冻成狗啦!我用Python爬取某宝2008条棉袄,终于买到心仪的棉袄了!
大家好,我是菜鸟哥~ 转眼就到12月份了,但是没想到今年的冬天这么冷,基本取暖靠抖,太冷啦! 于是,菜鸟哥赶紧打开了Python,用它爬取并分析一波棉袄,找到一件最合适的棉袄给裹到身上. 01 数据采 ...
- 冻成狗啦 我用Python爬取某宝2008条棉袄,终于买到心仪的棉袄了
转眼就到12月份了,但是没想到今年的冬天这么冷,基本取暖靠抖,太冷啦! 于是,赶紧打开了Python,用它爬取并分析一波棉袄,找到一件最合适的棉袄给裹到身上. 01 数据采集 数据采集是数据可视化分析 ...
- Python爬取B站5000条视频,揭秘为何千万人为它流泪
作者 | Yura编辑 | 胡巍巍来源 | CSDN(ID:CSDNnews) 导语:我们特邀作者Yura爬取B站5000条视频,为你揭秘电影<哪吒>的更多"优秀梗", ...
- Python爬取B站5000条视频,揭秘为何千万人看「哪吒」流泪
导读:<哪吒>看哭了无数人!有很多小朋友,一开始他们还被太乙真人的滑稽,逗得哈哈笑.到了哪吒成魔要杀父亲.跪别父母.因为宿命不得以和敖丙为敌时,影院里突然安静下来. 人们喜欢<哪吒& ...
最新文章
- torch.backends.cudnn.deterministic 生成随机数字设置 每次输出一样的方法
- carafe 上采样
- node.js学习总结
- Python操作excel文件创建workbook和批量创建Sheet
- 深度洞见|从起源到应用,一文详解营销界爆火的 CDP
- 重磅!深入调研证券行业,神策数据发布《财富管理数字化转型现状与趋势洞察》报告...
- SpringBoot高级-检索-Elasticsearch简介安装
- leetcode 230. Kth Smallest Element in a BST | 230. 二叉搜索树中第K小的元素(Java)
- 基于水色图像的水质评价
- 【插件发布】JAVA微服务框架,Jeecg-P3-Base-System 1.0.0 插件开源发布
- python字典的键可以是int吗_Python:大int键的快速字典
- android adb shell 常用命令
- linux 建立vnc,51CTO博客-专业IT技术博客创作平台-技术成就梦想
- linux标准输入/输出/错误
- android安卓源码海量项目合集大全打包6000套-2续
- 联想智能云教室安win7_联想智能云教室解决方案-联想商用.PDF
- docker mysql 修改cnf_Docker下Mysql .cnf文件修改小贴士
- 最好用的三款电脑端epub阅读器
- Django邮件应用--QQ邮箱、网易邮箱(二)
- Mysql中时间格式转换
热门文章
- 中国二维码--汉信码(中国主导的首个二维码码制国际标准「汉信码」ISO/IEC 20830:2021《信息技术 自动识别与数据采集技术 汉信码条码符号规范》)
- 听说你想学Python爬虫?我从零教你啊
- bzoj 3739 DZY loves math VIII
- windows下mingw32 编译 libusb[实测可行]
- C# WaitAll 等待所有线程执行完毕
- git gc error: failed to run repack message
- 入门互联网IT行业就业前景如何?
- 关于enq: TX - allocate ITL entry的问题分析
- 引领盲返消费新潮流,共创社交电商新时代
- 批量爬取网站图片-“优美库”篇(爬虫实战)