最近又火了一部国产剧:《隐秘的角落》

如果你没看过,那可能会对朋友圈里大家说的“一起去爬山”、“小白船”、“还有机会吗”感到莫名其妙。

今天我们就来用Python爬一爬这部热门剧的弹幕,看看大家都在聊什么?由于《隐秘的角落》是在爱奇艺独播,所以数据从爱奇艺下手最直接。

除了爱奇艺,可以考虑使用豆瓣、微博、知乎(电视剧数据分析 · 万能三件套)的数据。

爬虫

剧很精彩,但追剧界有句俗话说得好:“弹幕往往比剧更精彩”,为了让精彩延续下去,我终究没能忍住对弹幕下手。[1]

爱奇艺的弹幕数据是以 .z 形式的压缩文件存在的,先获取 tvid 列表,再根据 tvid 获取弹幕的压缩文件,最后对其进行解压及存储,大概就是这样一个过程。

def get_data(tv_name,tv_id):

注:避免引起不必要的麻烦,本爬虫仅指出关键步骤,不再公开提供。

共爬取得到201865 条《隐秘的角落》弹幕数据。

弹幕发射器

按照用户id分组并对弹幕id计数,可以得到每位用户的累计发送弹幕数。

#累计发送弹幕数的用户

累计发送弹幕数用户top5
第一名竟然发送了2561条弹幕,这只是一部12集的网剧啊。

真 · 弹幕发射器

难道他/她是水军?每条都发的差不多?

df_top1 = df[df['uid'] == 1810351987].sort_values(by="likeCount",ascending = False).reset_index()

然而并不是,每一条弹幕都是这位观众的有感而发,可能他/她只是在发弹幕的同时顺便看看剧吧。

这位“弹幕发射器”朋友,在每一集的弹幕量又是如何呢?

分集&平均弹幕量

是不是通过上图可以侧面说明个别剧集的戏剧冲突更大,更能引发观众吐槽呢?

“弹幕发射器”同志,11、12集请加大输出!

这些弹幕大家都认同

抛开“弹幕发射器”同志,我们继续探究一下分集的弹幕。

看看每一集当中,哪些弹幕大家都很认同(赞)?

df_like = df[df.groupby(['tv_name'])['likeCount'].rank(method="first", ascending=False)==1].reset_index()[['tv_name','contents','likeCount']]

每一集中点赞最多的弹幕

每一集的最佳弹幕都是当集剧情的浓缩,这些就是观众们票选出来的梗(吐槽)啊!

应该不算剧透吧,不算吧,不算吧

实在不行我请你去爬山也可

朝阳东升

除了剧本、音乐等,“老戏骨”和“小演员”们的演技也获得了网友的一致好评。

这部剧虽然短短12集,但故事线不仅仅在一两个人身上。每个人都有自己背后的故事,又因为种种巧合串联在一起,引发观众的持续性讨论。

我们统计一下演员们在弹幕中的出现次数,看看剧中的哪些角色大家提及最多。

a = {'张东升':'东升|秦昊|张老师', '朱朝阳':'朝阳', '严良':'严良', '普普':'普普', '朱永平':'朱永平', '周春红':'春红|大娘子', '王瑶':'王瑶', '徐静':'徐静|黄米依', '陈冠声':'王景春|老陈|陈冠声', '叶军':'叶军|皮卡皮卡', '马主任':'主任|老马', '朱晶晶':'晶晶','叶驰敏':'叶驰敏'}

先计算出现次数,再利用pyecharts制作极坐标图。

弹幕中提到的主要演员

比较让我疑惑的三个小孩当中的朱朝阳提及量这么低,按理说应该与其其他两位大体相当啊。

又去源数据看了一遍,提及朱朝阳(朝阳)的弹幕确实很少,因为大部分在弹幕中观众一般就叫他“学霸”、“儿子”之类的了。

词云

总所周知,一篇数分文章不能少了词云。

每篇的词云都尽量用不同的方式。这次我采用的是stylecloud,它算是wordcloud词云包的升级版,看起来美观多了。

import stylecloud

20万条弹幕词云
除了主角的名字以外,在这部以“孩子”为主题的剧中,对孩子的思想、行为的探讨占据重要部分,另外,剧中从年长的戏骨到年幼的孩子,每一个人都贡献了高光的演技,对他们演技的称赞也成为高频词汇。

而最出圈的“爬山”梗,更是被频频提及。

一起爬山吗?

从《无证之罪》到《隐秘的角落》,都在证明悬疑犯罪题材在当下并非没有市场,要收获高人气高口碑,如何传播与营销终归只是手段,越来越多的团队沉下心来打磨精品剧集,观众才会愿意为剧买单,让“爬山”这样的梗一步步“出圈”。

本文相关数据和可视化源码下载:https://alltodata.cowtransfer.com/s/5b483c08987243

关注公众号:Python爬虫数据分析挖掘,学习更多python知识


Python爬取并分析 201865 条《隐秘的角落》弹幕相关推荐

  1. python爬取+BI分析5000条内衣数据,发现妹子最爱这款文胸

    生活中我们经常会用python进行数据爬取,但是爬取简单分析难,很多人喜欢用echarts图表接口或者是python的第三方库进行数据可视化,甚至是用matlab,基本上都需要用代码实现,在数据展示上 ...

  2. python爬取国家男女比例_用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?...

    用python爬取3万多条评论,看韩国人如何评价韩国电影<寄生虫>? 朱小五 凹凸数据 大家好,我是朱小五 今天给大家带来一个关于电影的数据分析文章. 别走啊,这次不是豆瓣,也不是猫眼 真 ...

  3. Python 爬取 B 站 5000 条视频,揭秘为何千万人为它流泪!

    [CSDN 编者按]<哪吒>看哭了无数人!编者看的那场,有很多小朋友,一开始他们还被太乙真人的滑稽,逗得哈哈笑.到了哪吒成魔要杀父亲.跪别父母.因为宿命不得以和敖丙为敌时,影院里突然安静下 ...

  4. python爬取并分析淘宝商品信息

    python爬取并分析淘宝商品信息 背景介绍 一.模拟登陆 二.爬取商品信息 1. 定义相关参数 2. 分析并定义正则 3. 数据爬取 三.简单数据分析 1.导入库 2.中文显示 3.读取数据 4.分 ...

  5. 利用 Python 爬取了近 3000 条单身女生的数据,究竟她们理想的择偶标准是什么?

    灵感来源与学习:利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论? 本文原创作者:壹加柒 本文来源链接:https://blog.csdn.net/yu1300000363/a ...

  6. 冻成狗啦!我用Python爬取某宝2008条棉袄,终于买到心仪的棉袄了!

    大家好,我是菜鸟哥~ 转眼就到12月份了,但是没想到今年的冬天这么冷,基本取暖靠抖,太冷啦! 于是,菜鸟哥赶紧打开了Python,用它爬取并分析一波棉袄,找到一件最合适的棉袄给裹到身上. 01 数据采 ...

  7. 冻成狗啦 我用Python爬取某宝2008条棉袄,终于买到心仪的棉袄了

    转眼就到12月份了,但是没想到今年的冬天这么冷,基本取暖靠抖,太冷啦! 于是,赶紧打开了Python,用它爬取并分析一波棉袄,找到一件最合适的棉袄给裹到身上. 01 数据采集 数据采集是数据可视化分析 ...

  8. Python爬取B站5000条视频,揭秘为何千万人为它流泪

    作者 | Yura编辑 | 胡巍巍来源 | CSDN(ID:CSDNnews) 导语:我们特邀作者Yura爬取B站5000条视频,为你揭秘电影<哪吒>的更多"优秀梗", ...

  9. Python爬取B站5000条视频,揭秘为何千万人看「哪吒」流泪

    导读:<哪吒>看哭了无数人!有很多小朋友,一开始他们还被太乙真人的滑稽,逗得哈哈笑.到了哪吒成魔要杀父亲.跪别父母.因为宿命不得以和敖丙为敌时,影院里突然安静下来. 人们喜欢<哪吒& ...

最新文章

  1. torch.backends.cudnn.deterministic 生成随机数字设置 每次输出一样的方法
  2. carafe 上采样
  3. node.js学习总结
  4. Python操作excel文件创建workbook和批量创建Sheet
  5. 深度洞见|从起源到应用,一文详解营销界爆火的 CDP
  6. 重磅!深入调研证券行业,神策数据发布《财富管理数字化转型现状与趋势洞察》报告...
  7. SpringBoot高级-检索-Elasticsearch简介安装
  8. leetcode 230. Kth Smallest Element in a BST | 230. 二叉搜索树中第K小的元素(Java)
  9. 基于水色图像的水质评价
  10. 【插件发布】JAVA微服务框架,Jeecg-P3-Base-System 1.0.0 插件开源发布
  11. python字典的键可以是int吗_Python:大int键的快速字典
  12. android adb shell 常用命令
  13. linux 建立vnc,51CTO博客-专业IT技术博客创作平台-技术成就梦想
  14. linux标准输入/输出/错误
  15. android安卓源码海量项目合集大全打包6000套-2续
  16. 联想智能云教室安win7_联想智能云教室解决方案-联想商用.PDF
  17. docker mysql 修改cnf_Docker下Mysql .cnf文件修改小贴士
  18. 最好用的三款电脑端epub阅读器
  19. Django邮件应用--QQ邮箱、网易邮箱(二)
  20. Mysql中时间格式转换

热门文章

  1. 中国二维码--汉信码(中国主导的首个二维码码制国际标准「汉信码」ISO/IEC 20830:2021《信息技术 自动识别与数据采集技术 汉信码条码符号规范》)
  2. 听说你想学Python爬虫?我从零教你啊
  3. bzoj 3739 DZY loves math VIII
  4. windows下mingw32 编译 libusb[实测可行]
  5. C# WaitAll 等待所有线程执行完毕
  6. git gc error: failed to run repack message
  7. 入门互联网IT行业就业前景如何?
  8. 关于enq: TX - allocate ITL entry的问题分析
  9. 引领盲返消费新潮流,共创社交电商新时代
  10. 批量爬取网站图片-“优美库”篇(爬虫实战)