图片源自网路

要说近期最火的国产剧,非《隐秘的角落》不可。该剧改编自紫金陈的推理小说《坏小孩》,讲述了沿海小城的三个孩子在景区游玩时,无意拍摄记录了一次谋杀,他们的冒险也由此展开。

自开播以来,《隐秘的角落》热度就居高不下,身边的朋友,网友都在议论剧情。“一起去爬山吗”“还有机会吗”之类的梗和表情包也相应诞生,如此高频率的提及,不禁让我对这部剧产生了好奇。

我利用假期把剧过了一遍,在看的过程中,发现大家在弹幕上的讨论异常激烈。俗话说:“弹幕往往比剧更精彩”,为了了解大家在讨论什么,也为了让精彩延续下去,我用python分析了20万条+的弹幕。

01

爬虫

爱奇艺的弹幕数据是以.z形式的压缩文件存在的,先获取tvid列表,再根据tvid获取弹幕的压缩文件,最后对其进行解压及储存。代码如下,修改后实现分集爬取所有弹幕

def get_data(tv_name,tv_id):

url = 'https://cmts.iqiyi.com/bullet/{}/{}/{}_300_{}.z'

datas = pd.DataFrame(columns=['uid','contentsId','contents','likeCount'])

for i in range(1,20):

myUrl = url.format(tv_id[-4:-2],tv_id[-2:],tv_id,i)

print(myUrl)

res = requests.get(myUrl)

if res.status_code == 200:

btArr = bytearray(res.content)

xml=zlib.decompress(btArr).decode('utf-8')

bs = BeautifulSoup(xml,"xml")

data = pd.DataFrame(columns=['uid','contentsId','contents','likeCount'])

data['uid'] = [i.text for i in bs.findAll('uid')]

data['contentsId'] = [i.text for i in bs.findAll('contentId')]

data['contents'] = [i.text for i in bs.findAll('content')]

data['likeCount'] = [i.text for i in bs.findAll('likeCount')]

else:

break

datas = pd.concat([datas,data],ignore_index = True)

datas['tv_name']= str(tv_name)

return datas

爬取之后共得到201865条《隐秘的角落》弹幕数据

02

弹幕分析

按照用户id分组并对弹幕的id进行计算,得到每位用户的累计发送弹幕数量。图中为弹幕贡献数量前5的用户。

贡献第一的居然发了2561条弹幕,是第二的十七倍有多...也就是每集平均发213条弹幕,真就是个没有感情的弹幕发送机器。那么这个人是机器人还是水军?我们用还原了ta弹幕发送的内容,如下。

会发现该用户的每一条弹幕都是有感而发,分享自己的第一感受。那么这位朋友每一集的弹幕量又是怎样的呢。

以上为该用户弹幕分布的分析图。“朋友,11,12集不要松懈,请紧接着持续输出。”

之后我们分析了每集中点赞数最高的弹幕,得到了如下的图片。

除了剧本,配乐等,演员的演技也获得了网友的一致好评。这部剧虽然只有短短的12集,但故事线不仅仅在一两个人身上,而是分支展开,每个人都有自己背后的故事,又因为种种的巧合串联在一块儿,引发了观众的持续讨论。

为了了解剧中哪些角色被大家提及的次数最多,我们统计了弹幕中演员的出现次数。并制作了极坐标图以供大家更好的查看。

一篇弹幕分析为了更好的了解情况,自然少不了词云,因此我分析了20条弹幕词云,制作了词云图,根据出现的频率字体占比越大,结果如下。

import stylecloud

from IPython.display import Image

stylecloud.gen_stylecloud(text=' '.join(text1), collocations=False,

font_path=r'‪C:\Windows\Fonts\msyh.ttc',

icon_name='fas fa-play-circle',size=400,

output_name='隐秘的角落-词云.png')

Image(filename='隐秘的角落-词云.png')

从《无证之罪》到《隐秘的角落》,都在证明悬疑犯罪题材在当下并非没有市场,要收获高人气高口碑,如何传播与营销终归只是手段,唯有沉下心来打磨精品剧集,观众才会愿意为剧买单。也真心希望国产电视剧能越做越好。

python弹幕拼脸_利用python爬取分析《隐秘的角落》20万+条弹幕,发现了这些..相关推荐

  1. 太敢拍了!20万条弹幕告诉你,《扫黑风暴》为何能掀起收视热潮?

    CDA数据分析师 出品 作者:Mika 数据:曹鑫 2021年暑期档热度最高.最出圈的电视剧莫过于<扫黑风暴>了. 这部扫黑题材的电视剧<扫黑风暴>一开播就火了.开播仅六小时播 ...

  2. 讲python讲得好的评价_分析20万条弹幕告诉你,8.9分的高分剧《隐秘的角落》到底好看在哪儿?...

    CDA数据分析师 出品作者:Mika 数据:真达 后期:泽龙 Show me data,用数据说话 今天我们聊一聊 <隐秘的角落> 点击下方视频,先睹为快: 最近这部<隐秘的角落&g ...

  3. 分析20万条弹幕告诉你,8.9分的高分剧《隐秘的角落》到底好看在哪儿?

    最近这部<隐秘的角落>彻底火了,目前在豆瓣高达8.9分,有45万余人进行了评论. 一时间剧中张东升那句「爬山」.「你说我还有机会吗」 承包了6月份的梗.各种表情包和段子齐飞. 作为主演秦昊 ...

  4. 我分析了b站10万条弹幕,发现了歪嘴战神的终极奥义!(文末重磅福利)

    大家好,我是小z~ 天气太热,今天文末一次性送出5本很nice商业智能可视化书籍,给大家解解暑. 最近,歪嘴战神血洗b站,靠着"耐克式微笑"成功出圈,迷倒众生. 这次,小z爬取了1 ...

  5. python英语词汇读音_利用PYTHON 爬虫爬出自己的英语单词库

    为什么要建立自己的单词库 用过各种的背单词软件,总是在使用其他人的词库或者软件自己提供的词库,基本是人家提供什么自己就用什么,要想有更多的自主基本没有,最近看一个 COCA的按单词使用频率来提取的2万 ...

  6. python爬高德地图_利用Python爬取高德地图数据

    准备1.高德开放平台注册账户 https://lbs.amap.com/dev/index 验证手机号码.邮箱后进入开发者后台创建一个应用: 并为该应用添加 Key,服务平台选择 web 服务 申请完 ...

  7. python自动排课表_利用python爬取广西科技大学教务管理信息系统班级课表

    操作环境 python 3.6.1 pycharm 5.0.3 WampServer 3.0.6 windows 8(64位) 特点 1.中途退出程序或者断网之后重连再次运行不会抓取到重复的课程表 2 ...

  8. python电商数据挖掘_利用Python爬取淘宝商品并数据挖掘与分析实战!此乃大型项目!...

    项目内容 本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析 词云可视化 2. ...

  9. python运维招聘_利用 Python 爬取了 13966 条运维招聘信息,看看你是否符合招聘信息!...

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:Python进阶者 ( 想要学习Python?Pyth ...

最新文章

  1. django 完整日志配置
  2. python写mapreduce_用python写MapReduce函数——以WordCount为例
  3. 约束,MySQL约束,非空默认值,主键外键唯一自增,完整详细可收藏
  4. Django集合Ueditor
  5. Yii2 日期和时间组件
  6. 【JAVA高级】——myEclipse连接mysql启动数据库服务
  7. mysql binlog 断点续传_mysql5.6 binlog实时异地备份之我见犹怜
  8. 客户端和服务器之间的信息结构,客户端和服务器之间的信息结构
  9. 使用windbg通过vtable找到优化后的this指针
  10. Django重新整理3
  11. 数字ic前端设计工程师是做什么的?就业前景如何?
  12. vtk 提取等值面并显示
  13. 小程序连接优声云打印机流程
  14. 一寸照像素和厘米的关系及换算
  15. 网络空间安全未来就业前景和就业方向,看着六点
  16. 爬虫Traceback (most recent call last):异常
  17. 张爱玲经典爱情语录大全
  18. paper reading——《Improving Person Re-identification by Attribute and Identity Learning》
  19. DANet(双重注意力融合网络)
  20. JavaScript获取元素

热门文章

  1. c uintptr_t
  2. 华中科技大学计算机科学与技术专业代码,2021年高考计算机科学与技术专业代码及开设大学名单排名(原创)...
  3. 解析教务系统查看平时成绩(方正教务系统)
  4. 华科计算机专业英语,华中科技大学英语考研经验
  5. 计算机在线是什么,TIM电脑在线是什么意思?如何设置QQ显示tim电脑在线
  6. 阿里巴巴矢量图标上传svg
  7. php微信照相机,用微信拍照时怎么打开原生相机?(Android)| 有轻功
  8. 北大青鸟BENET网络工程教材
  9. 网络连接错误代码大全及解决方法
  10. [译]Redis大冒险