CDA数据分析师 出品

他来了他来了,正午阳光带着新剧走来了。

年初时我们用数据解读了几部热度高,但评分差强人意的国产剧,而最近正午阳光带着两部新剧来了,《我是余欢水》和《清平乐》,截止到目前为止,这两部剧在豆瓣分别为7.5分和7.9分,算是非常高的评分了。

今天我们就来跟大家聊一聊其中这部《我是余欢水》。

01

这些年 我们追过的

正午阳光作品

都说作为“国剧门脸”,正午阳光出品,必属精品,每一部都让人看得废寝忘食。

我们先看到近年来正午阳光出品的作品,举几个例子你就知道了:

  • 2019年 都挺好 7.8分
  • 2018年 大江大河 8.8分
  • 2016年 鬼吹灯之精绝古城 8.0分
  • 2016年 欢乐颂 7.4分
  • 2015年 琅琊榜 9.3分
  • 2015年 伪装者 8.5分

这些耳熟能详的热门剧集,分数都在7.5分以上,无论是剧情、演技、服化道都十分讲究,真的算得上是国产剧中的良心制作了。

02

《我是余欢水》

史上最惨男主的逆袭之路

这次《我是余欢水》讲的是个什么故事呢?

《余欢水》根据小说《如果没有明天》改编,由《都挺好》编剧王三毛、王磊父子改编。由郭京飞、苗苗、高露、岳旸等主演。

余欢水(郭京飞饰)是公司里业绩最差的员工,退让隐忍、得过且过是他的生存法则,直到嫌他窝囊的妻子提出离婚,余欢水仍未做出改变。某日借酒浇愁后,余欢水身体不适查出癌症,万念俱灰的他破罐子破摔,性情大变,还在阴差阳错之下,成了见义勇为的英雄,到达人生巅峰。但阴差阳错的命运仍在继续,危机和挑战接踵而至。

这部剧在播出后备受好评,首先一改普通国产剧动辄五六十集的巨幅,这部余欢水仅仅12集,短小精悍,利落明快。加上主角们的演技都在线,剧情紧凑不拖沓,故事情节环环相扣,让人看得酣畅淋漓,十分过瘾。

03

《我是余欢水》

大家都在怎么看?

豆瓣评分:

目前在豆瓣上,《我是余欢水》为7.5分。共有11万的人给出了评分,其中百分之30.8%给出了5星,40%的给出了4星,是非常不错的成绩。

知乎问答

我们分析整理了知乎上关于《我是余欢水》的问答,可以看到:

我们把回答的角度主要分为故事、角色和剧作三个角度。

关于剧作

讨论的角度主要是“网络短剧”的新形式十分有新鲜感,“结构紧凑”。同时还是那熟悉的“正午配方”,许多正午阳光其他剧的演员出现,总让有种“熟脸连连看的”的感觉,很是有趣。

关于故事

很多人表示,《我是余欢水》显然讲的是“一个社畜的故事”,余欢水在职场的力不从心与无奈让人同情。剧中把余欢水遭遇车祸、离婚、误诊的窝囊人生悲剧用“喜剧效果”来展现。

关于角色

男主余欢水、他的老婆甘虹、以及办公室三人组赵觉民、魏总等人都是讨论的焦点。

04

Python分析15万弹幕

看看大家都在说些什么

那么观众们对《余欢水》和剧中主要人物都是怎么看的呢?

我们爬取了在腾讯视频上本剧的弹幕,共计150252 条弹幕,每集平均就有 12521 条。

先看到主要结论:

大家有多爱发弹幕

再细看到每人弹幕发送的数量:

根据数据,在发送弹幕的人群中,63.7%的人发了一条弹幕,16.9%发了两条,少数比较话痨的人发了10条以上的弹幕,占比3.63%。

哪些弹幕点赞最多?

点赞最高的弹幕也特别有意思,比如:

  • 余欢水——国家一级退堂鼓表演艺术家
  • 记住!这是一瓶改变命运的假酒
  • 你摔倒了,我们很同情马路
  • 对不起,但是真的好想笑

真是让人感叹,这届网友实在是太有才了。余欢水都这么惨了,你们还嘲笑他,真是太坏了。

弹幕里大家都在讨论谁?

根据分析我们可以看到,讨论最多的当然是我们的男主了,有3974条弹幕都是关于余欢水的。

讨论最多的第二名是谁?你们绝对想不到,居然是公司三人组,余欢水的上司之一梁安妮,收获了2158条弹幕。比余欢水老婆甘虹的弹幕高出近一倍。

人物弹幕画像:

我们再根据主要人物的弹幕,整理出各个人物的画像,首先是余欢水,大家提到最多的就是演员郭京飞的演技,吊打一众小鲜肉,妥妥的用实力说话。

余欢水

余欢水也被观众戏称为“好惨一男的”,各种“窝囊”、“怂”、“惨”“令人心疼”,从中也看到了人到中年的无奈与现实。除此之外大家也疯狂串戏到了《都挺好》里的“苏明成”,感觉男主这么惨,看来编剧是想让余欢水给苏明成还债呀。

甘虹

我们再看到余欢水老婆甘虹的画像,大家提到最多的关键词是“大嫂”,要知道在都挺好里,高露演的是郭京飞的大嫂,这一转眼两人从叔嫂演成了夫妻。

梁安妮

看到收获弹幕第二高的角色——梁安妮。观众们都沉迷于她的演技,“性感”、“撩人”“好看”等都是关键词。认为这个角色是妥妥的魅力担当,演员高叶把这个人物的气质拿捏的死死的,果然漂亮小姐姐大家都喜欢。

赵觉民

再聊聊正午的金牌配角岳旸。听名字可能不太熟悉,但看脸就知道了,正午的剧里哪哪都有他。《我是余欢水》里,他演的是的领导赵觉明。他在《鬼吹灯之精绝古城》里演的是“大金牙”;到了《欢乐颂》,他演的是樊胜美的哥哥"樊胜英"。在弹幕里这两个角色名也常常被大家提到。

下面看到具体分析过程

此次分析我们获取腾讯视频的弹幕并进行数据数据,数据获取部分的具体思路如下:

  1. 分析网站URL规律,获取弹幕数据URL请求接口和请求方式
  2. 分析弹幕URL规律分析,获取翻页规律

数据获取

分析网站和数据定位

打开腾讯视频《我是余欢水》视频随便选取一集,观察我们需要抓取的弹幕,可以明显看出来弹幕不是在视频上的而是浮动在视频上面,而且弹幕在视频播放之后才滚动加载,所以我们大概能得出弹幕是JS异步加载的。

我们使用谷歌浏览器,右键审查元素,观察Network的请求,播放开始后出现了大量请求,我们在js选项下发现了一个比较特殊的请求 “danmu” ,打开这个请求后发现这就是我们要的弹幕数据。

切换到Headers下获取到弹幕数据的URL地址:

http s://m http://fm.video.qq.com/da nmu?otype=json&callback=jQuery19106242753790025646_1587109875909&target_id=5035751775%26vid%3Dy0033grdnk8&session_key=93970%2C2557%2C1587109877×tamp=195&_=1587109875933

弹幕URL规律分析

首先,我们尝试删掉目标网址中不影响最终结果的部分参数,从而精简出网址如下:

ht tps://mfm.vi http://deo.qq.com/danmu?target_id=5035751775&vid=y00 33grdnk8×tamp=15

将第二,三个请求拿出来精简:

htt ps://http://mfm.video.qq.co m/danmu?target_id=5035751775&vid=y00 33grdnk8×tamp=45

htt ps://http://mfm.video.qq.co m/danmu?target_id=5035751775&vid=y00 33grdnk8×tamp=75

对比很容易找到规律,从第一页到第二页,timestamp值从15变到了45,第二页到第三页从45到75,target_id不变。

这个规律我们可以大胆猜测这个 timestamp 值是控制页数的,并且起始值是15每30秒更新一次。

一集视频弹幕有多少页呢?如何获取最后一个timestamp的值。

有一个小技巧,我们在构建URL地址的时候指定一个足够大的结尾步长,然后当获取不到内容时终止循环即可。

不同集之前我们需要寻找target_id的代码规律,此处暂不做赘述。

具体代码如下:

# 导入所需库
import requests
import json
import time
import parsel
import pandas as pddef get_danmu_one_page(url_dm):""":param url_dm: 视频弹幕URL地址:return: 一页的弹幕数据"""# 添加headersheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36','cookie': '你的电脑登录后的cookie信息','referer': 'https://v.qq.com/x/cover/mzc00200bll9mha.html',}# 发起请求try:r = requests.get(url_dm, headers=headers, timeout=3)except Exception as e:time.sleep(3)r = requests.get(url_dm, headers=headers, timeout=3)# 解析网页data = r.json()['comments']# 获取评论IDcomment_id = [i['commentid'] for i in data]# 获取用户名oper_name = [i['opername'] for i in data]# 获取会员等级vip_degree = [i['uservip_degree'] for i in data]# 获取评论内容content = [i['content'] for i in data]# 获取评论时间点time_point = [i['timepoint'] for i in data]# 获取评论点赞up_count = [i['upcount'] for i in data]# 存储数据df_one = pd.DataFrame({'comment_id': comment_id,'oper_name': oper_name,'vip_degree': vip_degree,'content': content,'time_point': time_point,'up_count': up_count})return df_onedef get_danmu_all_page(target_id, vid):""":param target_id: target_id:param vid: vid:return: 所有页弹幕"""df_all = pd.DataFrame()# 记录步数step = 1for time_stamp in range(15, 100000, 30):  # 右侧设置一个足够大的数try:  # 异常处理# 构建URLurl_dm = 'https://mfm.video.qq.com/danmu?target_id={}&vid={}×tamp={}'.format(target_id, vid, time_stamp)# 调用函数df = get_danmu_one_page(url_dm)# 终止条件if df.shape[0] == 0:breakelse:df_all = df_all.append(df, ignore_index=True)# 打印进度print('我正在获取第{}页的信息'.format(step))step += 1# 休眠一秒time.sleep(1)except Exception as e:continuereturn df_all

获取到的数据如下所示,共计爬取了 150252 条弹幕(每集平均12521条,每30s的间隔爬取),来看看弹幕下的余欢水。

主要包含了以下信息:集数、评论ID、用户名、vip等级、评论内容、评论时间点和评论点赞。

疫情当下,昔日匆匆的步伐终于放慢了些,也是时候好好想想自己的职业计划和人生规划了。提前做好准备,未雨绸缪,为未来蓄能——蓄势待发!

Python爬取15万条《我是余欢水》弹幕,看郭京飞如何演活极丧中年人相关推荐

  1. 这届网友实在是太有才了!用python爬取15万条《我是余欢水》弹幕

    年初时我们用数据解读了几部热度高,但评分差强人意的国产剧,而最近正午阳光带着两部新剧来了,<我是余欢水>和<清平乐>,截止到目前为止,这两部剧在豆瓣分别为7.5分和7.9分,算 ...

  2. Python爬取15万条《我是余欢水》弹幕,还原一个丧到极致的中年人生

    ▼ 更多精彩推荐,请关注我们 ▼ 作者:Mika 数据:真达   后期:泽龙  [导语]:今天我们聊聊热干面,Python技术部分可以直接看第四部分.公众号后台,回复关键字"余欢水" ...

  3. 小牧用Python 爬取数万条房产数据,揭秘一线城市生存压力有多大

    最近各大一二线城市的房租都有上涨,究竟整体上涨到什么程度呢?我们也不得而知,于是乎笔者为了一探究竟,便用 Python 爬取了房某下的深圳租房数据.以下是本次的样本数据: 除去[不限]的数据(因为可能 ...

  4. Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是......

    作者 | 量化小白H 责编 | 胡巍巍 Python规划学习路线图,速领取? https://edu.csdn.net/topic/python115?utm_source=csdn_bw 本文爬取了 ...

  5. Python爬取2万条相亲数据!看看中国单身男女都在挑什么

    想必昨天的七夕节,一定是有人欢喜有人忧的一天,朋友圈里的晒照惹恼了我的一个程序员朋友,在昨晚怒爬2万条相亲网站数据,做了一次相亲男女画像! 话不多说,我们今天就以某相亲网站为例子,爬取搜索页面当中所有 ...

  6. python爬取3万+条评论,解读猫眼评分9.5的《海王》是否值得一看?

    海王 前言 2018年12月7日,本年度最后一部压轴大片<海王>如期上映,目前猫眼评分达到9.5分,靠着1.5亿美金的制作成本,以小博大,目前票房接近9亿,本文爬取了猫眼3w+条评论,多方 ...

  7. python爬虫网页图片显示不出来_用Python爬取20万条网页美女图片,两只眼睛 都看不过来了!...

    前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载 本地下载 我们这里以sogou作为爬取的对象. 首先 ...

  8. Python爬取2万条相亲网站数据!看看中国单身男女都在挑什么!

    想必昨天的七夕节,一定是有人欢喜有人忧的一天,朋友圈里的晒照惹恼了我的一个程序员朋友,在昨晚怒爬2万条相亲网站数据,做了一次相亲男女画像! 话不多说,我们今天就以"世纪佳缘"这个相 ...

  9. Python 爬取 20 万条评论,告诉你周杰伦新歌为啥弄崩 QQ 音乐?

    作者 | 哈哈浩 责编 | 伍杏玲 9 月 16 日晚间,周董在朋友圈发布了最新单曲<说好不哭>. 发布后,真的让一波人哭了,一群想抢鲜听的小伙伴直接泪奔. 因为 QQ 音乐直接被搞崩了! ...

最新文章

  1. POSTMAN 数据关联
  2. Android一个ListView列表之中插入两种不同的数据
  3. jQuery应用实例2:简单动画
  4. python网络编程--UDP客户端
  5. 社交网络营销之制订“参与社交网络的规则”
  6. 备忘:SharePoint默认的欢迎WebPart中超链接样式
  7. React16:Hooks总览,拥抱函数式 (这大概是最全的React Hooks吧)
  8. ExtJs页面布局总结(转载)
  9. CVPR 2018 挑战赛
  10. 使用webpack搭建vue项目;webpack+vue
  11. Fresco判断是否缓存
  12. css+html 嵌套表格做简单网页
  13. 基于深度学习的CNN边缘检测RCF--Richer Convolutional Features for Edge Detection
  14. RealView编译器常用特有功能(转)
  15. 语音增强 理论与实践 pdf_初中英语语音教学策略研究 (结题报告)
  16. 重点知识学习(8.4)--[线程池 , ThreadLocal]
  17. Ubuntu安装hp打印机
  18. 苹果手机怎么投屏?图文教程,轻松学会
  19. 参考:ODBC Drivers error(ODBC数据库驱动错误代码)原因解释
  20. 转:使用Mosquitto-Auth-Plugin对mqtt客户端进行验证

热门文章

  1. 迁移WSL时的报错:0x80073d21 此应用的发布者不允许将其移动到其他位置
  2. 高新技术企业认定之材料错误篇!
  3. XXX售后服务解决方案
  4. python层次分析法一致性检验+权重计算
  5. Item 5:Know what functions C++ silently writes and calls
  6. 【七七八八】记录一下自己的小作品
  7. 数据结构之中缀表达式转为后缀
  8. C语言结构体-火车票查询程序
  9. 【NOI2005】 月下柠檬树
  10. python 取整法(进一取值)