大家好,我是才哥。

其实吧,上周四(8月12日)芒果台《披荆斩棘的哥哥》第1期一经播出,就炸裂来袭,情怀牌、不油腻、有质感,让它上线就获得了大量关注!

将古惑仔、摇滚乐手、rapper、舞者、歌手、功夫演员等等放在同一档综艺节目里,又会产生什么样的化学反应呢?

今天,我们就看看第1期里10万弹幕大军们怎么说吧!

目录

文章目录

  • 1. 数据预览
  • 2. 弹幕整体词云
  • 3. 点赞最多的弹幕
  • 4. 最疯狂的弹幕狂魔
  • 5. 弹幕最热的哥哥们
  • 6. 弹幕如何评价这一次的芒果台?
  • 7. 弹幕数据采集程序

1. 数据预览

本次采集的是芒果TV第1期上中下三集一共97,331条弹幕,具体采集过程见文末代码(比较简单哈)。

import pandas as pddf = pd.read_excel('披荆斩棘的哥哥.xlsx')
# 数据字段信息
df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 97331 entries, 4 to 33794
Data columns (total 7 columns):#   Column       Non-Null Count  Dtype
---  ------       --------------  ----- 0   ids          97331 non-null  string1   uid          97331 non-null  Int64 2   content      97331 non-null  string3   time         97331 non-null  Int64 4   v2_up_count  97331 non-null  Int64 5   时间           97331 non-null  Int64 6   上中下          97331 non-null  string
dtypes: Int64(4), string(3)
memory usage: 6.3 MB

在数据中,各字段含义如下:

ids: 弹幕id

uid: 用户id

content:弹幕内容

time:弹幕发送时间(相对于本集开始后的毫秒)

v2_up_count:弹幕点赞数

时间:弹幕发送时间(分钟)

上中下:归属第1期的上中下三部分之一

# 数据预览
df.sort_values(by=['上中下','time'], inplace=True) # 按照上中下集和time排序
df.head()

(df.groupby('上中下').agg(弹幕数=('ids', 'count'),时长=('时间', 'max')).reset_index().style.bar(subset='弹幕数', align='zero').bar(subset='时长', color='orange', align='zero')
)

基本上第1期的每集弹幕都是拉满状态(1分钟360条)

2. 弹幕整体词云

这里用的是此前的词云制作工具《》进行绘制

从整体词云,我们可以发现观众老爷们基本都是在哈哈哈的笑声啊啊啊的赞叹声中看完的。

不得不说,这个综艺很快乐

我们去掉这些拟声词以及一些溢美之词,再看看,可以发现大湾区(主要是指陈小春、谢天华、林晓峰、张智霖、梁汉文古惑仔组合)、赵文卓李承铉欧阳靖张云龙等嘉宾们最受弹幕用户喜爱!

3. 点赞最多的弹幕

点赞前10的弹幕都集中在第1期的集部分,且绝大部分(前4条都是)集中在赵文卓出场表演的那段,把《流星雨》唱成流星锤,哈哈哈!

(df.sort_values(by='v2_up_count', ascending=False).head(10).style.hide_index().hide_columns(['ids','uid','time'])
)

点赞第三的“陈小春:女儿真好”是在介绍赵文卓时的朋友送祝福阶段赵文卓的儿子女儿的祝福时镜头给到的陈小春,然后有网友给出的经典弹幕,很温馨有没有!

终于知道戚薇的快乐了”这条高赞弹幕一定是一个女性网友想出来了,出自39分钟区间李承铉演唱《天上飞》时,帅炸全场!

4. 最疯狂的弹幕狂魔

看到弹幕里有不少二刷、三刷的多刷观众,有多少观众是弹幕狂魔,我们来探一探!

df.groupby('uid')['ids'].count().sort_values(ascending=False).to_frame('弹幕数').reset_index().head()

我们可以看到,有网友居然在4个半小时的第1期里一共打出了176条弹幕,平均0.65条弹幕/分钟,毫无疑问的弹幕狂魔!

抽样20条该网友的弹幕内容,我们发现他是真的爱这个节目,而不是只为某个哥哥而来!

(df[df['uid']==3752327606].sample(18).style.hide_index().hide_columns(subset='ids')
)

5. 弹幕最热的哥哥们

那么第1期三集33位哥哥们共4个半小时的表演,最受弹幕欢迎的是哪几位哥哥呢?

从弹幕整体词云可看到关键词最多的是大湾区(主要是指陈小春、谢天华、林晓峰、张智霖、梁汉文古惑仔组合)、赵文卓李承铉欧阳靖张云龙

大湾区的哥哥们

df[df['content'].astype('str').str.contains('大湾区|小春|春哥|谢天华|林晓峰|张智霖|梁汉文')]

赵文卓

df[df['content'].astype('str').str.contains('赵文卓|卓哥|文卓')]

哈哈哈笑死大威天龙

李承铉

那个,戚薇的快乐李承铉,直呼太帅了

df[df['content'].astype('str').str.contains('李承铉|戚薇')]

欧阳靖

说唱歌手欧阳靖

df[df['content'].astype('str').str.contains('欧阳靖')]

张云龙

言承旭张云龙“乘龙快旭”好甜,张云龙第一次看见言承旭,激动地上前直接握住对方的手然后脱口而出:“我以前模仿过你!”

df[df['content'].astype('str').str.contains('张云龙|云龙')]

关于更多弹幕数据或哥哥们的弹幕,大家可以后台回复955在芒果TV文件夹获取,然后就自己玩玩呗~!

6. 弹幕如何评价这一次的芒果台?

看到很多弹幕都在这次的芒果台

df[df['content'].astype('str').str.contains('芒果')]

7. 弹幕数据采集程序

贴源码咯

import requests
import pandas as pdheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36",}datas = []
# 每集90多分钟,所以100够了!
for i in range(100):print(f'\r{i}',end='')# 注意观察每集弹幕接口地址规律url = f'https://bullet-ali.hitv.com/bullet/2021/08/17/192249/13137070/{i}.json'r = requests.get(url, headers=headers)if r.status_code == 200:data = r.json()    data = data['data']['items']datas.extend(data)else:breakdf = pd.DataFrame(datas)df = df[['ids','uid','content','time','v2_up_count']].fillna(0)df['时间'] = df.time//60000

以上就是本次全部内容,这个综艺吧还是值的一看的,真的很回忆杀

xswl,这个全程搞笑的综艺节目终于开播了(披荆斩棘的哥哥)相关推荐

  1. 数据版“吐槽大会”: 国产综艺节目年终盘点

    前言 2018刚刚翻篇,每个人在2018都会留下许多难忘的回忆,有欢笑,有泪水,亦有成长.2018年诞生了许多的国产综艺节目,随着各大视频网站对自制综艺节目不断加大投入,我们有幸看到了更加多元化的综艺 ...

  2. 数据版吐槽大会:盘点2018国产综艺节目

    导读:2018刚刚翻篇,每个人在2018都会留下许多难忘的回忆,有欢笑,有泪水,亦有成长.2018年诞生了许多的国产综艺节目,随着各大视频网站对自制综艺节目不断加大投入,我们有幸看到了更加多元化的综艺 ...

  3. 程序员版“吐槽大会”: 国产综艺节目年终盘点

    作者 | 徐麟 责编 | 胡巍巍 前言 2018刚刚翻篇,每个人在2018都会留下许多难忘的回忆,有欢笑,有泪水,亦有成长.2018年诞生了许多的国产综艺节目,随着各大视频网站对自制综艺节目不断加大投 ...

  4. 用Python吐槽国产综艺节目!

    ♚ 作者:徐麟,目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据. 前言 2018刚刚翻篇,每个人在2018都会留下许 ...

  5. 微博数据解析:综艺节目如何频上微博热搜?以《令人心动的offer》为例

    随着经济的发展.互联网的崛起以及精神世界的需求等一系列原因,使得网络综艺顺应时代蕴运而生.如今,网络综艺已经广泛渗透到人们的日常生活当中,潜移默化的影响着观众. 目前综艺节目市场规模庞大,各种综艺节目 ...

  6. 关于近年来走红的某类综艺节目

    关于近年来走红的某类综艺节目 我一向是不愿意谈论超级女X和快乐男X之流的,因为在我看来那类节目根本不是艺术,连一般意义的娱乐都算不上.我向来认为,歌手和写手一样,需要勇气和勤奋,但天赋和灵气亦同样不可 ...

  7. 数据分析中看国产综艺节目走过的2019年

    纵观2019年,有好几百个综艺节目播出,从数量和类型上都可称得上百花齐放,既有<快乐大本营>这样跨越二十多年的老牌综艺仍在为观众的娱乐生活添彩,亦有<密室大逃脱>实景解密.&l ...

  8. 2022-2028年中国综艺节目市场深度调研及投资前景预测报告

    [报告类型]产业研究 [报告价格]¥4500起 [出版时间]即时更新(交付时间约3个工作日) [发布机构]智研瞻产业研究院 [报告格式]PDF版 本报告介绍了中国综艺节目行业市场行业相关概述.中国综艺 ...

  9. 全球及中国综艺节目产业营销策略分析及创新格局规划建议报告2021-2027年

    全球及中国综艺节目产业营销策略分析及创新格局规划建议报告2021-2027年 HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS-- [修订日期]:2021年 ...

最新文章

  1. 首例利用智能路由网关犯罪嫌疑人被捕:罪名流量劫持
  2. linux 集群配置ssh无密码访问
  3. .net和java互操作
  4. 2009-2019年全国大学生智能汽车竞赛获奖数据分析
  5. 什么数字万用表可以测量噪声?
  6. Angular rxjs Subject笔记
  7. [html] webSocket怎么做兼容处理?
  8. 学习笔记3 :pyqt5 显示opencv 和 PIL图片
  9. 帝国cms如何安装php模板,2020帝国cms模板安装教程详细介绍
  10. float取小数点后几位_python Integer整型与Float浮点型操作
  11. kafka zookeeper java_简单搭建kafka + zookeeper,附简单Java生产和消费客户端
  12. 中职计算机基础知识点笔记3
  13. c# excel vsto 表格偏移Offset
  14. 台式计算机2017排行分析,台式电脑CPU性能排行 桌面CPU天梯图2017年9月最新版 (全文)...
  15. 两步完成druid数据库连接池的密文配置
  16. Eighth Week(补充完整)
  17. 中美大学生阅读书单公布:对比结果惊到你了吗?
  18. BottomNavigationView修改图标/文字大小,替换图标
  19. oracle+dba+网课,[Oracle] 蓬动Oracle教程 DBA培训视频实战精品课及开发转Oracle 共52课...
  20. OpenGL学习笔记:颜色

热门文章

  1. win10提示该文件没有与之关联的应用来执行该操作
  2. 黑羽压测 做 API接口功能测试
  3. matplotlib之pyplot模块——饼图(pie():圆环图(donut)、二层圆环图、三层圆环图(旭日图))
  4. socks代理服务器协议的说明
  5. 【深度学习】【积分梯度】深度网络的公理归因(Axiomatic Attribution for Deep Networks)
  6. 【转】【技术博客】Spark性能优化指南——高级篇
  7. 李开复成长中的10句格言:求知若饥 虚心若愚
  8. ecshop和Ucenter 通信失败终极解决方法!(附带php5.3以上,出现其他问题解决方法)
  9. Https证书制作(转载)
  10. Black Hat Python3 Chapter4