点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

愿得此身长报国,何须生入玉门关。

其实吧,上周四(8月12日)芒果台《披荆斩棘的哥哥》第1期一经播出,就炸裂来袭,情怀牌、不油腻、有质感,让它上线就获得了大量关注!

将古惑仔、摇滚乐手、rapper、舞者、歌手、功夫演员等等放在同一档综艺节目里,又会产生什么样的化学反应呢?

今天,我们就看看第1期里10万弹幕大军们怎么说吧!

目录

  • 1. 数据预览

  • 2. 弹幕整体词云

  • 3. 点赞最多的弹幕

  • 4. 最疯狂的弹幕狂魔

  • 5. 弹幕最热的哥哥们

  • 6. 弹幕如何评价这一次的芒果台?

  • 7. 弹幕数据采集程序

1. 数据预览

本次采集的是芒果TV第1期上中下三集一共97,331条弹幕,具体采集过程见文末代码(比较简单哈)。

import pandas as pddf = pd.read_excel('披荆斩棘的哥哥.xlsx')
# 数据字段信息
df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 97331 entries, 4 to 33794
Data columns (total 7 columns):#   Column       Non-Null Count  Dtype
---  ------       --------------  ----- 0   ids          97331 non-null  string1   uid          97331 non-null  Int64 2   content      97331 non-null  string3   time         97331 non-null  Int64 4   v2_up_count  97331 non-null  Int64 5   时间           97331 non-null  Int64 6   上中下          97331 non-null  string
dtypes: Int64(4), string(3)
memory usage: 6.3 MB

在数据中,各字段含义如下:

ids:弹幕id

uid:用户id

content:弹幕内容

time:弹幕发送时间(相对于本集开始后的毫秒)

v2_up_count:弹幕点赞数

时间:弹幕发送时间(分钟)

上中下:归属第1期的上中下三部分之一

# 数据预览
df.sort_values(by=['上中下','time'], inplace=True) # 按照上中下集和time排序
df.head()

数据预览
(df.groupby('上中下').agg(弹幕数=('ids', 'count'),时长=('时间', 'max')).reset_index().style.bar(subset='弹幕数', align='zero').bar(subset='时长', color='orange', align='zero')
)

基本上第1期的每集弹幕都是拉满状态(1分钟360条)

2. 弹幕整体词云

这里用的是此前的词云制作工具《140行代码自己动手写一个词云制作小工具(文末附工具下载)》进行绘制

弹幕整体词云

从整体词云,我们可以发现观众老爷们基本都是在哈哈哈的笑声啊啊啊的赞叹声中看完的。

不得不说,这个综艺很快乐

某个朋友观后感

我们去掉这些拟声词以及一些溢美之词,再看看,可以发现大湾区(主要是指陈小春、谢天华、林晓峰、张智霖、梁汉文古惑仔组合)、赵文卓李承铉欧阳靖张云龙等嘉宾们最受弹幕用户喜爱!

3. 点赞最多的弹幕

点赞前10的弹幕都集中在第1期的集部分,且绝大部分(前4条都是)集中在赵文卓出场表演的那段,把《流星雨》唱成流星锤,哈哈哈!

(df.sort_values(by='v2_up_count', ascending=False).head(10).style.hide_index().hide_columns(['ids','uid','time'])
)

点赞最多的弹幕

赵文卓唱成流星锤

点赞第三的“陈小春:女儿真好”是在介绍赵文卓时的朋友送祝福阶段赵文卓的儿子女儿的祝福时镜头给到的陈小春,然后有网友给出的经典弹幕,很温馨有没有!

终于知道戚薇的快乐了”这条高赞弹幕一定是一个女性网友想出来了,出自39分钟区间李承铉演唱《天上飞》时,帅炸全场!

4. 最疯狂的弹幕狂魔

看到弹幕里有不少二刷、三刷的多刷观众,有多少观众是弹幕狂魔,我们来探一探!

df.groupby('uid')['ids'].count().sort_values(ascending=False).to_frame('弹幕数').reset_index().head()

疯狂的弹幕狂魔

我们可以看到,有网友居然在4个半小时的第1期里一共打出了176条弹幕,平均0.65条弹幕/分钟,毫无疑问的弹幕狂魔!

抽样20条该网友的弹幕内容,我们发现他是真的爱这个节目,而不是只为某个哥哥而来!

(df[df['uid']==3752327606].sample(18).style.hide_index().hide_columns(subset='ids')
)

为节目而来

5. 弹幕最热的哥哥们

那么第1期三集33位哥哥们共4个半小时的表演,最受弹幕欢迎的是哪几位哥哥呢?

从弹幕整体词云可看到关键词最多的是大湾区(主要是指陈小春、谢天华、林晓峰、张智霖、梁汉文古惑仔组合)、赵文卓李承铉欧阳靖张云龙

大湾区的哥哥们

df[df['content'].astype('str').str.contains('大湾区|小春|春哥|谢天华|林晓峰|张智霖|梁汉文')]

大湾区的哥哥们

赵文卓

df[df['content'].astype('str').str.contains('赵文卓|卓哥|文卓')]

哈哈哈笑死大威天龙

赵文卓

李承铉

那个,戚薇的快乐李承铉,直呼太帅了

df[df['content'].astype('str').str.contains('李承铉|戚薇')]

李承铉

欧阳靖

说唱歌手欧阳靖

df[df['content'].astype('str').str.contains('欧阳靖')]

欧阳靖

张云龙

言承旭张云龙“乘龙快旭”好甜,张云龙第一次看见言承旭,激动地上前直接握住对方的手然后脱口而出:“我以前模仿过你!”

df[df['content'].astype('str').str.contains('张云龙|云龙')]

张云龙

关于更多弹幕数据或哥哥们的弹幕,大家可以后台回复955在芒果TV文件夹获取,然后就自己玩玩呗~!

6. 弹幕如何评价这一次的芒果台?

看到很多弹幕都在这次的芒果台

df[df['content'].astype('str').str.contains('芒果')]

7. 弹幕数据采集程序

贴源码咯

import requests
import pandas as pdheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36",}datas = []
# 每集90多分钟,所以100够了!
for i in range(100):print(f'\r{i}',end='')# 注意观察每集弹幕接口地址规律url = f'https://bullet-ali.hitv.com/bullet/2021/08/17/192249/13137070/{i}.json'r = requests.get(url, headers=headers)if r.status_code == 200:data = r.json()    data = data['data']['items']datas.extend(data)else:breakdf = pd.DataFrame(datas)df = df[['ids','uid','content','time','v2_up_count']].fillna(0)df['时间'] = df.time//60000

以上就是本次全部内容,这个综艺吧还是值的一看的,真的很回忆杀

------------------- End -------------------

往期精彩文章推荐:

  • 手把手教你用Pyecharts库对淘宝数据进行可视化展示

  • 手把手教你用Pandas库对淘宝原始数据进行数据处理和分词处理

  • 盘点Flask与数据库的交互插件--Flask-Sqlalchemy

  • 盘点那些年我们一起玩过的网络安全工具

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

10万弹幕大军带你一起看芒果热播综艺《披荆斩棘的哥哥》相关推荐

  1. 海云健康:上云为10万家药店带去了什么价值?

    "全国每5个人里,就有1个正在接受海云健康系统提供的服务." 在海云健康(以下简称"海云")的系统后台上,每一分钟就有10万笔的买药订单涌动.也许很多人没有听过 ...

  2. python爬虫高级知识分子的风骨_Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事...

    相信昨天的Breaking news(爆搜)是本世纪伟大的物理学家霍金辞世,享年76岁.小伙伴肯定知道霍金的故事肯定很励志,他是智商肯定不是常人能及的,因为他的引领,不断的拓宽了人类对宇宙的认识. 作 ...

  3. 爬取《令人心动的offer2》13万弹幕,看网友是如何评价的

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于菜J学Python ,作者J哥 刚接触Python的新手.小白,可以复制下面的链接去 ...

  4. 2021年北京积分落户纳税10万是怎么解读的?

    要论今年积分落户申报工作中什么话题讨论得最猛烈,那无疑是"纳税"加分了.贴吧里举报之声不绝于耳,微信群朋友圈哀鸿遍野,当然都是被超车人发出的声音.利用"突击纳税" ...

  5. 华为发放20亿奖金,人均10万!你还想逃离996吗?

    黑马程序员视频库 播妞微信号:boniu236 传智播客旗下互联网资讯.学习资源免费分享平台 工作是每个人都不能逃离的,我们需要依靠它生存,更需要它来体现自身的价值.校园时代我们幻想着有一份" ...

  6. 30万条弹幕大军都推荐你去看的《山海情》,是怎样一部最搞笑最土味的扶贫剧

    大家好,今天我们来看看这部由豆瓣7万人评分高达9.4分的开年大剧<山海情>吧. 也就是在昨天1月24日该剧迎来了大结局,我们爬取腾讯视频全23集共31.79万条弹幕,看看大家都在聊什么! ...

  7. 我分析了b站10万条弹幕,发现了歪嘴战神的终极奥义!(文末重磅福利)

    大家好,我是小z~ 天气太热,今天文末一次性送出5本很nice商业智能可视化书籍,给大家解解暑. 最近,歪嘴战神血洗b站,靠着"耐克式微笑"成功出圈,迷倒众生. 这次,小z爬取了1 ...

  8. 年入100万的程序员说,看完这些书至少涨薪10万

    坚持阅读好书是学习Java并且快速提升技术的最好方式之一.但是,市面上与Java技术相关的书籍可谓数不胜数,如何从这些质量参差不齐的众多书中选择出优秀的书籍,就成为了Java程序员面对的第一个问题. ...

  9. TikTok跨境电商:英国小黄车来囖!离直播带货爆单月入10万刀,又迈进一大步!--TK领航社

    TikTok跨境电商:英国小黄车来囖!离直播带货爆单月入10万刀,又迈进一大步! TK领航社--全球最大的tiktok社群/跨境电商圈子shopify项目 亚马逊交流圈子. 总的来说,就是从产品的价格 ...

最新文章

  1. 20. 邮件提醒(接收邮件)
  2. mysql5 7安装教程_MySQL57安装教程
  3. DownloadManager 的使用
  4. 运行程序时java后面跟的是文件名对吗_运行程序时java命令后面跟的是文件名。...
  5. python 网页爬取数据生成文字云图
  6. Mac计算器的计算过程怎么看?教你一键查看运算记录!
  7. [Node.js] 模块化 -- url、querystring模块
  8. 贪心算法——洛谷(P1094)纪念品分组
  9. Collection(单列集合)
  10. 35岁老半路程序员的Python从0开始之路
  11. 献给攻击者,请放弃攻击吧,这样只会浪费自己的青春+金钱
  12. AE自带特效中英文对照表
  13. 显著性 / 注意力机制
  14. 信号与系统(十八)——傅里叶变换及性质(2)
  15. win7系统计算机怎么更改密码,Win7系统怎么设置和删除电脑开机密码?
  16. 华为/荣耀 笔记本 HiboardDataReport.exe应用程序错误
  17. CPU之外,国产芯片再突破,再也不用看AMD和NVIDIA的脸色了
  18. 手把手教你自制U盘重装win10系统专业版(纯净版)+激活【图文教程】
  19. 【连麦demo】信令
  20. xwiki功能-皮肤

热门文章

  1. 如何删除电脑弹出的热点新闻
  2. 【论文翻译】Deep Residual Learning for Image Recognition
  3. Cisco 路由器与ASA防火墙 Site-to-Site IPsec
  4. 远程视频监控该如何组网
  5. Python 将关系对数据转换为图数据 / 邻接矩阵
  6. JDK8 after时间日期api
  7. 【leetcode】快乐数
  8. zepto移动端web相册
  9. hbw-utils - 基本数据类型包装类转换的实现
  10. windows server2012安装web服务以及运行asp