Python抓取十万弹幕数据需多久?三分钟搞定并实现词云!
不知道周四的芒果台《披荆斩棘的哥哥》第1期一经播出,你们看了没。简直炸裂来袭,情怀牌、不油腻、有质感,让它上线就获得了大量关注!
将古惑仔、摇滚乐手、rapper、舞者、歌手、功夫演员等等放在同一档综艺节目里,又会产生什么样的化学反应呢?
今天,我们就看看第1期里10万弹幕大军们怎么说吧!
1. 数据预览
本次采集的是芒果TV第1期上中下三集一共97,331
条弹幕,具体采集过程见文末代码(比较简单哈)。
import pandas as pddf = pd.read_excel('披荆斩棘的哥哥.xlsx') # 数据字段信息 df.info()
<class 'pandas.core.frame.DataFrame'> Int64Index: 97331 entries, 4 to 33794 Data columns (total 7 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ids 97331 non-null string 1 uid 97331 non-null Int64 2 content 97331 non-null string 3 time 97331 non-null Int64 4 v2_up_count 97331 non-null Int64 5 时间 97331 non-null Int64 6 上中下 97331 non-null string dtypes: Int64(4), string(3) memory usage: 6.3 MB
在数据中,各字段含义如下:
ids
: 弹幕id
uid
: 用户id
content
:弹幕内容
time
:弹幕发送时间(相对于本集开始后的毫秒)
v2_up_count
:弹幕点赞数时间:弹幕发送时间(分钟)
上中下:归属第1期的上中下三部分之一
# 数据预览 df.sort_values(by=['上中下','time'], inplace=True) # 按照上中下集和time排序 df.head() 复制代码
(df.groupby('上中下').agg(弹幕数=('ids', 'count'),时长=('时间', 'max')).reset_index().style.bar(subset='弹幕数', align='zero').bar(subset='时长', color='orange', align='zero') ) 复制代码
基本上第1期的每集弹幕都是拉满状态(1分钟360条)
2. 弹幕整体词云
这里用的是此前的词云制作工具《》进行绘制
从整体词云,我们可以发现观众老爷们基本都是在哈哈哈的笑声与啊啊啊的赞叹声中看完的。
不得不说,这个综艺很快乐
我们去掉这些拟声词
以及一些溢美之词
,再看看,可以发现大湾区(主要是指陈小春、谢天华、林晓峰、张智霖、梁汉文古惑仔
组合)、赵文卓、李承铉、欧阳靖和张云龙等嘉宾们最受弹幕用户喜爱!
3. 点赞最多的弹幕
点赞前10的弹幕都集中在第1期的中集部分,且绝大部分(前4条都是)集中在赵文卓出场表演的那段,把《流星雨》唱成流星锤
,哈哈哈!
(df.sort_values(by='v2_up_count', ascending=False).head(10).style.hide_index().hide_columns(['ids','uid','time']) ) 复制代码
点赞第三的“陈小春:女儿真好
”是在介绍赵文卓时的朋友送祝福阶段赵文卓的儿子女儿的祝福时镜头给到的陈小春,然后有网友给出的经典弹幕,很温馨有没有!
“终于知道戚薇的快乐了
”这条高赞弹幕一定是一个女性网友想出来了,出自39分钟区间李承铉演唱《天上飞》时,帅炸全场!
4. 最疯狂的弹幕狂魔
看到弹幕里有不少二刷、三刷的多刷观众,有多少观众是弹幕狂魔,我们来探一探!
df.groupby('uid')['ids'].count().sort_values(ascending=False).to_frame('弹幕数').reset_index().head() 复制代码
我们可以看到,有网友居然在4个半小时的第1期里一共打出了176条弹幕,平均0.65条弹幕/分钟
,毫无疑问的弹幕狂魔!
抽样20条该网友的弹幕内容,我们发现他是真的爱这个节目,而不是只为某个哥哥而来!
(df[df['uid']==3752327606].sample(18).style.hide_index().hide_columns(subset='ids') ) 复制代码
5. 弹幕最热的哥哥们
那么第1期三集33位
哥哥们共4个半小时
的表演,最受弹幕欢迎的是哪几位哥哥呢?
从弹幕整体词云可看到关键词最多的是大湾区(主要是指陈小春、谢天华、林晓峰、张智霖、梁汉文古惑仔
组合)、赵文卓、李承铉、欧阳靖和张云龙。
大湾区的哥哥们
df[df['content'].astype('str').str.contains('大湾区|小春|春哥|谢天华|林晓峰|张智霖|梁汉文')] 复制代码
赵文卓
df[df['content'].astype('str').str.contains('赵文卓|卓哥|文卓')] 复制代码
哈哈哈
,笑死
,大威天龙
李承铉
那个,戚薇的快乐李承铉,直呼太帅了
df[df['content'].astype('str').str.contains('李承铉|戚薇')] 复制代码
欧阳靖
说唱歌手欧阳靖
df[df['content'].astype('str').str.contains('欧阳靖')] 复制代码
张云龙
言承旭张云龙“乘龙快旭”好甜,张云龙第一次看见言承旭,激动地上前直接握住对方的手然后脱口而出:“我以前模仿过你!”
df[df['content'].astype('str').str.contains('张云龙|云龙')] 复制代码
关于更多弹幕数据或哥哥们的弹幕,大家可以后台回复955在芒果TV文件夹获取,然后就自己玩玩呗~!
6. 弹幕如何评价这一次的芒果台?
看到很多弹幕都在夸这次的芒果台
df[df['content'].astype('str').str.contains('芒果')] 复制代码
7. 弹幕数据采集程序
贴源码咯
import requests import pandas as pdheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36",}datas = [] # 每集90多分钟,所以100够了! for i in range(100):print(f'\r{i}',end='')# 注意观察每集弹幕接口地址规律url = f'https://bullet-ali.hitv.com/bullet/2021/08/17/192249/13137070/{i}.json'r = requests.get(url, headers=headers)if r.status_code == 200:data = r.json() data = data['data']['items']datas.extend(data)else:breakdf = pd.DataFrame(datas)df = df[['ids','uid','content','time','v2_up_count']].fillna(0)df['时间'] = df.time//60000 复制代码
以上就是本次全部内容,这个综艺吧还是值的一看的,真的很回忆杀
是真挺好看的。推荐大家去回忆一下!
干货主要有:
①2000多本Python电子书(主流和经典的书籍应该都有了)
②Python标准库资料(最全中文版)
③项目源码(四五十个有趣且经典的练手项目及源码)
④Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)
如果你用得到的话可以直接拿走,在我的QQ技术交流群里群号:948351247(纯技术交流和资源共享,广告勿入)以自助拿走 点击这里 领取
Python抓取十万弹幕数据需多久?三分钟搞定并实现词云!相关推荐
- 如何用python抓取qq音乐_手把手教你使用Python抓取QQ音乐数据(第三弹)-阿里云开发者社区...
[一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐 ...
- 手把手教你使用Python抓取QQ音乐数据!
[一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐 ...
- 手把手教你使用Python抓取QQ音乐数据(第四弹)(文末赠书)
点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 千里之行,始于足下. [一.项目目 ...
- 微信好友大揭秘,使用Python抓取朋友圈数据,通过人脸识别全面分析好友,一起看透你的“朋友圈”...
微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流. 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友 ...
- 手把手教你入侵网站修改数据_手把手教你使用Python抓取QQ音乐数据(第四弹)...
[一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐 ...
- python爬取qq音乐歌曲链接为什么播放不出来_手把手教你使用Python抓取QQ音乐数据(第一弹)...
原标题:手把手教你使用Python抓取QQ音乐数据(第一弹) [一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. ...
- python音乐的数据抓取与分析_手把手教你使用Python抓取QQ音乐数据!
[一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐 ...
- 电视剧《大秦赋》最近很火!于是我用Python抓取了“相关数据”,发现了这些秘密............
前言 最近,最火的电视剧莫过于<大秦赋了>,自12月1日开播后,收获了不错的口碑.然而随着电视剧的跟新,该剧在网上引起了激烈的讨论,不仅口碑急剧下滑,颇有高开低走的趋势,同时该剧的评分也由 ...
- python豆瓣影评_使用Python抓取豆瓣影评数据的方法
抓取豆瓣影评评分 正常的抓取 分析请求的url https://movie.douban.com/subject/26322642/comments?start=20&limit=20& ...
最新文章
- jquery.raty评星插件
- 在mysql中创建表的命令行_如何在命令行创建一个MySQL数据库
- 【Spring MVC】文件上传、文件下载
- 同盟与对抗:谈《少女杜拉的故事》中的治疗关系(转)
- Springboot 通过Ftp协议下载文件,并在Vue平台上显示其内容
- freecplus框架-日志文件操作
- c语言进阶.pdf,C语言程序设计进阶:文件.pdf
- linux haokande shell,5 个 PowerShell 主题,让你的 Windows 终端更好看
- Ubuntu 15.10系统安装后要做的15件事
- latex模板章节序号标签加粗
- 使用工具Android Studio实现一个简单的Android版的新闻APP之美
- MATLAB 工具箱傻瓜式求解 NS(Navier Stoke)方程
- linux系统中连接两个网桥,Linux 网桥代码分析 (二)
- [渝粤教育] 中原科技学院 设计学和美好生活 参考 资料
- 游戏设计模式——观察者模式(Observer)
- 怎么更改计算机用户为管理员账户,Win10如何更改为管理员账户,教您如何更改
- C++连接MySQL
- 设计问卷调查有哪些技巧?
- Excel中Vlookup函数近似匹配和精确匹配
- 姿态解算进阶:互补滤波(陀螺仪、加速度计、地磁计数据融合)
热门文章
- 教您用xmanager启动Linux上的图形界面程序
- java g1的并行_「g1」JVM G1详解 - seo实验室
- [ssh新闻发布系统五]删除新闻
- python下载电影视频_python爬虫:抓取下载电影文件,合并ts文件为完整视频
- win10共享打印错误0x0000006_win10打印机共享提示错误0x00000709怎么办
- SpringSecurity学习笔记(三)自定义资源拦截规则以及登录界面跳转
- Sorry Redis Desktop Manager Crashed的解决办法
- 科技赋能农业变革:“大数据+农业”重新定义产业体系
- java.net.UnknownHostException 异常处理(个人案例)
- U启动后计算机能看到原系统文件吗,u启动一键急救系统使用