大家好,我是小五????

最近B站这两个月,快被买瓜的刘华强屠版了,上一个这么火的人物,应该还是闪电五连鞭的马保国。

与之前的网络“审丑”视频不同,这次火的片段来自一部影视作品。

孙红雷在2003年主演的电视剧《征服》中,饰演一位名叫刘华强的黑帮老大,在一次买瓜的过程中他和商贩发生了争执,刘华强便一刀捅伤了瓜摊老板。

作为鬼畜区的资深爱好者,小五今天就用数据探究一下:刘华强买瓜什么时候火的?火成什么样?为什么这么火?

什么时候火的?

目前可以统计到的数据,刘华强买瓜相关的B站投稿视频已达数千条。

那么,究竟是什么时候开始成为一个爆款热点视频素材的呢?

数据获取

由于涉及数据采集,我们还是要搬出来老Python。

def get_videos(key_word, page_num):url = f'https://search.bilibili.com/video?keyword={key_word}&from_source=web_search&page={page_num}'r = requests.get(url, headers=headers, timeout=3)html = parsel.Selector(r.text)title = html.xpath('//li[@class="video-item matrix"]/a/@title').extract()upload_time = [i.strip() for i in html.xpath('//li[@class="video-item matrix"]//span[@title="上传时间"]/text()').extract()]view_num = [i.strip() for i in html.xpath('//li[@class="video-item matrix"]//span[@title="观看"]/text()').extract()]up_author = html.xpath('//li[@class="video-item matrix"]//span[@title="up主"]//a/text()').extract()video_url = html.xpath('//li[@class="video-item matrix"]/a/@href').extract()

爬取B站的视频数据:分别采集“刘华强”、“刘华强买瓜”等关键词在各个分区的投稿视频数据。

成功得到3000条数据,去重后是2659条bilibili视频投稿信息。

为了方便后续作图,还进行了一步数据处理,将播放量中的“万”转成数字。

下面,我们将依赖这2000条视频数据,来探究“刘华强买瓜”是怎么火起来的。

投稿视频

通过绘制每日视频发布数量的时间走势,可以发现

第一个高峰出现在7月16日,当天出现了25个相关投稿,明显高于前一天的5条视频。

# 柱形图
bar1 = Bar(init_opts=opts.InitOpts(width='1000px', height='600px'))
bar1.add_xaxis(time_num.index.tolist())
bar1.add_yaxis('', time_num.values.tolist())
bar1.set_global_opts(title_opts=opts.TitleOpts(title="当日发布视频的数量", subtitle="时间走势"), visualmap_opts=opts.VisualMapOpts(max_=77),)
bar1.render_notebook()

那么,“刘华强买瓜”是在7月16日火起来的吗?

大概率不是。

当创作者们发现某个视频的素材非常有趣,再纷纷进行二创(蹭热点),肯定是要花一定时间的。

那么如何能找得最早引爆B站买瓜的视频呢?

这时,我想到了另一个方向——视频播放量。

播放量

改变方向,重新汇总每日投稿视频的总播放量,绘制折线图。

这次就很明显了,在7月14日总播放量达到810w,而之前的视频没有播放超过20w的。

那么,这个“引爆视频”作品就就是发布在——7月14日

根据这个结果,我轻松找到了买瓜大队的“罪魁祸首”——【诚信商家】。

这样,第一个谜题就解开了,刘华强买瓜是在7月14日火起来的!

火成什么样?

探究完了什么时候火的,再来看看买瓜视频火成什么样了?

哪些up主又贡献了哪些优质的二创视频?

我按照播放量,制作了一张条形图。

TOP10中,【⚡萨 日 朗!!!⚡】名列前茅,播放量达到了2300w播放量,可见有多火!前文刚刚提到的,【诚信商家】也在其中,排名第10。

这些视频超级有趣,各位up主们脑洞都超级大:

在【买瓜大队】中刘华强一人买瓜可能有些寂寞,于是叫上了好几个同伙一起过来---祝瓜摊老板平安!

买瓜大队

奥运期间,结合时事。水果忍者男单决赛,刘华强不负众望拿下金牌!

刘华强不负众望拿下金牌

【无 伤 反 杀 刘 华 强】中,技术大佬把刘华强改成钢铁侠,凭借修改器还是成功“反杀”刘华强。

无 伤 反 杀 刘 华 强

在「误导向」感人短片 【下 岗 工 人 刘 华 强】中,刘华强和瓜摊老板首次和解,共同演绎《杀死那个石家庄人》。

下 岗 工 人 刘 华 强

用一张假钞,买一个生瓜,如此生活30年,直到大厦崩塌。

为什么火?

我们已经了解到了,刘华强买瓜什么时候火的、火成什么样?那么为什么这么火,我决定去弹幕里找找答案!

不过当日弹幕只有300多条,不够爽

于是我再次拿起了Python,把最近30天的历史弹幕也爬了下来。

url = f'https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid={oid_num}&date={danmu_date}'

按照被刘华强劈过的西瓜形状,制作了一张词云图????

解释一下,其中词频最多的kksk,是一种弹幕语言,是日语ここ好き的罗马音ko ko SU KI的缩写,意思是喜欢这里,目前鬼畜区里这类弹幕比较多(yyds已经被批了,这里就不展开讨论了)。

再去除上头、每天一遍等常见词,其他的弹幕是什么呢?

很明显,是台词空耳!!!

台词 空耳
生意行啊你们哥俩 生异形啊你们哥俩
你嫌贵我还嫌贵呢 你贤惠我还贤惠呢
杀人啦!杀人啦! 萨日朗!章鱼哥!
卧槽 What's up

B站的鬼畜区的素材,要么来自时事,要么从广为人知的视频片段中选取。

通过前文,我们也了解到,虽然【刘华强买瓜】的爆火开始与7月14日,但在此之前仍然有很多视频在发。所以刘华强买瓜的电视剧片段是有广泛的群众基础的,这也是成为鬼畜素材的重要一环!

二来就是如弹幕词云中所表现,视频片段仅仅3分钟,但台词却有充足的空耳空间来发挥。

所以个人拙见,以上正是【刘华强买瓜】为什么火的原因。

相较之下,最近鬼畜新贵——东北黑帮张学姐,发挥空间就不如华强买瓜。

好啦,我是小五

如果觉得今天的文章比较有趣的话,就给右下角点个????吧~~~

数据&代码下载

需要本文数据和代码的朋友,可以在公众号【凹凸数据】后台回复“刘华强”即可。

小伙用Python爬取3000条B站视频,发现刘华强买瓜是这么火起来的!相关推荐

  1. python爬取琳琅社区整站视频(一晚6000部)

    琳琅社区(传闻中最受男人喜爱的网站),哼哼,我倒要看看是不是真的 该项目用于爬取琳琅社区整站视频(仅供学习) 主要使用:python3.7 + scrapy2.19 + Mysql 8.0 + win ...

  2. Python+BI爬取3000条车厘子数据,发现了这些秘密

    听说最近车厘子的价格突然猛跌,之前很多人梦寐以求的"车厘子自由",现在都能实现了.其实车厘子的价格下降,主要原因是进口货运成本的大大降低,为了找到车厘子最佳的购买方式,我决定用py ...

  3. 刘华强买瓜是怎么火起来的?我用Python爬取了3000条B站视频才知道的!

    最近B站这两个月,快被买瓜的刘华强屠版了,上一个这么火的人物,应该还是闪电五连鞭的马保国. ​ ​ 与之前的网络"审丑"视频不同,这次火的片段来自一部影视作品. 孙红雷在2003年 ...

  4. Python 爬取 201865 条《隐秘的角落》弹幕,发现看剧不如爬山?

    作者 | 朱小五 责编 | 屠敏 封图 | CSDN 付费下载自东方 IC 最近又火了一部国产剧:<隐秘的角落>. 如果你没看过,那可能会对朋友圈里大家说的"一起去爬山" ...

  5. Python 爬取 201865 条《隐秘的角落》弹幕数据,发现看剧不如爬山?

    Python 爬取 201865 条<隐秘的角落>弹幕数据,发现看剧不如爬山? 本文不涉及剧透!请放心食用 最近又火了一步国产剧:<隐秘的角落> 如果你没看过,那可能会对朋友圈 ...

  6. python 软件开发 哔哩哔哩_介绍Python爬取哔哩哔哩视频

    栏目介绍如何爬取视频 相关免费学习推荐: 本篇文章主要给大家讲解下如实使用python 爬取哔哩哔哩中的视频,首先我是一名大数据开发工程师,爬虫只是我的一个业余爱好,喜欢爬虫的小伙伴可以一起交流.好了 ...

  7. 如何用python爬取视频_介绍Python爬取哔哩哔哩视频

    python视频教程栏目介绍如何爬取视频 本篇文章主要给大家讲解下如实使用python 爬取哔哩哔哩中的视频,首先我是一名大数据开发工程师,爬虫只是我的一个业余爱好,喜欢爬虫的小伙伴可以一起交流.好了 ...

  8. python 爬取2021年《财富》世界500强排行榜2层链接

    python  爬取2021年<财富>世界500强排行榜2层链接 ''' 2021年500强财富爬取 QQ:28928247 # ''' # -*- coding: UTF-8 -*- i ...

  9. Python爬取44130条用户观影数据,分析挖掘用户与电影之间的隐藏信息!

    1.前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 Python免费学习 ...

最新文章

  1. win7下安装ubuntu14.04双系统问题总结
  2. idl linux运行效率,Linux性能优化实战 CPU篇 阅读笔记
  3. Windows系统调用学习笔记(一)—— API函数调用过程
  4. android百度地图 描点,百度地图批量描点写字
  5. leetcode 47. 全排列 II 思考分析
  6. jQuery加载js脚本
  7. [渝粤教育] 西南科技大学 现代企业管理 在线考试复习资料(2)
  8. 运维中常用Linux命令及运维工具
  9. bmd硬盘测试_mac硬盘测速工具Blackmagic Disk Speed Test如何使用
  10. mysql 创建函数报错_MySQL 创建函数时报错'ERROR 1336 (0A000): Dynamic SQL'
  11. 庚子年十月初九——十月十五
  12. Vasp二维材料单胞基本计算范例
  13. java实体类包怎么命名,程序那些事
  14. 微信小程序收藏按钮五角星星图标动画效果实现
  15. java汇编工具使用
  16. 平安夜的真实来历(平安夜的由来)
  17. 2019年环175五一作业
  18. iOS 照片存储到沙盒 和读取
  19. RabbitMQ在特来电的深度应用
  20. Qt使用多核(jom)加快编译速度

热门文章

  1. WebSocket 实现简单聊天功能
  2. 电阻器指南(一)-基本知识
  3. 值得收藏!神器 navicat 用法秘籍,你不知道就out啦
  4. 抖音做了企业认证到底能不能增加权重,怎么看抖音权重高低
  5. 《SigmaDSP开机启动避免开机声音突变问题解决方法》
  6. linux进阶17——GDB(三):观察断点和捕捉断点
  7. Windows下使用VNC连接CentOS7远程桌面
  8. Head First Java习题练习(一)
  9. 【Maven】使用插件拷贝jar包到指定目录
  10. 【解决方法】因为 'PRIMARY' 文件组已满。请删除不需要的文件、删除文件组中的对象、将其他文件添加到文件组或为文件组中的现有文件启用自动增长,以便增加可用磁盘空间