Python爬取B站5000条视频,揭秘为何千万人看「哪吒」流泪
导读:《哪吒》看哭了无数人!有很多小朋友,一开始他们还被太乙真人的滑稽,逗得哈哈笑。到了哪吒成魔要杀父亲、跪别父母、因为宿命不得以和敖丙为敌时,影院里突然安静下来。
人们喜欢《哪吒》,不仅是因为它的特效,更是因为里面的亲情友情乃至师生情,是我们每个人的向往啊......
本文作者Yura爬取B站5000条视频,为你揭秘电影的更多“优秀梗”,看完还能Get新技能,赶快往下滑吧!
本文经授权转自公众号程序人生(ID:coder_life),作者:Yura
这个夏天,《哪吒之魔童降世》碾压其他暑期档电影,成为最强黑马。我身边的朋友,不是已经N刷了这部电影,就是在赶去N刷的路上。从票房上也可窥见一斑:
上映第 1 天:89分钟,中国动画最快破1亿纪录。
上映第 2 天:中国影史首部单日票房破2亿的动画电影。
上映第 4 天:中国影史第66部破10亿影片!
上映第 8 天:正式登顶!破16亿,超过《疯狂动物城》,创中国影史动画电影票房新纪录!
……
预测票房达44亿!
我和朋友在前几天也去电影院支持了一下,当初只觉得国漫不容易,支持一下吧。看完之后觉得,国漫做到这样的剧情、特效、音乐,是真的很不容易!
这部影片制作过程历时5年,磨合了66个版本,共有1800多个镜头,还包含1400多个特效镜头。饺子导演,respect!
同样值得Respect的还有B站UP主们,动漫属性极强的B站在电影上映之后涌现了大量的相关视频。
▲b站“哪吒之魔童降世”搜索结果截图
搜索“哪吒之魔童降世”可以看到视频信息,今天我就来爬一爬,看看B站UP主们是如何对这部优秀的作品进行再创新的。
01 数据爬取
在浏览器开发者模式CTRL+F很容易就能找到所需要的信息,就在页面源码中:
因此我们用beautifulsoup库就能快速方便地获取想要的信息啦。
因为B站视频数量有限定,每次搜索只能显示20条*50页=1000个视频信息。
为了尽可能多的获取视频信息,我另外还选了“最多点击”“最新发布”“最多弹幕”和“最多收藏”4个选项。
http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=totalrank&duration=0&tids_1=0&page={}
http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=click&duration=0&tids_1=0&page={}
http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=stow&duration=0&tids_1=0&page={}
http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=dm&duration=0&tids_1=0&page={}
http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=pubdate&duration=0&tids_1=0&page={}
5个URL,一共爬取5000条视频,去重之后还剩下2388条信息。
为了得到“转评赞”数据,我还以视频id里面的数字(去掉“av”)为索引,遍历访问了每个视频页面获取了更详细的数据,最终得到以下字段:
在后续划词云的时候还爬取了部分视频的弹幕详情,但是我最近发现firefox也不显示弹幕页面cookie信息了,于是我尝试使用了B站其他页面的cookie,居然成了~
详细(不成熟的)代码参考github:
https://github.com/PengYura/Bilibli-
02 数据分析
电影在7月18、19日就进行了全国范围的点映,正式上映时间为7月26日,在这之后相关视频数量有明显的上升。
在这时间之前的,最早发布时间可以追溯到2018年11月份,大部分都是预告类视频:
在8月7日之后视频数量猛增,单单8月7日一天就新上传了319个相关视频。
从标题名字中我们可以大致了解视频的内容:
毫无疑问,“哪吒”和“敖丙”作为影片两大主角是视频的主要人物;因为他们同生共患难的情谊,“藕饼”(“哪吒+敖丙”组合)也是视频的关键词;除此之外,“国漫”也是一大主题词,毕竟我们这次是真正地被我们的国产动漫震撼到了。
从视频分类来看,我们发现“影视剪辑”“国产原创相关”和“绘画”是三个主要类型,占据了总视频的40%以上。看了几个绘画类型的视频,我理解了什么叫做“高手在人间”。
▲图取自UP主:Save菇菇菇菇菇菇菇菇
传送门:
https://www.bilibili.com/video/av60131700
超过一半的视频时长都在3分钟之内,但是也有些视频长达2个小时多,长视频大部分都是一些教学类视频(绘画、建模等)。大家都说喜欢在B站上学习,免费还无广告,诚不欺我。
那这么多视频到底质量怎么样,不能仅凭我一人之言,看看有雪亮眼睛的观众是怎么反馈的?
▲注:横坐标代表点赞数量,纵坐标代表收藏数量,气泡大小表示金币数量。
从明显的线性规律和从左到右逐渐变大的气泡可看出,大家深谙“一条龙”服务定理(点赞+收藏+投币),上道儿~
右上角那个特别突出的视频是《戏腔燃炸了!哪吒原创曲《我命不由天》(古风MV付)哪吒之魔童降世》,是由一个三人团队创作的原创曲目,观看数159w+,点赞超过1我命w,收藏12w+,投币14w!表演者居然把尤克里里弹出琵琶的感觉,果然是才华限制了我的想象力。
刚刚是全局观看,那么细分种类的话,大家都偏好哪种类型的视频呢?
▲注:TGI:即Target Group Index(目标群体指数),可反映目标群体在特定研究范围内的强势或弱势,超过100即表示特征明显。本次计算公式(以金币数TGI为例)=某一类型视频金币总数占比/该类型视频数量占比
按照金币数TGI排序,我们发现“原创音乐”以1551的超高指数占据榜首,“趣味科普人文”虽然视频数量占比不高,但是用户的投币数量还是很可观的。
排名第三的“单机游戏”,我开始还一脸懵,这电影和游戏也能扯上关系?
直到我打开视频之后,那些用“模拟人生”“我的世界”做出来的如同电影般的画面,我…膝盖不保。怎么着?神仙也上B站?
▲图取自UP主:白小久丶
传送门:
https://www.bilibili.com/video/av61606846
弹幕数量最多的视频是《【哔哔Q第3期】哪吒续作预定?打破成见,做自己的英雄!》,这是关于影片导演饺子的一段采访,从大家的弹幕里面可以看出大家对这部电影的看法:
哪吒可爱敖丙(饼)帅不用多说,“加油”“期待”表达了观众对导演的鼓励。
视频中导演饺子非常谦虚,说“觉得我们现在还不配得到那么多粉丝”,满屏“配”字表明了大家最硬核的支持。
03 最后的最后
看完了这部电影,大家都有一种“国漫崛起”的感慨。
除了是观众的福利,我觉得这更是对中国千千万万艺术创作者的鼓励。
打造中国自己的封神宇宙,我们已经迈出了第一步啦。
作者:Yura,计算机科学与技术专业毕业生,因在澳洲交换学习接触了大数据,甚感兴趣。遂开公众号“Yura不说数据说”督促自己学习数据分析!欢迎大家关注我的个人公众号,一起(监督我)学习。
本文转自公众号“程序人生”,ID:coder_life
有话要说?
Q: 你给「哪吒」打几分?
欢迎留言与大家分享
猜你想看?
什么是机器学习?有哪些分类?到底有什么用?终于有人讲明白了
6本豆瓣高分书,国内外的技术大牛都在看!
关于机器学习的知识点,全在这篇文章里了
入门大爆炸式发展的深度学习,你先要了解这6个著名框架
更多精彩?
在公众号对话框输入以下关键词
查看更多优质内容!
PPT | 报告 | 读书 | 书单 | 干货
大数据 | 揭秘 | Python | 可视化
AI | 人工智能 | 5G | 区块链
机器学习 | 深度学习 | 神经网络
合伙人 | 1024 | 段子 | 数学 | 高考
据统计,99%的大咖都完成了这个神操作
?
觉得不错,请把这篇文章分享给你的朋友
转载 / 投稿请联系:baiyu@hzbook.com
更多精彩,请在后台点击“历史文章”查看
Python爬取B站5000条视频,揭秘为何千万人看「哪吒」流泪相关推荐
- Python 爬取 B 站 5000 条视频,揭秘为何千万人为它流泪!
[CSDN 编者按]<哪吒>看哭了无数人!编者看的那场,有很多小朋友,一开始他们还被太乙真人的滑稽,逗得哈哈笑.到了哪吒成魔要杀父亲.跪别父母.因为宿命不得以和敖丙为敌时,影院里突然安静下 ...
- Python爬取B站5000条视频,揭秘为何千万人为它流泪
作者 | Yura编辑 | 胡巍巍来源 | CSDN(ID:CSDNnews) 导语:我们特邀作者Yura爬取B站5000条视频,为你揭秘电影<哪吒>的更多"优秀梗", ...
- python爬取+BI分析5000条内衣数据,发现妹子最爱这款文胸
生活中我们经常会用python进行数据爬取,但是爬取简单分析难,很多人喜欢用echarts图表接口或者是python的第三方库进行数据可视化,甚至是用matlab,基本上都需要用代码实现,在数据展示上 ...
- 怎么下载m3u8格式视频?Python爬取A站m3u8格式视频案例讲解
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 本篇文章流程 一. 数据来源分析 确定需求 (确定要爬的内容是什么?).只有知道数据要的是什 ...
- python爬取b站评论_学习笔记(1):写了个python爬取B站视频评论的程序
学习笔记(1):写了个python爬取B站视频评论的程序 import requests import json import os table='fZodR9XQDSUm21yCkr6zBqiveY ...
- python爬取bilibili弹幕_用Python爬取B站视频弹幕
原标题:用Python爬取B站视频弹幕 via:菜J学Python 众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一 ...
- 用Python爬取B站、腾讯视频、芒果TV和爱奇艺视频弹幕
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
- python 爬取B站原视频的实站代码
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:python学习教程 ( 想要学习Python?Pyt ...
- python爬b站评论_学习笔记(1):写了个python爬取B站视频评论的程序
学习笔记(1):写了个python爬取B站视频评论的程序 import requests import json import os table='fZodR9XQDSUm21yCkr6zBqiveY ...
最新文章
- R语言ggplot2可视化:为可视化图像添加多行标题(multi line title)并将多行标题居中对齐(center align)
- 渲染树构建、布局及绘制
- netty系列之:一口多用,使用同一端口运行不同协议
- 涨姿势:Java 异常?尝试自定义异常
- MySQL初级培训_Mysql初级学习
- zend studio php 5.5,Zend Studio使用教程:在Zend Studio中调试PHP(5/5)
- axios跨域请求的qs用法 - qs安装篇
- 命令查看mysql端口映射_【转载】烂泥:如何利用telnet命令检测端口映射是否成功...
- Network-Monitor项目中观察者模式解析
- 高一学年总结·Windows Subsystem Linux
- 报文解析_101规约报文格式定义解析
- mysql 多字段求和_sql数据库多字段求和
- 实验四——反汇编工具的使用
- Java,Android,计算机原理视频,500G视频资料
- IntelliJ启动项目特别慢(包括JRebel启动),可以说是非常慢的解决办法,智量终端安全就是一个坑爹软件呀,坑,坑,坑
- matlab如何在极坐标绘图,Matlab在极坐标中绘图
- 论文阅读《Triple Trustworthiness Measurement for Knowledge Graph》
- Nelder Mead算法推荐阅读博文
- 云存储中不可不知的五个安全问题及应对措施
- 应届生从头脑风暴到游戏策划案的个人思路(三)(初稿)
热门文章
- Git笔记-Connection reset by 13.229.188.59 port 22 fatal: Could not read from remote repository.
- Java笔记-concurrent集合及线程池
- Java文档阅读笔记-JDBC Driver
- HTTP之Redirect和Location头使用(C++ Qt框架实现)
- oracle用户和mysql用户_oracle数据库解锁和锁定用户命令
- android 代码设置textview draw,Android 自定义气泡TextView
- python爬虫下载模块_python爬虫系列(4.5-使用urllib模块方式下载图片)
- soapui工具_自动化测试需知的4项测试工具
- java某个起点出发的最长路径_【leetcode-动态规划】矩阵中的最长递增路径
- python快速入门步骤_Python快速入门