对不起!《唐人街探案3》和《你好,李焕英》相比,我更推荐《你好,李焕英》!
作者: 锋小刀
微信搜索【Python与Excel之交】关注我的公众号查看更多内容
hi~大家好!
自春节以来,《唐人街探案3》和《你好,李焕英》两部电影的热搜就没有停过,“陈思诚成中国首位百亿票房导演”、“贾玲成中国影史票房最高女导演”、“沈腾成为中国影史票房第一的演员”打破了票房刷新多项纪录!
两部电影上映七天,票房也双双进入30亿,其它电影成为陪衬!
两部电影虽然热评不断,但对《唐人街探案3》的评价却是极底,而《你好,李焕英》却好评不断!《唐人街探案3》在豆瓣的评分为5.7,超底的评分却有超高的票房,这不得不说让观众很失望!反之《你好,李焕英》以极底的成本却获取了超高的评分和票房!
数据可视化
接下来让我们看下观众眼里的两部电影!
本次爬虫较为简单,就不再讲解。本文爬取了豆瓣电影中的短评,因为豆瓣有限制,爬取的是较为火热的短评,数据量较少,所以本文的意见仅供参考,纯属娱乐,切勿上纲上线!
导入需要用到的模块:
import pandas as pd
import pyecharts.options as opts
from pyecharts.charts import *
from pyecharts.globals import ThemeType
import stylecloud
from IPython.display import Image
导入数据,两个文件的格式一致,一共500条数据:
df1 = pd.read_csv('D:\数据小刀\爬虫④\豆瓣_影评\唐人街探案3.csv')
df2 = pd.read_csv('D:\数据小刀\爬虫④\豆瓣_影评\你好,李焕英.csv')
删除重复项:
df1 = df1.drop_duplicates()
df2 = df2.drop_duplicates()
查看数据信息:
df1.info()
df2.info()<class 'pandas.core.frame.DataFrame'>
Int64Index: 498 entries, 0 to 499
Data columns (total 5 columns):# Column Non-Null Count Dtype
--- ------ -------------- ----- 0 用户名 498 non-null object1 有用 498 non-null int64 2 评分 498 non-null object3 日期 498 non-null object4 评论 498 non-null object
dtypes: int64(1), object(4)
memory usage: 23.3+ KB<class 'pandas.core.frame.DataFrame'>
Int64Index: 494 entries, 0 to 499
Data columns (total 5 columns):# Column Non-Null Count Dtype
--- ------ -------------- ----- 0 用户名 494 non-null object1 有用 494 non-null int64 2 评分 493 non-null object3 日期 488 non-null object4 评论 494 non-null object
dtypes: int64(1), object(4)
memory usage: 23.2+ KB
发现df2有缺失值,这里为了方便,直接删除掉:
df2.dropna(axis=0, how='any', inplace=True)
df2.info()<class 'pandas.core.frame.DataFrame'>
Int64Index: 487 entries, 0 to 499
Data columns (total 5 columns):# Column Non-Null Count Dtype
--- ------ -------------- ----- 0 用户名 487 non-null object1 有用 487 non-null int64 2 评分 487 non-null object3 日期 487 non-null object4 评论 487 non-null object
dtypes: int64(1), object(4)
memory usage: 22.8+ KB
《唐人街探案3》
1、最赞短评
点赞最多的TOP10短评:
df1["有用"] = df1["有用"].astype('float') # 转换类型
df1.sort_values('有用',inplace=True,ascending=False)
df6 = df1.reset_index(drop=True)
df6[:10]
从这十条短评中可以看到:点赞最高的是“电影里插入广告”,评论最多的“剧情拼凑、分裂”,接着是吐槽“主演王宝强装疯卖傻”和讨论情节“打护士、36D、聒噪、无聊”。十条短评中评分为‘推荐’(四星)的只有一个。
2、评分占比
各个评分占比中,过一半占比为很差和较差,共占比69.88%:
df3 = df1["评分"].astype("str").value_counts()
df3 = df3.sort_values(ascending=False)
data_region = df3.index.to_list()
data_value = df3.to_list()
pie = (Pie(init_opts=opts.InitOpts(theme=ThemeType.DARK)).add("", list(zip(data_region,data_value))).set_global_opts(legend_opts = opts.LegendOpts(is_show = False),title_opts=opts.TitleOpts(title="唐人街探索3",subtitle="数据来源:豆瓣\n公 众 号 :Python与Excel之交")).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}占比:{d}%",font_size=15)))
pie.render_notebook()
3、评论时间
评论时间在春节到达高峰,然后一路跌:
df7 = df1["日期"].value_counts()
line = (Line(init_opts=opts.InitOpts(theme=ThemeType.DARK)).add_xaxis(df7.index.to_list()).add_yaxis("",df7.to_list()) .set_global_opts(title_opts=opts.TitleOpts(title="唐人街探索3",subtitle="Python与Excel之交"),xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=13)),yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=13)),).set_series_opts(label_opts=opts.LabelOpts(font_size=15,position='top')))
line.render_notebook()
词云中提及最多的是歌曲“heal the world”,电影情节‘36D’;接着是“长泽雅美”这些日本演员;剩下的基本都是“逻辑混乱”、“太难看”、“乱七八糟”等词了。
stylecloud.gen_stylecloud(text=' '.join(df1['评论']),max_words=200,custom_stopwords=['唐探3','唐探','唐人街探案3'], # 停词collocations=False,font_path='simhei.ttf',icon_name='fas fa-heart',size=653,output_name='./1.jpg')
Image(filename='./1.jpg')
《你好,李焕英》
1、最赞短评
点赞最多的TOP10短评:
十条短评中,点赞最多的是“你以为你已经很爱很爱妈妈了,但妈妈远比你想象中更爱更爱更爱你。
”;除了“吐槽沈腾”这条评分只是“还行”,其它的为“力荐”和“推荐”。
2、评分占比
各个评分占比中,“力荐”和“推荐”共占比64.68%,与《唐人街探案3》的评分正好相反:
3、评论时间
评论时间相比《唐人街探案3》,下降的比较平和:
从词云中可以看出,泪点很多,其中“我宝”出现的最多,沈腾主演的“夏洛特烦恼”也被提及很多,接着是对情节的评论:”有笑有泪“、”喜剧“和”子欲养而亲不待“,“我的女儿”。
从两部电影的对比可以看出,哪部电影更好,观众更喜欢那部电影,已经很明显了!
本文图片以及文本仅供学习、交流使用,不做商业用途,如有问题请及时联系我们以作处理。提供的结论仅供参考,还请独立思考。
对不起!《唐人街探案3》和《你好,李焕英》相比,我更推荐《你好,李焕英》!相关推荐
- 《唐人街探案3》刷新国产片单周票房纪录 票房超22亿
2月14日消息,据猫眼电影专业版数据,<唐人街探案 3>首周票房达22.33亿,创造中国电影市场单片首周票房纪录,以及单片单周票房纪录. 据统计,农历正月初一中国电影票房突破人民币17亿元 ...
- Python爬取唐人街探案3豆瓣短评并生成词云
爬取唐人街探案3短评过程 要爬取的URL: https://movie.douban.com/subject/27619748/comments?start=20&limit=20&s ...
- 唐人街探案3观后感:大四学生的看法
一部好的作品我觉得主要取决于他能够引起多大的观众的共鸣 唐人街探案3能够融合很多的当下应景的元素,的确做到了这一点 融合了 速度与激情,007系列的全球拍摄手法和电影宇宙,是很好的商业化尝试 版权保护 ...
- 《唐人街探案3》回归春节档,2021大年初一上映!
10月9日消息,<唐人街探案3>(以下简称<唐探3>)发布新定档预告,正式宣布将于2021大年初一上映,回归春节档. 作为去年春节档备受期待的几部大片,<急先锋>& ...
- 对爬取的电影《唐人街探案3》豆瓣短评做文本分析,并利用stylecloud制作词云图
上一节,我们爬取了豆瓣上电影<唐人街探案3>的评论,并将评论保存成了txt文档,爬虫过程可参考:爬取某瓣上电影<唐人街探案3>的评论 本节,我们将对电影短评做文本分析,并利用s ...
- 【人脸检测】centerface唐人街探案50fps
采用mobilenet_v2做centerface的主干网络,并将模型转换成tensorrt进行推理加速,在512×512的网络输入下能做到50fps.但是因为特征采集器的网络能力不够,模型精度和鲁棒 ...
- 明略数据吴明辉探案记,破解行业AI落地迷局
如果你看过<唐人街探案记>,你绝对不会想到,在现实生活中,一个人工智能与大数据的从业人员,也会亲自参与现实版的"唐人街探案",只为了破解人工智能在行业中落地的迷局:训练 ...
- 源代码探案系列之 .NET Core 并发限制中间件 ConcurrencyLimiter
本文内容 揭秘 QueuePolicy 揭秘 StackPolicy 揭秘 Middleware 本文小结 打算开一个新的专栏--源代码探案系列,目的是通过源代码来探索更广阔的技术世界.因为我越来越意 ...
- 谁是卧底服务器维护,问道手游8.9每周探案谁是卧底答案分享_蚕豆网新闻
问道手游每周都会有一个探案的任务,完成这个每周探案,玩家可以获得大量的奖励,今天是8月9日,今天的每周探案任务是谁是卧底,玩家需要根据给出的线索来猜测答案,并完成这个任务,那么这个任务到底怎么做呢,小 ...
最新文章
- 详解分布式系统与消息投递
- Android补间动画笔记
- c语言机器人编程软件,Coconut编程机器人软件官方版下载_Coconut编程机器人软件 v1.3.4官方版 - Win7旗舰版...
- 苦逼的.net程序员, 转行高富帅iOS移动开发
- Mac OS X Terminal 101:终端使用初级教程以及Xcode
- 基于属性加密的ABE算法的应用场景思考展望
- 绝对布局优势_前瞻布局+尖端科技+雄厚资金 恒大解锁造车的“正确姿势”
- 设计模式之二装饰者模式
- 业务类型创业公司,最好不要招程序员
- 05-01 docker 介绍
- 资源描述框架RDF-阮一峰
- 孙鑫-MFC笔记九--菜单编程
- JavaScript数组你都掰扯不明白,简历上你敢写精通JavaScript?
- Jquery.ajax报parseerror Invalid JSON错误的原因和解决方法:不能解析
- 安卓高德地图 - (附近信息点Poi与标记Marker2)
- Android优雅的ui倒计时,Hurry - 一款颜值超高的日历+倒计时 APP - Android 应用 - 生活 - 【最美应用】...
- 对垃圾分类工作作出重要指示PPT模板
- blt功能_BitBlt使用详解 | 学步园
- 为什么PRD写的Low?你看图文、支付、数据、登录、按钮……藏了多少猫腻!(文末送44页淘宝PRD)...
- 应用服务打车应用生死未卜 嘀嘀或傍上腾讯
热门文章
- 乔布斯的课程:这个世界最酷的企业家
- 这6款必备的电脑管理软件,特别最后一款完胜Everything
- iOS开发中隐藏导航栏的分割线
- 产品岗关键面试题解析(四):做过的项目有哪些,简单的介绍一下
- 批处理 变量的 两边的引号如何去掉?
- mysql 中文转义字符_Mysql中的转义字符_MySQL
- 学生暑假游戏笔记本电脑
- 软件使用之(一)最简单的虚拟化方案VMware 8.0.4安装和汉化
- 全渠道电商 | 国内知名的药妆要如何抓住风口实现快速增长?
- android url格式校验,Android URL Scheme的学习和使用