作者: 锋小刀
微信搜索【Python与Excel之交】关注我的公众号查看更多内容

hi~大家好!

自春节以来,《唐人街探案3》和《你好,李焕英》两部电影的热搜就没有停过,“陈思诚成中国首位百亿票房导演”、“贾玲成中国影史票房最高女导演”、“沈腾成为中国影史票房第一的演员”打破了票房刷新多项纪录!

两部电影上映七天,票房也双双进入30亿,其它电影成为陪衬!

两部电影虽然热评不断,但对《唐人街探案3》的评价却是极底,而《你好,李焕英》却好评不断!《唐人街探案3》在豆瓣的评分为5.7,超底的评分却有超高的票房,这不得不说让观众很失望!反之《你好,李焕英》以极底的成本却获取了超高的评分和票房!

数据可视化

接下来让我们看下观众眼里的两部电影!

本次爬虫较为简单,就不再讲解。本文爬取了豆瓣电影中的短评,因为豆瓣有限制,爬取的是较为火热的短评,数据量较少,所以本文的意见仅供参考,纯属娱乐,切勿上纲上线!

导入需要用到的模块:

import pandas as pd
import pyecharts.options as opts
from pyecharts.charts import *
from pyecharts.globals import ThemeType
import stylecloud
from IPython.display import Image

导入数据,两个文件的格式一致,一共500条数据:

df1 = pd.read_csv('D:\数据小刀\爬虫④\豆瓣_影评\唐人街探案3.csv')
df2 = pd.read_csv('D:\数据小刀\爬虫④\豆瓣_影评\你好,李焕英.csv')


删除重复项:

df1 = df1.drop_duplicates()
df2 = df2.drop_duplicates()

查看数据信息:

df1.info()
df2.info()<class 'pandas.core.frame.DataFrame'>
Int64Index: 498 entries, 0 to 499
Data columns (total 5 columns):#   Column  Non-Null Count  Dtype
---  ------  --------------  ----- 0   用户名     498 non-null    object1   有用      498 non-null    int64 2   评分      498 non-null    object3   日期      498 non-null    object4   评论      498 non-null    object
dtypes: int64(1), object(4)
memory usage: 23.3+ KB<class 'pandas.core.frame.DataFrame'>
Int64Index: 494 entries, 0 to 499
Data columns (total 5 columns):#   Column  Non-Null Count  Dtype
---  ------  --------------  ----- 0   用户名     494 non-null    object1   有用      494 non-null    int64 2   评分      493 non-null    object3   日期      488 non-null    object4   评论      494 non-null    object
dtypes: int64(1), object(4)
memory usage: 23.2+ KB

发现df2有缺失值,这里为了方便,直接删除掉:

df2.dropna(axis=0, how='any', inplace=True)
df2.info()<class 'pandas.core.frame.DataFrame'>
Int64Index: 487 entries, 0 to 499
Data columns (total 5 columns):#   Column  Non-Null Count  Dtype
---  ------  --------------  ----- 0   用户名     487 non-null    object1   有用      487 non-null    int64 2   评分      487 non-null    object3   日期      487 non-null    object4   评论      487 non-null    object
dtypes: int64(1), object(4)
memory usage: 22.8+ KB

《唐人街探案3》

1、最赞短评

点赞最多的TOP10短评:

df1["有用"] = df1["有用"].astype('float') # 转换类型
df1.sort_values('有用',inplace=True,ascending=False)
df6 = df1.reset_index(drop=True)
df6[:10]

从这十条短评中可以看到:点赞最高的是“电影里插入广告”,评论最多的“剧情拼凑、分裂”,接着是吐槽“主演王宝强装疯卖傻”和讨论情节“打护士、36D、聒噪、无聊”。十条短评中评分为‘推荐’(四星)的只有一个。

2、评分占比

各个评分占比中,过一半占比为很差和较差,共占比69.88%:

df3 = df1["评分"].astype("str").value_counts()
df3 = df3.sort_values(ascending=False)
data_region = df3.index.to_list()
data_value = df3.to_list()
pie = (Pie(init_opts=opts.InitOpts(theme=ThemeType.DARK)).add("", list(zip(data_region,data_value))).set_global_opts(legend_opts = opts.LegendOpts(is_show = False),title_opts=opts.TitleOpts(title="唐人街探索3",subtitle="数据来源:豆瓣\n公 众 号 :Python与Excel之交")).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}占比:{d}%",font_size=15)))
pie.render_notebook()

3、评论时间

评论时间在春节到达高峰,然后一路跌:

df7 = df1["日期"].value_counts()
line = (Line(init_opts=opts.InitOpts(theme=ThemeType.DARK)).add_xaxis(df7.index.to_list()).add_yaxis("",df7.to_list()) .set_global_opts(title_opts=opts.TitleOpts(title="唐人街探索3",subtitle="Python与Excel之交"),xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=13)),yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=13)),).set_series_opts(label_opts=opts.LabelOpts(font_size=15,position='top')))
line.render_notebook()

词云中提及最多的是歌曲“heal the world”,电影情节‘36D’;接着是“长泽雅美”这些日本演员;剩下的基本都是“逻辑混乱”、“太难看”、“乱七八糟”等词了。

stylecloud.gen_stylecloud(text=' '.join(df1['评论']),max_words=200,custom_stopwords=['唐探3','唐探','唐人街探案3'],    #  停词collocations=False,font_path='simhei.ttf',icon_name='fas fa-heart',size=653,output_name='./1.jpg')
Image(filename='./1.jpg')

《你好,李焕英》

1、最赞短评

点赞最多的TOP10短评:

十条短评中,点赞最多的是“你以为你已经很爱很爱妈妈了,但妈妈远比你想象中更爱更爱更爱你。”;除了“吐槽沈腾”这条评分只是“还行”,其它的为“力荐”和“推荐”。

2、评分占比

各个评分占比中,“力荐”和“推荐”共占比64.68%,与《唐人街探案3》的评分正好相反:

3、评论时间

评论时间相比《唐人街探案3》,下降的比较平和:

从词云中可以看出,泪点很多,其中“我宝”出现的最多,沈腾主演的“夏洛特烦恼”也被提及很多,接着是对情节的评论:”有笑有泪“、”喜剧“和”子欲养而亲不待“,“我的女儿”。

从两部电影的对比可以看出,哪部电影更好,观众更喜欢那部电影,已经很明显了!

本文图片以及文本仅供学习、交流使用,不做商业用途,如有问题请及时联系我们以作处理。提供的结论仅供参考,还请独立思考。

对不起!《唐人街探案3》和《你好,李焕英》相比,我更推荐《你好,李焕英》!相关推荐

  1. 《唐人街探案3》刷新国产片单周票房纪录 票房超22亿

    2月14日消息,据猫眼电影专业版数据,<唐人街探案 3>首周票房达22.33亿,创造中国电影市场单片首周票房纪录,以及单片单周票房纪录. 据统计,农历正月初一中国电影票房突破人民币17亿元 ...

  2. Python爬取唐人街探案3豆瓣短评并生成词云

    爬取唐人街探案3短评过程 要爬取的URL: https://movie.douban.com/subject/27619748/comments?start=20&limit=20&s ...

  3. 唐人街探案3观后感:大四学生的看法

    一部好的作品我觉得主要取决于他能够引起多大的观众的共鸣 唐人街探案3能够融合很多的当下应景的元素,的确做到了这一点 融合了 速度与激情,007系列的全球拍摄手法和电影宇宙,是很好的商业化尝试 版权保护 ...

  4. 《唐人街探案3》回归春节档,2021大年初一上映!

    10月9日消息,<唐人街探案3>(以下简称<唐探3>)发布新定档预告,正式宣布将于2021大年初一上映,回归春节档. 作为去年春节档备受期待的几部大片,<急先锋>& ...

  5. 对爬取的电影《唐人街探案3》豆瓣短评做文本分析,并利用stylecloud制作词云图

    上一节,我们爬取了豆瓣上电影<唐人街探案3>的评论,并将评论保存成了txt文档,爬虫过程可参考:爬取某瓣上电影<唐人街探案3>的评论 本节,我们将对电影短评做文本分析,并利用s ...

  6. 【人脸检测】centerface唐人街探案50fps

    采用mobilenet_v2做centerface的主干网络,并将模型转换成tensorrt进行推理加速,在512×512的网络输入下能做到50fps.但是因为特征采集器的网络能力不够,模型精度和鲁棒 ...

  7. 明略数据吴明辉探案记,破解行业AI落地迷局

    如果你看过<唐人街探案记>,你绝对不会想到,在现实生活中,一个人工智能与大数据的从业人员,也会亲自参与现实版的"唐人街探案",只为了破解人工智能在行业中落地的迷局:训练 ...

  8. 源代码探案系列之 .NET Core 并发限制中间件 ConcurrencyLimiter

    本文内容 揭秘 QueuePolicy 揭秘 StackPolicy 揭秘 Middleware 本文小结 打算开一个新的专栏--源代码探案系列,目的是通过源代码来探索更广阔的技术世界.因为我越来越意 ...

  9. 谁是卧底服务器维护,问道手游8.9每周探案谁是卧底答案分享_蚕豆网新闻

    问道手游每周都会有一个探案的任务,完成这个每周探案,玩家可以获得大量的奖励,今天是8月9日,今天的每周探案任务是谁是卧底,玩家需要根据给出的线索来猜测答案,并完成这个任务,那么这个任务到底怎么做呢,小 ...

最新文章

  1. 详解分布式系统与消息投递
  2. Android补间动画笔记
  3. c语言机器人编程软件,Coconut编程机器人软件官方版下载_Coconut编程机器人软件 v1.3.4官方版 - Win7旗舰版...
  4. 苦逼的.net程序员, 转行高富帅iOS移动开发
  5. Mac OS X Terminal 101:终端使用初级教程以及Xcode
  6. 基于属性加密的ABE算法的应用场景思考展望
  7. 绝对布局优势_前瞻布局+尖端科技+雄厚资金 恒大解锁造车的“正确姿势”
  8. 设计模式之二装饰者模式
  9. 业务类型创业公司,最好不要招程序员
  10. 05-01 docker 介绍
  11. 资源描述框架RDF-阮一峰
  12. 孙鑫-MFC笔记九--菜单编程
  13. JavaScript数组你都掰扯不明白,简历上你敢写精通JavaScript?
  14. Jquery.ajax报parseerror Invalid JSON错误的原因和解决方法:不能解析
  15. 安卓高德地图 - (附近信息点Poi与标记Marker2)
  16. Android优雅的ui倒计时,Hurry - 一款颜值超高的日历+倒计时 APP - Android 应用 - 生活 - 【最美应用】...
  17. 对垃圾分类工作作出重要指示PPT模板
  18. blt功能_BitBlt使用详解 | 学步园
  19. 为什么PRD写的Low?你看图文、支付、数据、登录、按钮……藏了多少猫腻!(文末送44页淘宝PRD)...
  20. 应用服务打车应用生死未卜 嘀嘀或傍上腾讯

热门文章

  1. 乔布斯的课程:这个世界最酷的企业家
  2. 这6款必备的电脑管理软件,特别最后一款完胜Everything
  3. iOS开发中隐藏导航栏的分割线
  4. 产品岗关键面试题解析(四):做过的项目有哪些,简单的介绍一下
  5. 批处理 变量的 两边的引号如何去掉?
  6. mysql 中文转义字符_Mysql中的转义字符_MySQL
  7. 学生暑假游戏笔记本电脑
  8. 软件使用之(一)最简单的虚拟化方案VMware 8.0.4安装和汉化
  9. 全渠道电商 | 国内知名的药妆要如何抓住风口实现快速增长?
  10. android url格式校验,Android URL Scheme的学习和使用