根据之前的文章,爬取了猫眼电影从流浪地球上映日2月5日起到2月13日8时的84886条评论和评分数据,下面通过数据分析及其可视化来展现数据背后的故事。

爬取文章链接:https://blog.csdn.net/lyc44813418/article/details/87522369

数据清洗

data = data.drop(columns='_id')
data = data.drop_duplicates(subset='userId')
data['time'] = pd.to_datetime(data['time']/1000, unit='s')
#读入的时间数据是字符串格式,转换成datetime格式,单位化为秒
data = data[data['time']>=pd.to_datetime('2019-02-05 00:00:00')]
data.set_index(data['time'], inplace=True)
print(data.head())
data.info()

删除无关列,将数据根据id去重,读入时间columns为datetime格式,单位为秒

提取时间在2月5日之后的数据,并重新设置以时间为新索引,去除原索引

其中性别0、1、2分别指未知、男、女。

低分高分占比,以及总体评价

猫眼评分分为0-10档, 总体评价来看,10分的观众还是占了大多数,说明这部电影总体来说是受大家欢迎的。

低于4分设为低分,大于等于8分设为高分,10分为满分

电影的总体平均分为9.21分

低分占百分比为:3.419%
高分占百分比为:90.625%
满分占百分比为:70.530%

给电影打出高、低分的评价理由

用到了jieba解词来做词云分析,设置stopwords.txt包含停用词

def plot_word_cloud1(data, swords):text = ''.join(data['content'])words = list(jieba.cut(text))ex_sw_words = []for word in words:if len(word)>1 and (word not in swords):ex_sw_words.append(word)c = Counter()c = Counter(ex_sw_words)wc_data = pd.DataFrame({'word':list(c.keys()), 'counts':list(c.values())}).sort_values(by='counts', ascending=False).head(100)wordcloud = WordCloud(width=1300, height=620)wordcloud.add("", wc_data['word'], wc_data['counts'], word_size_range=[20, 100])page.add(wordcloud)

高分评价词云:

低分评价词云:

高分评价点赞数目最多的评价如下:

为什么没有7星,8星?完美已经不足以诠释这部电影的出色!感动,全程捏着拳头看完。叙事不拖沓,没有美式灾难片的个人英雄主义;宏大,还是宏大,全片充满各种想象;特效,丝毫不输好莱坞进口大片,甚至有些地方有过之而无不及。强烈建议,制作团队赶紧买了三体的版权吧,三年、五年甚至十年,我都等……

在学校看了《流浪地球》的点映!除了电影情节、在现场看到了大刘老师!我更难忘的是郭帆导演在现场讲述的拍摄历程。真的真的太难了、也许有的人会一听国产科幻失去兴趣(真的,我身边哪怕看了很多书的同学、也有的会这样)这也不能怪任何人,毕竟大家看电影也都是想看到好看的、但是对于对科幻有兴趣的朋友,真的来看一看吧。我相信同为科幻迷并为科幻奋斗了这么多年的郭帆老师、绝对值得一张电影票

太让人惊喜了,紧凑的节奏、多次的剧情反转、以及我们自己的价值观(如果是美国电影、大概最后会采用让一部分精英去往新家园,而我们中国的农耕文明注定了我们对土地对地球的情感无法割舍,在流浪地球背后正是这层含义吧

超过预期。《流浪地球》的确开启了中国科幻片和灾难片的新纪元,无论是在哪一坐标中进行比对。虽然我们并非是一直都没有所谓的科幻电影,但其中的大多都不是工业化、硬科幻的路子。
《流浪地球》则在概念和执行上都达到了这一标准,特效技术、工整剧作、演员所合力营造出的氛围都很对。它代表的,是华语科幻电影的一个“关键转折点”。

从原著角度而言,这是一个带着孤独感的故事。电影采用了小说中的整体设定,但故事与人物有了新的创造,且塑造了很好的主题,即对乡土情结的回归和牺牲精神。

分析发现,点赞数目最多的评论与评论回复最多的评论基本一致,这里不再给出。

低分评价点赞数目最多的评价如下:

我知道你是专门进来看差评的,这个电影很好看,去看,别听他们乱说

也许进入地下没有了阳光,人们的内心就趋向黑暗!小太妹一样的妹妹人设,不知所谓的混血?没有缘由的痞帅(真心不帅),地震只顾自己逃亡不让救人的姥爷,吐满自己的头盔又抢别人头盔的救援队?为了亲情强行不进入休眠的爸爸,为了不再死人打坏火石的女队员……不学无术的少年比世界所有科学家都厉害,看来地球就剩下牛顿的弟弟牛逼啦!整部片子充满了一种戾气!为啥中国拯救世界就非得用这样的人物支撑人设?为了后面的反转?虽然特效还行,真心不好看!希望不要影响大家的观影心情!

太多人给这部片高分了,我必须给低分把这部电影的评分拉低,因为他不值得9点多分,顶多值6.5分样子,在国产片里面算不错的,剧情烂,东拉西扯的,地球你造发动机推动脱离太阳引力我也忍了,点燃木星就太扯了,点燃木星瞬间推动地球逃脱木星引力,那么大的冲击力地球生物不死绝鬼都不信!还有作为灾难科幻片,震撼人心的灾难场景基本没有,地球停海啸爆发,我一直在期待灾难爆发时刻人类逃亡的场景,但是从头到尾都没有!走到哪里都挂着国旗,又是打爱国情怀,很符合吴京蹭爱国热度的习惯,反正不会错,但是我就觉得很作!恶心!

点赞最多的差评亮了,其实这是一条好评啊!

观众的性别比例

通过饼图绘制能够清晰地看出除去性别未知的用户,男性所占的比例约为女性的1.5倍,可能和流浪地球本身是一部科幻片有较大联系。

观众的猫眼等级

给出低分或者恶意评分的观众是否可能是水军呢,通过猫眼等级我们来研究一下,首先看到的是总体观众的等级分布:

由图可见总体的观众中,大部分观众都是2级及以上的老用户,不存在大量突然涌入的水军,说明猫眼的总体评分还是较为靠谱的。

观察给电影打低分的观众,发现也大多都是猫眼的老用户,且大致比例与总体观众相近,可见恶意刷低评分水军的现象并不明显。整体电影的评分是较为客观的。

演职人员的提及次数

应用了 漏斗图的绘制,显然能够看出吴京的提及次数遥遥领先,科幻小说作家刘慈欣也是热度很高

总体来说不论是评分还是口碑,《流浪地球》都是值得一看的好电影!

ps:

数据可视化相关,pyecharts库的学习应用可以戳

https://blog.csdn.net/lyc44813418/article/details/86665076

具体的代码可以查看我的github: github.com/librauee

数据分析实战(二):流浪地球8W多条评论分析相关推荐

  1. 数据分析实战二:超市数据处理

    数据分析实战二:超市数据处理 大家好!我是未来村村长!就是那个"请你跟我这样做,我就跟你那样做!"的村长

  2. 网络爬虫实战(三):爬取豆瓣、猫眼流浪地球数万条评论信息

    春节如约而至,随着消费水平的提高,越来越多的人们走进电影院,观看春节档电影.去看啥电影,先看看网友们的评分评论也是非常有必要的,于是前几天遍想到用爬虫去爬取一些有用的信息. 爬取豆瓣电影评论 可以看得 ...

  3. Python 网络爬虫实战:猫眼电影 38950 条评论数据告诉你《无名之辈》是否值得一看?

    11月16日,一部无流量明星.无大制作.无大IP的"三无"国产电影<无名之辈>上映后,竟然连续打败了超级英雄"毒液".会魔法的"神奇动物& ...

  4. 知乎爬虫与数据分析(二)pandas+pyecharts数据可视化分析篇(上)

    注:代码完整版可移步Github--https://github.com/florakl/zhihu_spider. 知乎爬虫与数据分析(一)数据爬取篇 知乎爬虫与数据分析(三)pandas+pyec ...

  5. 数据分析实战二:爬取淘宝商品详情页进行分析

    对淘宝商品信息进行数据分析 项目流程: 1.数据获取 2.数据清洗 3.数据分析与可视化 数据获取(爬虫) 淘宝数据是通过动态加载的方式显示的,所以采用selenium模拟浏览器操作爬取商品页详情信息 ...

  6. Python数据分析实战,,美国总统大选数据可视化分析[基于pandas]

    目录 前言 一.任务详情 二.数据集来源 三.实现过程 四.运行代码 前言 在学习Python数据分析的过程中,是离不开实战的. 今天跟大家带来数据分析可视化经典项目,美国总统大选数据可视化分析,希望 ...

  7. 【数据分析实战经验】淘宝用户行为分析①-AARRR、RMF模型(数据量:百万级,工具mysql)

    电商平台的用户行为分析,能一定程度的推动运营.产品等迭代,提供决策支持. 数据集来源: 阿里云池 样本量: 3835331 方法工具: 本文用2017年11月至12月的淘宝用户行为,AARRR模型及R ...

  8. 用Excel做一次数据分析(二)——一次简单的分析

    接上一篇:用Excel做一次数据分析(一)--爬取前程无忧(51job)的招聘信息 得到了数据(截止2020-8-12)后,接下来可以开始数据清洗和分析的工作了: 总体步骤: 数据获取--这里用pyt ...

  9. 数据分析实战<一>脑电(EEG)分析

    这两天需要对预实验的脑电进行一个分类,在这里记录一下流程 脑电分析系列文章 mne官网 mne教程 随机森林分类 Python 多因素方差分析 文章目录 1. 脑电数据的处理 1.1 基本概念 1.2 ...

  10. 看书标记【R语言 商务数据分析实战4】

    看书标记--关于R语言 chapter 4 4.2 任务实现 [R语言 商务数据分析实战4] chapter 4 财政收入预测分析 从海量数据中发现隐藏的运行模式,并提供具有决策意义的信息.变量过多会 ...

最新文章

  1. 人脑认知科学对人工智能的启示
  2. 结合不同的模型进行集成学习
  3. Linux系统中FTP的配置(图文详解-全)
  4. Java黑皮书课后题第5章:**5.19(打印金字塔形的数字)编写一个嵌套的for循环,打印下面的输出
  5. 删除字符串中的所有相邻重复项
  6. matlab2012b帮助中字体大小调整
  7. Kafka设计解析(六)- Kafka高性能架构之道
  8. mac 不能连接wi-fi_如何阻止Mac自动连接到Wi-Fi网络
  9. 如何去各型MCU的官网上下载正确的数据手册
  10. TeamViewer中一些按钮的功能
  11. VS2017编译SNMP库
  12. jQuery实现form表单reset按钮重置清空表单功能
  13. 【ICPC-303】hau 1874 畅通工程续
  14. 你想要的宏基因组-微生物组知识全在这(2020.7)
  15. 《西部世界》与《头号玩家》:哪个才是人类与人工智能相处的正确方式?
  16. css锚点定位不准确问题
  17. vue3实现鼠标左键拖拽画矩形框框选功能
  18. 契约锁android代码,契约锁怎么签合同
  19. 【POJ3612】【USACO 2007 Nov Gold】 1.Telephone Wire 动规
  20. 工业机器人、工艺夹具、送料机械手、电火花镗磨机床、半自动钻床、机械手、套筒、铣床升降台、精密播种机、卧式组合钻床、六自由度微动机器人、花生收获机、山茶采摘平台、车载起重机、锤式破碎机、螺旋输送机……

热门文章

  1. 对Si446x驱动库的一些修改
  2. workerman执行busy,http请求不返回导致阻塞
  3. B2B网关支付方案介绍
  4. java mp3合并_java合并MP3文件
  5. Nova 实现的 Fit Instance NUMA to Host NUMA 算法
  6. android 源代码 毛笔,Android-毛笔的探索与开发
  7. 家里两台电脑怎么共享文件_电脑系统教程:两台电脑如何共享文件
  8. 团队项目成员与题目(本地地铁查询app)
  9. 游戏角色设计具体步骤
  10. 用计算机还原魔方,谷歌超级计算机还原魔方最多只需20步(图)