【CSDN 编者按】《阿凡达》十年后再次重映,果不其然话题量十足,可能这就是神级影片的召唤力吧。在怀旧的氛围中,我们得以重新审阅这部曾经的现象级、划时代的作品。

作者 | 刘早起       责编 | 欧阳姝黎

大家好,我是早起。

上个月电影《阿凡达》重新登陆中国院线,重映第二天,票房即破5090万人民币,全球票房突破27.98亿美元,重登全球影史票房冠军,一场十多年前的电影再次引发观影热潮。

阿凡达我一直没有看过,当时的我还在读高中,只知道有一部很牛的电影上映了,十年间阿凡达也频频被好友安利,趁着清明假期,我也去电影院去看了一下,电影途中总疑惑十年前的电影技术就有这么强了么,回来后忍不住用Python爬了点评论分析一波。

数据爬取

本文选择的数据为豆瓣网,关于 Python 爬取豆瓣电影的技术分析网上有非常多的案例,甚至很多读者朋友都是从「Python爬取豆瓣TOP250 电影」入坑爬虫的,下面就简单介绍,不做详细分析。

首先打开阿凡达对应的影评页面,可以看到该页的全部评论都在 class = review-list 的 div 标签中,并且每条评论都很整齐的在 20 个子 div 标签中

所以可以直接用 requests 构造请求+bs4 解析数据 +pandas 存储即可,相关代码如下

关于反爬,豆瓣好像一直没有什么特别复杂的反爬措施,控制频率并使用随机 ua+ 代理 ip 即可拿下大部分数据,可以看到一共取回了近 4000 条评论数据包含 「时间、评分、标题、内容」 四个字段

评星分析

先来看十年间阿凡达整体的评星分布,使用 matplotlib 对数据进行可视化如下

可以看到,五星好评的人数超过了一半,给出五星+四星的用户达到了 86.5%,而仅有 2.5% 的用户给到了差评。

那么除了豆瓣,阿凡达在其他平台表现怎么样?本文选取其他两家国内影视巨头猫眼、淘票票以及国外影评网站烂番茄、IMDB 的评分进行对比如下

不难发现,阿凡达在国内的评分均高于国外平台,其中在淘票票给出好评的人数高达 97%(此处好评并非为电影主页显示的评分,而是在评价汇总中,根据给出好评的评价数量计算而来),而在 IMDB 网上仅得到 78% 的好评。

上面的分析是针对现有的全部数据得到,因为我们爬取的数据包含时间信息,下面对十年前后的打分进行对比

可以看到,最近一年来的好评比 2009—2019 十年间的比例要多,差评比例要少,果然十年之后,阿凡达依旧很能打,接下来让我们将目光放在具体的评论内容上。

内容分析

本节对具体的评论内容进行分析,主要是词频分析与词云制作,在 Python 中可以使用 jieba 进行分词,并使用 collections 对返回的分词结果进行统计,相关代码如下

对标题内容进行词频分析得到标题中出现频率最高的十个词如下

可以看到出现最多的词当然是主角阿凡达(TOP1)和 Avatar (TOP2),以及对应的 潘多拉星球(TOP3) ,其次有 3D(TOP4)、观影(TOP9)、IMAX (TOP10) 等观影体验上的单词频繁出现,还有 人类(TOP5)、世界(TOP6)、故事(TOP8) 等与剧情相关的吐槽,值得注意的是导演 卡梅隆(TOP7) 也被用户频频提起。

最后再将具体评论内容中根据好评(评分 4、5)和差评(评分 1、2)进行拆分,并制作词云图如下

可以看到,好评除了在说剧情外,大多与观影体验有关,比如特效、震撼等,而差评则聚焦于具体的主线故事,大多数差评用户在吐槽剧情、逻辑、文化等比直观的观影体验更深刻的思考。

本文的分享就到这里,不知道大家有没有看过阿凡达,是在十年前还是今年看的,是用电脑还是在影院看的,可以在留言区和我交流。

2020-2021中国开发者调查报告重磅来袭,直接扫码或微信搜索「CSDN」公众号,后台回复关键词「开发者」,快速获取完整的报告内容!

阿凡达时隔十年重映,王者归来还是炒冷饭?Python爬取上千条评论并分析相关推荐

  1. python爬取流浪地球_python爬取《流浪地球》获十几万评论点赞,超给力!

    原标题:python爬取<流浪地球>获十几万评论点赞,超给力! 我自己到现在其实还没看这部电影,毕竟这电影这么火,电影院现在都很难买到好的位置.所以我打算不如先看看大家是怎么评价这部电影的 ...

  2. Python爬取豆瓣热映电影

    Python爬取豆瓣热映电影 # encoding: utf-8import requests from lxml import etree# 1. 将目标网站上的页面抓取下来 headers = { ...

  3. Python 爬取 6271 家死亡公司数据,一眼看尽十年创业公司消亡史!

    作者 | 朱小五 责编 | 刘静 前段时间老罗和王校长都成为自己的创业公司成了失信人,小五打算上IT桔子看看他们的公司. 意外发现IT桔子出了个死亡公司库(https://www.itjuzi.com ...

  4. 爬取腾讯视频评论——以《三生三世,十里桃花》为例

    #@kaiyiching import requests import re import json import io import sys import datetime import time, ...

  5. Python爬取6271家死亡公司数据,一眼看尽十年创业公司消亡史!

    作者:朱小五 来源:凹凸玩数据 在开始正文前,首先介绍下首届"森麟杯"数据分析大赛,详情可以戳:参与首届"森麟杯"数据分析竞赛,分享千元红包 前段时间老罗和王校 ...

  6. python 爬取企业注册信息_读书笔记(十)——python简单爬取企查查网企业信息,并以excel格式存储...

    今天这个小爬虫是应朋友,帮忙写的一个简单的爬虫,目的是爬取企查查这个网站的企业信息. 编程最终要的就是搭建编程环境,这里我们的编程环境是: python3.6 BeautifulSoup模块 lxml ...

  7. Python爬取“爆款剧”——《三十而已》热评,并做可视化

    前言 最近一部"爆款剧"--<三十而已>获得了口碑收视双丰收,剧中三个女主角的故事线频频登上微博热搜,为了了解吃瓜群众们对这部剧的看法,爬了爬腾讯视频关于这部剧的评论, ...

  8. Python爬取10529条《三十而已》热评,看看大家都说了些啥!

    继<隐秘的角落>后,又一部"爆款剧"--<三十而已>获得了口碑收视双丰收,王漫妮.顾佳.钟晓芹三个女主角的故事线频频登上微博热搜.<三十而已>于 ...

  9. Python爬取10000条“爆款剧”——《三十而已》热评,并做可视化

    前言 继<隐秘的角落>后,又一部"爆款剧"--<三十而已>获得了口碑收视双丰收,王漫妮.顾佳.钟晓芹三个女主角的故事线频频登上微博热搜.该剧于2020年7月 ...

最新文章

  1. DateGridView列的输出顺序反了
  2. 苹果 2020 iPhone 展望:相机大升级,5G 首次接入
  3. CSDN下载资源+全领域电子书+程序员提升课,领取这些不香吗?
  4. 关于安徽赛区推广校赛的实施办法
  5. 2014_guangzhou_onsite
  6. 软件开发者最重要的四大技能
  7. se是什么职位_女皇大学PSE&SE 独家解析!
  8. e会学中C语言课程考试答案,管理信息系统期末考试A试卷答案卷
  9. C语言编程QQ管理系统,顺序表- QQ群名片信息管理系统设计(C语言实现)
  10. docker搭建MySQL集群
  11. 六款顶级Wifi无线网络搜索工具盘点
  12. Win10系统重装教程(纯净版)
  13. PS 金属质感文字制作
  14. 视频编解码学习之四:视频处理及编码标准
  15. 用友U8安装客户端时提示已经安装过智能客户端
  16. 微软2008年7月「最有价值专家」(MVP)当选名单
  17. CentOS后门入侵检测工具
  18. C++11版本后的一写新语法及使用方法for、vector、map
  19. 如何将Word中数据转换为excel表格
  20. android应用备份,Android备份App及数据

热门文章

  1. 如何将asp.net MVC2项目升级为MVC3项目(微软官方自动升级工具:ASP.NET MVC 3 Application Upgrader )...
  2. GTK+图形化应用程序开发学习笔记(一)—概述
  3. 史上最全的并发编程学习目录
  4. HDU - 6191 Query on A Tree
  5. [转载] RGB与16进制色互转
  6. 如何向github上传文件
  7. A Dicey Problem 骰子难题(Uva 810)
  8. 二、UI线程和界面卡死
  9. 试试既然没人玩,没得试验了
  10. ASP.NET页生命周期介绍:阶段,事件及其他