《海王》刚刚在国内上映就好评如潮,可惜最近非常忙,而且异地出差,根本没时间观影,于是忙中抽空用python做了一篇影评分析,看一下最先的一批影迷们是如何看待这部电影的。(Python菜鸟群:712729208,欢迎加入)

1数据的获取

常用的影评数据获取网站一般是豆瓣和猫眼,虽然二者都有各自的反爬措施,较豆瓣来说,猫眼影评中能很容易获取评论者的性别、地理位置等信息,所以决定使用猫眼影评作为本次分析所用数据。

通过API获取到的影评数据为json格式,这对于数据的提取又提供了便利,这里我们提取每条影评的ID、评论时 间、评分、所在城市、评论内容、用户性别等信息,获取数据的部分核心代码如下:

base_url为影评的API

movie_id为该电影在猫眼中的id

offset为页面偏移量

crawl_one_page_data函数获取并返回每页的json数据;parse_one_page_data函数解析每页的json数据,从中提取需要的内容。

经过一段时间的爬取共获得近1W条数据7个维度,进行定性分析和简单的定量分析已经足够了,数据样式如下图。

2影评分析

用Python做可视化分析的工具很多,目前比较轻量级好用的库是pyecharts,我们快速看一下近万条影评的数据可视化结果:

1)总体评分

《海王》在猫眼中的总体评分为9.5分,这个分数无疑是非常高的。从评分分布来看,大多数评分都给了满分,占 总数的67.9%,其次是4.5分,占总数的16.4%,给到3分及以下的人非常少,还不足总人数的5%,要知道众口难调,这个差评比例在电影中可以算非常低的了。

2)性别差异

通常来说这种DC的“大片”比较符合男性口味,从评论者性别分布数据来看,虽然有接近一半的人不愿透露性别,但从已知数据判断,观影男女比例约为4:7,女性观众的比例还是蛮高的。


3)评分性别差异

在评分的性别差异方面,女性观众的平均评分居然要略高于男性观众,这种情况在此类电影中实属少见,由此看来《海王》是一部非常适合男女共同观看的影片,估计是因为画面太美了!

4).地域分布

先来看下观影者的地域分布,最先到影院观影的观众主要集中在东部沿海地区,中部地区次之,西部及北部沿边地区观影人数明显减少,这种情况主要是地区经济发展及消费观念差异造成的,与影片本身关系不大。

从评分的地域分布情况来看,可以说全国一片红,给差评的观众主要集中在山东、江苏一带,给中评的观众相对平均和分散,没有明显规律,看来全国人民对《海王》这部电影的认可态度还是比较一致的。

5).评分-性别-城市三者之间的关系

这里选取了评论数量最高的几个地区进行统计分析,从图中可以看出, 无论哪个地区,何种性别,基本都给予了比较高的评分,这个结果与上面的分析情况也是非常吻合的。

6)评论内容

首先整合评论内容,然后利用wordcloud库绘制词云图,从词云分析情况来看,满屏的“好看”、“特效”、“精彩”等赞美的词语,与以往的DC/漫威电影不同的是,“剧情”、“故事”等字眼也特别醒目。

随后浏览了部分评论内容,正面的支持性评论不用多说,不少人对影片的其他内容,例如营造的海洋环境、影片的内涵等也给出了评价,可以看出这是一部内容比较丰富的超级英雄题材电影。

综上所述,《海王》这部电影确实有观看价值,如果有时间还是有必要去影院亲身体会一下的。看过的同学,欢迎留言讨论!

微信搜索:PythonWork,或者扫码关注,即可领取python学习教程,一个充满福利的公众号!

也可入群学习,Python菜鸟群:712729208

电影海王真的好看吗|我爬取了9000条影评,得出的结论是相关推荐

  1. 我悄咪咪告诉你:罩杯越小的妹子倾向买越贵的内衣~~Python爬取京东9000条内衣销售数据之数据关联度分析

    将爬取的9000条内衣销售数据整理清洗后,基于Apriori关联算法,针对"罩杯和消费价格倾向这两个元素有无关系"这个问题进行分析 上一篇用数据库清洗数据,点这里 再上一篇爬取数据 ...

  2. 基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据

    基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据 参考资料: 黑马程序员爬虫教程 静觅爬虫教程 mac下anaconda安装selenium+PhantomJS scrapy下载中间件结 ...

  3. python参考手册 豆瓣_Python自定义豆瓣电影种类,排行,点评的爬取与存储(进阶上)...

    Python 2.7 IDE Pycharm 5.0.3 想了想,还是稍微人性化一点,做个成品GUI出来 起因 没办法,在知乎预告了要做个GUI出来,吹的牛逼总得自己填坑,下次一定要慎重啊,话说也复习 ...

  4. Python自定义豆瓣电影种类,排行,点评的爬取与存储(高阶上)

    Python 2.7 IDE Pycharm 5.0.3 Firefox 47.0.1 豆瓣电影系列: - 基础抓取(限于"豆瓣高分"选项电影及评论)请看↓ Python自定义豆瓣 ...

  5. 爬取了 36141 条评论数据,解读 9.5 分的《海王》是否值得一看

    这是第一个python项目,之前看到了<爬取了 48048 条评论数据,解读 9.3 分的<毒液>是否值得一看?>这篇文章,一直想自己动手做一个,刚刚好前两天看了<海王& ...

  6. Python自定义豆瓣电影种类,排行,点评的爬取与存储(进阶上)

    Python 2.7  IDE Pycharm 5.0.3  Firefox 47.0.1 具体Selenium及PhantomJS请看Python+Selenium+PIL+Tesseract真正自 ...

  7. Python自定义豆瓣电影种类,排行,点评的爬取与存储(进阶下)

    Python 2.7 IDE Pycharm 5.0.3 Firefox 47.0.1 如有兴趣可以从如下几个开始看起,其中有我遇到的很多问题: 基础抓取(限于"豆瓣高分"选项电影 ...

  8. 第一次写爬虫程序爬取豆瓣5W条电影数据

    第一次写爬虫程序爬取豆瓣5W条电影数据 最近工作比较不是很忙,想到之前使用httpclient和jsoup爬取过一次豆瓣电影TOP250,但总觉得数据量太小,不过瘾.于是趁着最近不是很忙的机会,重新写 ...

  9. 爬取了 48048 条评论数据,解读 9.3 分的《毒液》是否值得一看?

    微信改版,加星标不迷路! 9.3 分的<毒液>是否值得一看? 作者 | Ryan 公众号 | 格雷福斯 编辑 | 阿广 概述 前言 获取数据 数据可视化 用户评论,词云图 毒液中六大搞笑台 ...

  10. 这届网友实在是太有才了!用python爬取15万条《我是余欢水》弹幕

    年初时我们用数据解读了几部热度高,但评分差强人意的国产剧,而最近正午阳光带着两部新剧来了,<我是余欢水>和<清平乐>,截止到目前为止,这两部剧在豆瓣分别为7.5分和7.9分,算 ...

最新文章

  1. 商品秒杀,防并发解决思路
  2. 教你使用IOS内置的排错命令
  3. Android中的ListView
  4. Linux 服务器带宽异常跑满分析解决
  5. 湖大计算机考研分数线,湖南大学2017年考研分数线已公布
  6. win8/Metro开发系七 win8 对常见数据源的解析及处理 如:xml,json,以及html代码
  7. 腾讯微博——点击按钮自动加关注代码
  8. uploadify 3.2 后台动态传参数
  9. 845芯片组SMM 控制寄存器
  10. [转]短篇小说《来》
  11. python遍历字典的具体位置_python遍历字典
  12. NIS 报错No such map passwd.byname. Reason: Can't bind to server which serves this domain
  13. 创业挑战杯获奖作品范例_挑战杯创业计划大赛金奖作品1——【挑战杯获奖作品】...
  14. IE浏览器F12无法使用
  15. NYOJ-54小明的存钱计划
  16. Mock测试-优缺点分析
  17. 降低数据库压力的方法
  18. windows7 64位机上安装配置CUDA 9.1+cudnn7操作步骤
  19. 青云服务器换系统,青云科技发布新一代企业级云服务器e3:算力供给侧变革的强大助手...
  20. git修改commit信息

热门文章

  1. 金蝶专业版怎么反过账当月_金蝶KIS专业版怎么反过账
  2. PyQt5 QLabel控件
  3. 读《摄影测量与遥感概论》有感
  4. 利用平面投影坐标与经纬度粗略自动计算高斯投影坐标系参数
  5. 金融分析python和r语言比较_金融领域R语言对比python
  6. 百面机器学习--机器学习面试问题系列(三)经典算法
  7. Caused by: javax.security.auth.login.LoginException: unable to find LoginModule class: com.ibm.secur
  8. python实现GPS经纬度转换
  9. 【20220912】电商业务的核心流程
  10. 直通车测图需要满足哪些数据?