对于神仙姐姐刘亦菲,估计很多码农都很喜欢,小编也非常喜欢她。从一开始的金粉世家里面的青涩的白秀珠,到天龙八部的神仙姐姐王语嫣,再到仙剑奇侠传里面的赵灵儿,后来挑战四大名捕里面的无情,演技也是越来越好。

现在她主演的《花木兰》 也带着一股巨浪向人们袭来,这部从拍摄之初就饱受争议的电影,于是小编在猫眼上爬取上万条的用户评价,对其进行数据分析,今天就跟大家一起对其进行探索。

01.

网站的分析

这次我们的数据爬取从猫眼电影上获取,目前有近14万的电影短片数据。经过仔细的分析,发现猫眼电影的URL有一定的规律,可以从中获取猫眼的电影评论数据,并且数据提供的格式json格式,方便操作。这个接口如下:

http://m.maoyan.com/mmdb/comments/movie/movieid.json?_v_=yes&offset=15&startTime=?

这个接口主要有两个参数:

  • movieid是指猫眼中每个电影独有的id,如《花木兰》的movieid=1210778;

  • startTime是指该页面中第一条评论的时间,在这个页面,每页共有15条评论;

然后打开每一条评论,进行解析网页,看一下里面的结构

发现关键的地方就是这个时间戳!

02.

动手写代码

有了这个接口,就可以很快的对影评进行爬取了。这里依赖于requests、json等库进行(相关的爬虫知识,去年我已经写过50多篇,这里就不赘叙,翻翻历史文章即可),获取相关信息,相关核心代码如下所示:

上面的代码主要是构造代理user_agents, headers里面的参数,把网页的爬取请求伪装成浏览器的请求。

用requests发送网络请求,然后获取comments的数据,然后进行存储到csv文件中去。CSV的读写存储技巧可以看这篇(近20年五粮液股价分析|CSV文件实战处理)

经过上面一顿猛如虎的操作,下面小编先带大家看看爬的的原始数据,主要包含了发表者的城市,评论内容,性别,用户,等级以及好评度等信息。

03 

数据分析

有了原始数据,剩下的就是对数据的清洗分析了,这里选用pyecharts库进行数据分析,因为这个使用起来非常方便,而且效果也不错。

1).整体分析

豆瓣上给这部电影的打分只有4.9,不知道为啥大家的评分这么低。我们先查看一下大家对花木兰电影的总体评分吧。

用pyecharts的Bar来直观的看一下效果:

02).好评和差评

接着我们看一下花木兰的好评和差评的对比情况:

对df的数据进行处理,提取出好评和差评的关键字进行统计分析,然后进行可视化的展示。

由图表可以看出,大家对花木兰的评价分布还是比较均衡的,也有一点两极分化的趋势,给予高分和低分的的人都比较多。小编也电影院看了一下,认为两级分化是有原因的:

  • 其迪斯尼的制作特效,以及刘亦菲的超高人气,为其吸引了大量人气,带来了一波好评;

  • 但对于熟知中国古典故事花木兰剧情的人来说,其剧情的设计是让人很难接受的,也就导致了国人的诸多差评。

2)词云分析

基于评价两级分化的现象,小编决定探究一下两级分化的原因究竟是什么,这里小编对整体评价、好评、坏评的词云分别进行绘制,绘制得到的结果如下图所示。

我们用jieba库对整个的评论进行关键字分析,看一下大家的花木兰的点评到底是啥,我们统计出点评最多的100个关键字。

由整体评价词云可以看出,整体的评价还是偏向好的一方面,大大的 “好看” 两字写在了词云中央;在差评词云中, “剧情”、“中国” 等词汇出现频率很高,表明差评的人主观感受是对剧情的不满意,其不符合中国历史故事,这一点是国人对这部电影的认可度不高的关键因素。

3)地域分析

最后小编带大家看看影评者的分布情况,大家可以找一找自己所在的城市是否也为这部票房做贡献了。

我们把上面采集到的数据集里面的每个评论的城市纬度拿出来,取前50个城市的名字,然后利用Pyecharts里面的geo库进行可视化展示。

由分布图可以看出,一线发达城市观影人数是最多的,北上广深显得尤为突出,可见一线城市人民的消费力卓越;从东西分布和南北分布来看,非常符合我国东强西弱,南强北弱的经济结构。


以上就是小编为大家带来的《花木兰》的电影分析,通过分析,我们发现其制作效果虽然可观,但是剧情方面难以让国人普遍接受。欢迎大家在留言区点评,给个三连!说说你对花木兰的看法是啥?

限于篇幅上面的源码没有展开解读,我们会在B站录制视频详细解读源码的细节和注意点,到时把源码和数据都给大家,大家记得来B站找我们。

https://space.bilibili.com/488689252

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方“小詹学Python”,进入公众号主页。(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。感谢支持,比心。

花木兰到底好看不,我用Python爬取了几万条评论!相关推荐

  1. 爬取京东一万条评论-python

    要求: 1 万条以上的京东手机评论爬取(爬取内容为评论 +score) 浏览器部分 为了一次爬取评论更多的手机所以在选取url的时候优先筛选相应品牌评论更多的款,以我爬取的vivo品牌为例: 1.筛选 ...

  2. 《云南虫谷》爆火播放中,Python抓取3.6万条评论!评论太搞笑了吧!

    最近鬼吹灯系列网剧<云南虫谷>上线,作为鬼吹灯系列作品,承接上部<龙岭迷窟>内容,且还是铁三角原班人马主演,网友直呼非常好看! 今天,我们就用Python爬取目前全部剧集的评论 ...

  3. Python爬取近10万条程序员招聘数据,告诉你哪类人才和技能最受热捧!

    来源:凹凸数据 本文约5800字,建议阅读15分钟 本文带你了解当下企业究竟需要招聘什么样的人才?需要什么样的技能? 随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于& ...

  4. Python 爬取 B 站 5000 条视频,揭秘为何千万人为它流泪!

    [CSDN 编者按]<哪吒>看哭了无数人!编者看的那场,有很多小朋友,一开始他们还被太乙真人的滑稽,逗得哈哈笑.到了哪吒成魔要杀父亲.跪别父母.因为宿命不得以和敖丙为敌时,影院里突然安静下 ...

  5. 利用python爬取东方财富网股吧评论并进行情感分析(一)

    利用python爬取东方财富网股吧评论(一) python-东方财富网贴吧文本数据爬取 分享一下写论文时爬数据用到的代码,有什么问题或者改善的建议的话小伙伴们一起评论区讨论.涉及内容在前人的研究基础之 ...

  6. python 爬取携程旅游景点评论

    python爬取携程旅游景点评论 爬取网址:https://you.ctrip.com/ 爬取评论全部代码 import requests import json import re import t ...

  7. python 爬取亚马逊评论_用Python爬取了三大相亲软件评论区,结果...

    小三:怎么了小二?一副愁眉苦脸的样子. 小二:唉!这不是快过年了吗,家里又催相亲了 ... 小三:现在不是流行网恋吗,你可以试试相亲软件呀. 小二:这玩意靠谱吗? 小三:我也没用过,你自己看看软件评论 ...

  8. python爬取携程景区用户评论

    python爬取携程景区用户评论(爬虫时遇到翻页但url不变问题时的解决办法) python爬取携程景区用户评论 Ajax页面加载的页面和普通页面的不同 解决办法 效果 python爬取携程景区用户评 ...

  9. python爬取网抑云音乐评论

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.python爬取网抑云音乐评论 前言 提示:这里可以添加本文要记录的大概内容: python爬取网抑云音乐评论 提 ...

最新文章

  1. OpenFace库(Tadas Baltrusaitis)中基于Haar Cascade Classifiers进行人脸检测的测试代码
  2. Direct2D开发:Direct2D 和 GDI 互操作性概述
  3. 如果不是为了面试,AI工程师刷题有用吗?
  4. python条件控制语句_Python课堂笔记 条件控制语句
  5. C#的static constructor抛了异常会怎么处理?
  6. php 对象赋值后改变成员变量影响赋值对象
  7. 25 PP配置-生产车间控制-工序-定义生产计划参数文件
  8. python 多进程 调用模块内函数_python--多进程的用法详解实例
  9. 离线安装PostgreSQL
  10. openwrt挂载u盘(ntfs)_如何在 Bitcoin 的源码基础上生成一条自己的链 08:将bitcoin移植到openwrt...
  11. 稳妥方法论:如何完整地设计出游戏关卡及场景
  12. LoadRunner 录制IE 8卡死
  13. Android使用BottomNavigationView+NavigationUI报错
  14. IT是什么行业?就业前景怎么样
  15. 评分卡实例:一步一步实现评分卡(详细长文)
  16. 经验,初创公司如何做到完美地招人、挖人
  17. 浅谈MOSFET驱动电路
  18. substr()函数
  19. 网格系统设计方法是什么
  20. Pelican 入门:一个 Python 静态网站生成器

热门文章

  1. Splunk和ElasticSearch深度对比解析
  2. sublime text 3在windows中配置ctags插件
  3. PHP接口与抽象类区别:接口用来扩展应用 抽象用来总结归纳
  4. Linux配置apache虚拟主机:静态文件
  5. 固件升级校准_RS网络分析仪自检自校准方法-Agitekservice
  6. windows常用进程
  7. PHP生成Mysql数据字典
  8. 泛型java实例_【Java学习笔记】Java6泛型实例
  9. php统计凌晨6点,凌晨是哪一段时间,0:00-6:00(午夜到天亮前)
  10. php去字符串空格,php怎么去掉字符串中空格