有态度地学习

双11已经过去,双12即将来临,离2018年的结束也就2个月不到,还记得年初立下的flag吗?

完成了多少?相信很多人和我一样,抱头痛哭...

本次利用猫眼电影,实现对2018年的电影大数据进行分析。

/ 01 / 网页分析

01  标签

通过点击猫眼电影已经归类好的标签,得到网址信息。

02  索引页

打开开发人员工具,获取索引页里电影的链接以及评分信息。

索引页一共有30多页,但是有电影评分的只有10页。

本次只对有电影评分的数据进行获取。

03  详情页

对详情页的信息进行获取。

主要是名称,类型,国家,时长,上映时间,评分,评分人数,累计票房。

/ 02 / 反爬破解

通过开发人员工具发现,猫眼针对评分,评分人数,累计票房的数据,施加了文字反爬。

通过查看网页源码,发现只要刷新页面,三处文字编码就会改变,无法直接匹配信息。

所以需要下载文字文件,对其进行双匹配。

将woff格式转换为xml格式,以便在Pycharm中查看详细信息。

利用下面这个网站,打开woff文件。

url: http://fontstore.baidu.com/static/editor/index.html

可以得到下面数字部分信息(上下两块)。

在Pycharm中查看xml格式文件(左右两块),你就会发现有对应信息。

通过上图你就可以将数字6对上号了,其他数字一样的。

/ 03 / 数据获取

01  构造请求头

因为索引页和详情页请求头不一样,这里为了简便,构造了一个函数。

02  获取电影详情页链接

03  获取电影详情页信息

/ 04 / 数据存储

01  创建数据库及表格

其中票房收入数据类型为BIGINT(19位数),最大为18446744073709551615。

INT(10位数),最大为2147483647,达不到36亿(3600000000)。

02  数据存储

最后成功存储数据

/ 05 / 数据可视化

可视化源码就不放了,公众号回复电影即可获得。

01  电影票房TOP10

还剩一个多月,不知道榜单上会不会有新成员。最近「毒液」很火,蛮有希望。

02  电影评分TOP10

这里就得吐槽一下pyecharts,坐标转换后,坐标值名称太长就会被遮挡,还需改进呢~

03  电影人气TOP10

茫茫人海之中,相信一定也有大家的身影,我也是其中的一员!!!

04  每月电影上映数量

每月上映数好像没什么大差距,7月最少,难道是因为天气热?

05  每月电影票房

这里就看出春节档电影的威力了,金三银四、金九银十,各行各业的规律,电影行业也不例外。

上一张图我们知道7月份电影上新最少,票房反而是第二。

这里看了下数据,发现有「我不是药神」「西虹市首富」「邪不压正」「摩天营救」「狄仁杰之四大天王」几部大剧撑着。

06  各国家电影数量TOP10

原来中国电影这么高产的,可是豆瓣TOP250里又有多少中国电影呢?深思!!!

07  中外票房对比

2017年的年度票房是560亿,估计今年快要突破了。据说今年全年票房有望突破600亿。

08  电影名利双收TOP10

计算公式是,把某部电影的评分在所有电影评分中的排名与这部电影的票房在所有票房中的排名加起来,再除以电影总数。

除了「侏罗纪世界2」「无双」「捉妖记2」,我都看过啦!

09  电影叫座不叫好TOP10

计算公式是,把某部电影的票房排名减去某部电影的评分排名加起来,再除以电影总数。

可能是猫眼的用户比较仁慈吧,与豆瓣相比,普遍评分都比较高。我个人都不太敢相信这个结果。

不过有一个还是挺准的,「爱情公寓」。

10  电影类型分布

剧情电影永远引人深思。感觉今年的电影好多跟钱有关,比如「我不是药神」「西虹市首富」「一出好戏」「头号玩家」,贫穷限制了大家伙们。

公众号回复电影。即可获取全部源码。

从爬虫到分析之2018猫眼电影大数据相关推荐

  1. 爬虫实战(一)猫眼电影基础数据爬取

    看完爬虫基础,是不是有点心动手痒了呢?那么接下来就让我们一起学习如何爬虫吧. 写在爬虫之前 选这个题目的初衷:本人是一个学生党,经济来源较少但平时又特别爱看电影,又没时间关注电影票价的变动,有了这个爬 ...

  2. 爬虫实战(二)猫眼电影动态数据爬取

    前言 爬虫部分的知识算是告一段落了,又是几天过去了,感觉挺充实的.里面可能还有一些需要改进的地方,慢慢完善吧. 正文 接下来我们就说说上次遗留下来的问题,如何爬取动态数据.先告诉你一下爬取的数据中为什 ...

  3. python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程

    python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程 前言 一丶整体思路 二丶遇到的问题 三丶分析URL 四丶解析页面 五丶写入文件 六丶完整代码 七丶最后 前言 大家好我是墨绿 头顶总 ...

  4. 抓取猫眼电影实时数据

    抓取猫眼电影实时数据 我又回来了,guys!最近也是看到流浪地球,飞驰人生,疯狂的外星人的票房大卖,于是就想着利用python对猫眼做一下票房的数据统计.下面就开始我的表演: 环境: python3. ...

  5. Python爬虫笔记——分析AJAX传递的JSON获取数据-初步分析动态网页

    转载文章链接: Python爬虫:分析AJAX传递的JSON获取数据-初步分析动态网页(1) [4]实战:爬取动态网页的两种思路爬取新浪趣图(1) [5]实战:爬取动态网页的两种思路爬取新浪趣图(2) ...

  6. 猫眼发布电影大数据报告:大数据时代的电影消费洞察

    近日,猫眼电影发布了关于"大数据时代的电影消费洞察"的报告(以下简称报告),报告数据分析来源于超5亿人次的猫眼电影消费数据和4000家影院数据.报告显示,2015上半年全国电影票房 ...

  7. 你看一场电影 大数据解读了这些秘密

    文章讲的是你看一场电影 大数据解读了这些"秘密",电影票在线销售已超过了线下的影院销售,对应的,越来越多的用户数据也被收集分析.结果是,你买了一张电影票,跟着就会知道你看完电影可能 ...

  8. 一文看懂 BDTC 2018:探秘大数据新应用(附 PPT 下载)

    12 月 8 日,北京新云南皇冠假日酒店,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN.中科天玑数据科技股份有限公司协办的 2018 中国大数据技术大会(BDTC)圆满落下帷幕. 从 ...

  9. Python爬虫,爬取51job上有关大数据的招聘信息

    Python爬虫,爬取51job上有关大数据的招聘信息 爬虫初学者,练手实战 最近在上数据收集课,分享一些代码. 分析所要爬取的网址 https://search.51job.com/list/000 ...

最新文章

  1. 怎么考英语教师资格证
  2. (事件类型: 警告;事件代码:3005)的解惑
  3. WenLan-10亿参数!别只玩GPT,来看看人大中科院联手打造第一个大规模多模态中文预训练模型BriVL...
  4. liferay控制面板--网页内容时间不一致问题解决思路
  5. java 枚举 类 enum
  6. Python中更新pip版本的那些事
  7. 软件测试工程师需要具备哪些能力?
  8. python画椭圆形_Python易学就会(五)turtle绘制椭圆与递归
  9. WebSocket协议数据格式解析
  10. 巨人史玉柱放弃独权:放任年轻研发团队犯错
  11. 浅谈探索性数据分析的方法—如何下手处理一堆繁杂的数据
  12. 推荐基于深度学习实时同步生成2D动画口型算法
  13. 大数据的主要学习内容有哪些?
  14. setTimeout with a shorter delay
  15. 第二次作业助教博客 —— 撰写第三周课程总结及实验报告(一)
  16. docker for mysql
  17. 入职以来一个月的心得体悟
  18. 实战:k8s之NFS存储-2022.2.22
  19. 5分钟告诉你如何成为一名黑客?从萌新成为大佬,只需掌握这5点(思维、编程语言、网络安全、入侵实操、法律)
  20. ubuntu系统禁用自带Nouveau驱动

热门文章

  1. 机器人正运动学(5)—— 齐次变换矩阵
  2. 改之理修改服务器地址,【已解决】apk改之理无法反编译寻路
  3. python中判断一个数是不是质数
  4. unity 消融效果
  5. linux实时查看日志变化的命令,[转]linux实时查看更新日志命令
  6. java中Query类的解析和具体用法
  7. python股票自动交易从零开始-自动交易python
  8. 毕业设计-基于机器视觉的指针式仪表读数自动识别研究与实现
  9. 秒速五厘米——我们究竟都在等待什么样的爱情
  10. 剩余电流互感器 漏电安全监测 开口式安装 安科瑞AKH-0.66/L