利用python爬虫电影分析_python 爬虫分析30年香港电影
前言
上个礼拜接触爬虫,本身对香港电影比较感兴趣,这2天就去拿豆瓣数据做了份香港近30年电影的分析
正文
数据来源豆瓣
这些路径是有规律 ,设置好循环条件,拿到电影url在进行下一步,在这之前有一部分电影我们过滤掉,典型的就是没有评分的电影,没有评分电影大部分是演出晚会,B级片等电影,
读者有兴趣可以查下,这些电影的数据可用性差我不来拿分析,香港上世纪90-99电影总数2700+,过滤后拿到的1100+。近30年电影初步得到是2500+
然后分析页面结构,电影名会有多的 ,我是空格分开后取的第一个,简体字电影名排在首位,静态页面的数据爬取比较简单这里有几个注意点
一:页面结构要多种预计 (有点页面没有导演或者编剧这些情况)
二:遇到ip封禁的 设定时 ,登陆后拿自己账号cookies加入headers, 或者自己定义ip(r=requests.get(url,proxies={'http':random.choice(pro)},headers=head))
多线程分配url任务时 ,因为我用的是mysql,遇到一个锁表的问题,这个作为以后学习点,不过使用MongoDB这种非关系数据库就没有这种问题
数据结果
可视化的有的是echarts:
一:香港历年电影
在1993-1995年和 2000-2001是香港电影的鼎盛时期 ,前者有霸王别姬,东邪西毒,活着,与大话西游系列,后者有花样年华,卧虎藏龙,无间道这些优秀
影片,在94,95巅峰后年电影有下降的趋势应该是97香港回归的影响,在回归后的2000左右稳定,并且再次有峰值。
二:导演
三:演员
张国荣(2008年的为东西吸毒终极版)
周星驰
刘德华
还有很多蛮有趣的数据就不都展示,这段时间体会到爬虫的乐趣,后面往图像处理方向学习
利用python爬虫电影分析_python 爬虫分析30年香港电影相关推荐
- 数据可视化:利用Python和Echarts制作“用户消费行为分析”可视化大屏
数据可视化:利用Python和Echarts制作"用户消费行为分析"可视化大屏 前言 实验目的: 准备工作: 一.创建项目: 二.建立数据库连接获取数据: 三.页面布局: 四.下载 ...
- 利用python做微信聊天记录词云分析——记录美好回忆
目录 1 概述 2 数据准备 2.1 安卓设备 2.1.1 Root手机,安装Root Explorer 2.1.2 用Root Explorer将聊天记录的数据文件导出并存入电脑 2.1.3 对En ...
- 利用 Python 实现简单的主题爬虫
利用 Python 实现简单的主题爬虫 利用 Python 实现简单的主题爬虫,主要是通过对指定的 主题 和 网站 进行深度爬取,获取对应网页的标题和 url ,仅供学习参考. 爬取结果: 实验源 ...
- python爬虫豆瓣电影评价_Python 爬虫实战(1):分析豆瓣中最新电影的影评
目标总览 主要做了三件事: 抓取网页数据 清理数据 用词云进行展示 使用的python版本是3.6 一.抓取网页数据 第一步要对网页进行访问,python中使用的是urllib库.代码如下: from ...
- python 豆瓣评论数据分析_Python爬虫实战案例:豆瓣影评大数据分析报告之网页分析...
个人希望,通过这个完整的爬虫案例(预计总共4篇短文),能够让爬虫小白学会怎么做爬虫的开发,所以在高手们看来,会有很多浅显的废话,如果觉得啰嗦,可以跳过一些内容~ 上一篇文章给大家简单介绍了Python ...
- python基金预测分析_Python爬虫抓取基金数据分析、预测系统设计与实现
版权声明:本文为博主原创文章,如果转载请给出原文链接:http://doofuu.com/article/4156231.html 目前在开发一款基于Python的基金爬取.分析.预测系统,目前已经开 ...
- python网页爬虫漫画案例_Python爬虫 JS案例分析:爬取鬼灭之刃漫
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 文章转载于公众号:快学Python 作者:皖渝 猪油骨,拿来卤~今天,来分享一下python图片爬 ...
- python爬虫面试经验_Python爬虫面试简历 经验分析
分享之前的爬虫简历,仅供参考,因为技术有限,简历技能点逼格不是很高,但提到的很多爬虫常用技术,都已经写入简历,靠这份简历之前找工作时候2天预约了8家面试,面的第二天,在第4家公司通过拿到offer,后 ...
- python自动爬取更新电影网站_Python爬虫之—微信实时爬取电影咨询
本文将介绍如何使用爬虫在微信对话中实现实时的电影咨询爬取功能,希望和大家一起来分享" 1. 撩妹起源 俗话说的好:少壮不撩妹,长大徒伤悲啊! 说的很对,但是在这个撩妹的时代,要想成功把到妹, ...
最新文章
- python随机字典数据_python数据类型-字典
- MATLAB信号包络的提取
- 如何在Java中将String转换为int
- Zigbee费尽心思做mesh网究竟在智能家居中有什么用?
- SQLServer日期格式化
- 原生python自带的ide_python自带的IDE是一个功能强大的IDE
- python操作mysql中的表_带你了解什么是Python操作MySQL数据库
- (已解决) centos6.5 yum源 失效 The whole CentOS 6 is dead and shouldn’t be used anywhere at all
- 浅谈文字编码和Unicode
- 数学向量 java,数学向量和旋转(Topdown java game dev – physics problem)
- python如何转换图形_python绘图 转
- MATLAB差值画树叶,MATLAB分形图形 树叶
- 敏捷开发之XP极限编程
- 华为机考1-54题总结
- vue中加载腾讯地图(html形式)
- 免费个人网站制作离不开参考
- 转:条件型 CORS 响应下因缺失 Vary: Origin 导致的缓存错乱问题
- 「鸡尾酒排序」不会?每天一遍,排序再见【超详细】
- 集成支付宝支付出现{resultStatus=4000, result=, memo=系统繁忙,请稍后再试}
- 五分钟学GIS | 立体效果地图制作
热门文章
- 推荐系统中评测指标准确率和召回率
- java控制台检测不到远程端口,java – 远程调试:在端口8787上没有连接到OpenJDK 11上的Wildfly 14...
- 基于Blinker物联网+Esp8266的燃气灶温度与燃气残留浓度监控装置的设计与实现之三
- 【CVPR 2018热文】MIT提出“透明设计”网络,揭开视觉黑盒
- Facebook介绍ICCV2017收录论文,其中五分之一都有何恺明的名字
- 上海清晖管理咨询有限公司创始人傅永康受邀为第十二届中国PMO大会演讲嘉宾
- Docker启动Tomcat容器
- matlab遗传算法中的变异操作,遗传算法流程图?遗传算法的基本原理?遗传算法 交叉和变异?简单遗传算法MATLAB实现(4)...
- phpexcel中文手册
- Postfix配置文件解析