Python爬取猫眼电影数据并对其进行数据可视化
前言
如果大家经常阅读Python爬虫相关的公众号,都会是以爬虫+数据分析的形式展现的,这样很有趣,图表也很不错,今天了,我就来分享上一次在培训中的一个作品:猫眼电影爬虫及分析。
爬虫分析
这里是获取的是top100的电影数据,进行了跨页爬虫,获取的字段:电影名,主演,上映时间,评分,电影类型和时长。最后保存在csv文件中。
爬虫代码
import requests
from lxml import etree
import csv'''
遇到不懂的问题?Python学习交流群:1136201545满足你的需求,资料都已经上传群文件,可以自行下载!
'''
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}def get_url(url):res = requests.get(url,headers=headers)html = etree.HTML(res.text)infos = html.xpath('//dl[@class="board-wrapper"]/dd')for info in infos:name = info.xpath('div/div/div[1]/p[1]/a/text()')[0]info_url = 'http://maoyan.com' + info.xpath('div/div/div[1]/p[1]/a/@href')[0]star = info.xpath('div/div/div[1]/p[2]/text()')[0].strip()release_time = info.xpath('div/div/div[1]/p[3]/text()')[0].strip()score_1 = info.xpath('div/div/div[2]/p/i[1]/text()')[0]score_2 = info.xpath('div/div/div[2]/p/i[2]/text()')[0]score = score_1 + score_2# print(name,star,release_time,score,info_url)get_info(info_url,name,star,release_time,score)def get_info(url,name,star,time,score):res = requests.get(url, headers=headers)html = etree.HTML(res.text)style = html.xpath('/html/body/div[3]/div/div[2]/div[1]/ul/li[1]/text()')[0]long_time = html.xpath('/html/body/div[3]/div/div[2]/div[1]/ul/li[2]/text()')[0].split('/')[1].strip()print(name,star,time,score,style,long_time)writer.writerow([name,star,time,score,style,long_time])if __name__ == '__main__':fp = open('maoyan_2.csv','w',encoding='utf-8',newline='')writer = csv.writer(fp)writer.writerow(['name','star','time','score','style','long_time'])urls = ['http://maoyan.com/board/4?offset={}'.format(str(i)) for i in range(0, 100, 10)]for url in urls:get_url(url)
数据分析
总体情况
100部电影,平均得分9.0,平均电影时长128.63。
电影年份趋势
电影年份趋势不大,规律不太明显。
电影月份
大家看电影都知道,电影基本在假期上映更有热度,这里统计出来,发现下半年的电影比上半年电影好很多~
地区
中国和美国还是占了很多的,韩国和日本电影也很不错~
电影类型
电影大部分都是剧情的,爱情才是真谛啊。
Python爬取猫眼电影数据并对其进行数据可视化相关推荐
- python爬取猫眼电影数据
每天一点点,记录学习每一步 近期爬虫项目: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方法 3:pyt ...
- (伪)Python爬取猫眼电影(反反爬虫过程中遇到的坑)
Python爬取猫眼电影 1.打开一个猫眼电影的URL,例如本月的较火的电影<毒液:致命守护者>http://maoyan.com/films/42964 直接F12,查看审核元素,发现上 ...
- python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》
前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...
- 利用python爬取猫眼电影,分析《大侦探皮卡丘》|凹凸数读
利用python爬取猫眼电影,分析<大侦探皮卡丘>,看看当皮卡丘长出绒毛,"丑拒"还是"真香"都在猫眼短评里了. 本文首发于微信公众号<凹凸数 ...
- Python爬取猫眼电影TOP100榜
Python爬取猫眼电影TOP100榜 兴趣点: 这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈! 爬取网址: 传送门:https://m ...
- python爬取猫眼电影
爬取猫眼电影排名前一百的电影 验证问题不知道怎么解决,隔段时间要重新输一次链接' # -*- coding: utf-8 -*- """ Created on Wed D ...
- python 爬取猫眼电影网站数据
完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/maoyan python 爬取 movie.douban.com 网站 ...
- Python爬取猫眼电影榜单评分,以及评论
猫眼电影评论爬取 [目标] (1)爬取榜单电影名称以及评分,简单的数据可视化. (2)爬取< 你好,李焕英>的评论,用词云显示 第一步:了解反爬机制: 1.请求过多,ip地址会被封掉24h ...
- python爬猫眼电影影评,EX1 | 用Python爬取猫眼电影 APP 关于《无双》电影评论
在本次推送中,以猫眼电影 APP 中的电影评论作为爬取目标,完成对网页数据的采集.在采集完成后,我们将每个评论数据采集分用户名.评论时间.用户性别.用户等级.用户所在城地.用户评分.以及评论内容等,并 ...
最新文章
- 漫谈Httpclient
- Visual Studio Code / Roboware Studio调整字体大小,跳转等操作
- rabbitmy实战
- matlab解常微分方程,Matlab中解常微分方程的ode45
- spring tiles_Spring MVC 3模板和Apache Tiles
- GAE-BBS v.10 开源下载
- 分布式系统如何设计,看看Elasticsearch是怎么做的
- 计算机光盘无法格式化,c盘无法格式化怎么办 c盘无法格式化的解决方法
- iMindMap中的虚线箭头如何进行使用
- HTML页面浏览历史,浏览历史记录功能
- 【霸指拓客】抖音自动引流脚本源码终端开发
- windows删mysql库代码_windows完全删除MySQL数据库
- 在中国搞自动驾驶,没有人不羡慕滴滴
- http java编程_Java编程:发送HTTP请求到服务器
- Tomcat详细配置(全)
- AutoFlowLayout:流式布局以及报错处理
- 生成带有logo的二维码
- Nginx命令stop或者quit停止服务器无效失效
- 分布式电商项目 谷粒商城 学习笔记<2>
- 物联网平台TZ-IOT发布透传云内测服务:V1.0
热门文章
- python 廖雪峰_实战 - 廖雪峰的官方网站
- Tita:2021年的绩效考核(上)
- 前端websocket的一些属性,以及websocket的断开重连
- 战略 | 分析这25家千亿美元市值企业后,发现了这些趋势......
- 目前房价、股价下跌。市场出现希望*数市的呼声,请谈请你对救市的看法。
- java if 嵌套_java嵌套if语句
- 一款简单的本地音乐播放器,界面美观、包括主题切换、歌单管理等等
- Hadoop —— 漫画图解hdfs读、写、容错、副本机制
- SEO优化之百度百科
- 爬取正方教务管理系统获取学生信息