前言

如果大家经常阅读Python爬虫相关的公众号,都会是以爬虫+数据分析的形式展现的,这样很有趣,图表也很不错,今天了,我就来分享上一次在培训中的一个作品:猫眼电影爬虫及分析。

爬虫分析

这里是获取的是top100的电影数据,进行了跨页爬虫,获取的字段:电影名,主演,上映时间,评分,电影类型和时长。最后保存在csv文件中。

爬虫代码

import requests
from lxml import etree
import csv'''
遇到不懂的问题?Python学习交流群:1136201545满足你的需求,资料都已经上传群文件,可以自行下载!
'''
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}def get_url(url):res = requests.get(url,headers=headers)html = etree.HTML(res.text)infos = html.xpath('//dl[@class="board-wrapper"]/dd')for info in infos:name = info.xpath('div/div/div[1]/p[1]/a/text()')[0]info_url = 'http://maoyan.com' + info.xpath('div/div/div[1]/p[1]/a/@href')[0]star = info.xpath('div/div/div[1]/p[2]/text()')[0].strip()release_time = info.xpath('div/div/div[1]/p[3]/text()')[0].strip()score_1 = info.xpath('div/div/div[2]/p/i[1]/text()')[0]score_2 = info.xpath('div/div/div[2]/p/i[2]/text()')[0]score = score_1 + score_2# print(name,star,release_time,score,info_url)get_info(info_url,name,star,release_time,score)def get_info(url,name,star,time,score):res = requests.get(url, headers=headers)html = etree.HTML(res.text)style = html.xpath('/html/body/div[3]/div/div[2]/div[1]/ul/li[1]/text()')[0]long_time = html.xpath('/html/body/div[3]/div/div[2]/div[1]/ul/li[2]/text()')[0].split('/')[1].strip()print(name,star,time,score,style,long_time)writer.writerow([name,star,time,score,style,long_time])if __name__ == '__main__':fp = open('maoyan_2.csv','w',encoding='utf-8',newline='')writer = csv.writer(fp)writer.writerow(['name','star','time','score','style','long_time'])urls = ['http://maoyan.com/board/4?offset={}'.format(str(i)) for i in range(0, 100, 10)]for url in urls:get_url(url)

数据分析

总体情况

100部电影,平均得分9.0,平均电影时长128.63。

电影年份趋势

电影年份趋势不大,规律不太明显。

电影月份

大家看电影都知道,电影基本在假期上映更有热度,这里统计出来,发现下半年的电影比上半年电影好很多~

地区

中国和美国还是占了很多的,韩国和日本电影也很不错~

电影类型

电影大部分都是剧情的,爱情才是真谛啊。

Python爬取猫眼电影数据并对其进行数据可视化相关推荐

  1. python爬取猫眼电影数据

    每天一点点,记录学习每一步 近期爬虫项目: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方法 3:pyt ...

  2. (伪)Python爬取猫眼电影(反反爬虫过程中遇到的坑)

    Python爬取猫眼电影 1.打开一个猫眼电影的URL,例如本月的较火的电影<毒液:致命守护者>http://maoyan.com/films/42964 直接F12,查看审核元素,发现上 ...

  3. python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》

    前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...

  4. 利用python爬取猫眼电影,分析《大侦探皮卡丘》|凹凸数读

    利用python爬取猫眼电影,分析<大侦探皮卡丘>,看看当皮卡丘长出绒毛,"丑拒"还是"真香"都在猫眼短评里了. 本文首发于微信公众号<凹凸数 ...

  5. Python爬取猫眼电影TOP100榜

    Python爬取猫眼电影TOP100榜 兴趣点: 这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈! 爬取网址: 传送门:https://m ...

  6. python爬取猫眼电影

    爬取猫眼电影排名前一百的电影 验证问题不知道怎么解决,隔段时间要重新输一次链接' # -*- coding: utf-8 -*- """ Created on Wed D ...

  7. python 爬取猫眼电影网站数据

    完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/maoyan python 爬取 movie.douban.com 网站 ...

  8. Python爬取猫眼电影榜单评分,以及评论

    猫眼电影评论爬取 [目标] (1)爬取榜单电影名称以及评分,简单的数据可视化. (2)爬取< 你好,李焕英>的评论,用词云显示 第一步:了解反爬机制: 1.请求过多,ip地址会被封掉24h ...

  9. python爬猫眼电影影评,EX1 | 用Python爬取猫眼电影 APP 关于《无双》电影评论

    在本次推送中,以猫眼电影 APP 中的电影评论作为爬取目标,完成对网页数据的采集.在采集完成后,我们将每个评论数据采集分用户名.评论时间.用户性别.用户等级.用户所在城地.用户评分.以及评论内容等,并 ...

最新文章

  1. 漫谈Httpclient
  2. Visual Studio Code / Roboware Studio调整字体大小,跳转等操作
  3. rabbitmy实战
  4. matlab解常微分方程,Matlab中解常微分方程的ode45
  5. spring tiles_Spring MVC 3模板和Apache Tiles
  6. GAE-BBS v.10 开源下载
  7. 分布式系统如何设计,看看Elasticsearch是怎么做的
  8. 计算机光盘无法格式化,c盘无法格式化怎么办 c盘无法格式化的解决方法
  9. iMindMap中的虚线箭头如何进行使用
  10. HTML页面浏览历史,浏览历史记录功能
  11. 【霸指拓客】抖音自动引流脚本源码终端开发
  12. windows删mysql库代码_windows完全删除MySQL数据库
  13. 在中国搞自动驾驶,没有人不羡慕滴滴
  14. http java编程_Java编程:发送HTTP请求到服务器
  15. Tomcat详细配置(全)
  16. AutoFlowLayout:流式布局以及报错处理
  17. 生成带有logo的二维码
  18. Nginx命令stop或者quit停止服务器无效失效
  19. 分布式电商项目 谷粒商城 学习笔记<2>
  20. 物联网平台TZ-IOT发布透传云内测服务:V1.0

热门文章

  1. python 廖雪峰_实战 - 廖雪峰的官方网站
  2. Tita:2021年的绩效考核(上)
  3. 前端websocket的一些属性,以及websocket的断开重连
  4. 战略 | 分析这25家千亿美元市值企业后,发现了这些趋势......
  5. 目前房价、股价下跌。市场出现希望*数市的呼声,请谈请你对救市的看法。
  6. java if 嵌套_java嵌套if语句
  7. 一款简单的本地音乐播放器,界面美观、包括主题切换、歌单管理等等
  8. Hadoop —— 漫画图解hdfs读、写、容错、副本机制
  9. SEO优化之百度百科
  10. 爬取正方教务管理系统获取学生信息