python爬取猫眼电影数据
每天一点点,记录学习每一步
近期爬虫项目:
1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载
2:python爬虫爬取百度贴吧图片,requests方法
3:python 爬虫爬取百度贴吧图片 urllib.request.urlretrieve图片批量下载函数
python爬取猫眼电影top100榜数据
目标url = 猫眼电影top100榜网址
1:确定抓取的数据字段:排名,海报,电影名字,主演,上映时间,评分;
2:分析页面html标签结构,找到数据所在位置;
1:)排名所在html标签结构中的位置:
index = html.xpath('//dd/i/text()')
2:)海报所在html标签结构中的位置:
这样找到的海报图片是错误哒~~~~~正确的海报图片所在位置:
页面空白处,右键,查看网页源代码,ctrl + f 查找img ,可以看到有两个img信息,分别打开可以看到,第一个img是错误的,第二个img才是真正的海报信息
img = html.xpath('//a/img[@class="board-img"]/@data-src')
3:)电影名字,主演,上映时间所在html标签结构中的位置:
movie = html.xpath('//p[@class="name"]/a/title') #电影名字
yname = html.xpath('//p[@class="star"]/text()') #主演名字,需要去掉空格,换行符
stime = html.xpath('//p[class="releasetime"]/text()') #上映时间
4:)评分所在html标签结构中的位置:
score1 = html.xpath('//p[@class="score"]/i[1]/text()') #评分分两部分,需要分别取出并相加score2 = html.xpath('//p[@class="score"]/i[2]/text()')
python爬取猫眼电影数据相关推荐
- Python爬取猫眼电影数据并对其进行数据可视化
前言 如果大家经常阅读Python爬虫相关的公众号,都会是以爬虫+数据分析的形式展现的,这样很有趣,图表也很不错,今天了,我就来分享上一次在培训中的一个作品:猫眼电影爬虫及分析. 爬虫分析 这里是获取 ...
- python战反爬虫:爬取猫眼电影数据 (一)(Requests, BeautifulSoup, MySQLdb,re等库)
姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本篇文章未涉及猫眼反爬,主要介绍爬取无反爬内容,战反爬内容请去 python战反爬虫:爬取猫眼电影数据 (二)(Requests, Be ...
- python战反爬虫:爬取猫眼电影数据 (二)(Requests, BeautifulSoup, MySQLdb,re等库)
姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本文主要介绍破解反爬,可以先去上一篇观看爬取无反爬内容 python战反爬虫:爬取猫眼电影数据 (一)(Requests, Beauti ...
- python战反爬虫:爬取猫眼电影数据 (一)
非常荣幸邀请到 赛迪人工智能大赛(简称AI世青赛)全球总决赛银奖的获得者 隋顺意 小朋友为本公众号投稿,隋小朋友虽然小小年纪,但编程能力已经比大多数大学生强非常多了,欢迎大家关注,捧场. 姓名:隋顺意 ...
- (伪)Python爬取猫眼电影(反反爬虫过程中遇到的坑)
Python爬取猫眼电影 1.打开一个猫眼电影的URL,例如本月的较火的电影<毒液:致命守护者>http://maoyan.com/films/42964 直接F12,查看审核元素,发现上 ...
- python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》
前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...
- 利用python爬取猫眼电影,分析《大侦探皮卡丘》|凹凸数读
利用python爬取猫眼电影,分析<大侦探皮卡丘>,看看当皮卡丘长出绒毛,"丑拒"还是"真香"都在猫眼短评里了. 本文首发于微信公众号<凹凸数 ...
- Python爬取猫眼电影TOP100榜
Python爬取猫眼电影TOP100榜 兴趣点: 这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈! 爬取网址: 传送门:https://m ...
- python爬取猫眼电影
爬取猫眼电影排名前一百的电影 验证问题不知道怎么解决,隔段时间要重新输一次链接' # -*- coding: utf-8 -*- """ Created on Wed D ...
最新文章
- 一脸懵逼学习基于CentOs的Hadoop集群安装与配置(三台机器跑集群)
- 在操作系统重启后恢复应用程序的工作状态
- 最新2019 蚂蚁金服4面(Java)面试题
- wegame一键蹲替换文件_如何在ps里批量替换姓名、编号等内容(变量和图像处理器)...
- 计算机保护地阻值,机房接地系统的一般接地电阻要小于多少欧姆?
- golang - strings
- clickhouse原理解析与应用实践 pdf_阿里专家分享内部绝密RocketMQ核心原理与最佳实践PDF...
- php 时间 拼接,PHP关于时间的时段的重合、 整合的方法
- 2021年上半年软考真题网络工程师真题及答案解析
- 日志文件的格式和内容,日志文件的作用,登记日志文件的规则
- 大数据具体是干什么的
- google搜索自己博客文章小记
- 抖音小程序怎么注册?一文看懂抖音小程序注册开发流程
- CCS使用教程07:曲线图形显示工具
- [Python Tips] 从list中选择”除某个特定元素之外“的值
- Jackson的使用与创建Jackson工具类
- 数字证书抓包安装证书原理
- eNSP配置基于VRRP的负载均衡出口链路
- 超声波HC-SR04
- 回溯 剪枝 之跳马问题
热门文章
- android增量编译,GitHub - brok1n/androidBsdiffUpdate: Android增量更新项目源代码。带C源程序以及ndk编译好的so包。可以直接导出使用。...
- 视频数据集下载及处理
- Eslint 从入门到放弃
- 微信小程序 - text 标签头部有空白间距
- 大学计算机算法程序框图,2019高考真题:算法与程序框图,专题解析
- WINRAR -- CRC校验失败,文件被破坏
- 大数据技术-Kerberos学习笔记
- 近期修改cython文件问题汇总
- vbs服务器bat文件,自动以管理员身份运行批处理bat文件(vbs与bat两种方法)
- 计算机房维护登记表,机房运维值班记录表.doc