每天一点点,记录学习每一步

近期爬虫项目:

1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载

2:python爬虫爬取百度贴吧图片,requests方法

3:python 爬虫爬取百度贴吧图片 urllib.request.urlretrieve图片批量下载函数

python爬取猫眼电影top100榜数据
目标url = 猫眼电影top100榜网址

1:确定抓取的数据字段:排名,海报,电影名字,主演,上映时间,评分;

2:分析页面html标签结构,找到数据所在位置;
1:)排名所在html标签结构中的位置:

index = html.xpath('//dd/i/text()')


2:)海报所在html标签结构中的位置:

这样找到的海报图片是错误哒~~~~~正确的海报图片所在位置:
页面空白处,右键,查看网页源代码,ctrl + f 查找img ,可以看到有两个img信息,分别打开可以看到,第一个img是错误的,第二个img才是真正的海报信息

img = html.xpath('//a/img[@class="board-img"]/@data-src')


3:)电影名字,主演,上映时间所在html标签结构中的位置:

movie = html.xpath('//p[@class="name"]/a/title') #电影名字
yname = html.xpath('//p[@class="star"]/text()') #主演名字,需要去掉空格,换行符
stime = html.xpath('//p[class="releasetime"]/text()') #上映时间


4:)评分所在html标签结构中的位置:

    score1 = html.xpath('//p[@class="score"]/i[1]/text()') #评分分两部分,需要分别取出并相加score2 = html.xpath('//p[@class="score"]/i[2]/text()')

python爬取猫眼电影数据相关推荐

  1. Python爬取猫眼电影数据并对其进行数据可视化

    前言 如果大家经常阅读Python爬虫相关的公众号,都会是以爬虫+数据分析的形式展现的,这样很有趣,图表也很不错,今天了,我就来分享上一次在培训中的一个作品:猫眼电影爬虫及分析. 爬虫分析 这里是获取 ...

  2. python战反爬虫:爬取猫眼电影数据 (一)(Requests, BeautifulSoup, MySQLdb,re等库)

    姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本篇文章未涉及猫眼反爬,主要介绍爬取无反爬内容,战反爬内容请去 python战反爬虫:爬取猫眼电影数据 (二)(Requests, Be ...

  3. python战反爬虫:爬取猫眼电影数据 (二)(Requests, BeautifulSoup, MySQLdb,re等库)

    姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本文主要介绍破解反爬,可以先去上一篇观看爬取无反爬内容 python战反爬虫:爬取猫眼电影数据 (一)(Requests, Beauti ...

  4. python战反爬虫:爬取猫眼电影数据 (一)

    非常荣幸邀请到 赛迪人工智能大赛(简称AI世青赛)全球总决赛银奖的获得者 隋顺意 小朋友为本公众号投稿,隋小朋友虽然小小年纪,但编程能力已经比大多数大学生强非常多了,欢迎大家关注,捧场. 姓名:隋顺意 ...

  5. (伪)Python爬取猫眼电影(反反爬虫过程中遇到的坑)

    Python爬取猫眼电影 1.打开一个猫眼电影的URL,例如本月的较火的电影<毒液:致命守护者>http://maoyan.com/films/42964 直接F12,查看审核元素,发现上 ...

  6. python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》

    前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...

  7. 利用python爬取猫眼电影,分析《大侦探皮卡丘》|凹凸数读

    利用python爬取猫眼电影,分析<大侦探皮卡丘>,看看当皮卡丘长出绒毛,"丑拒"还是"真香"都在猫眼短评里了. 本文首发于微信公众号<凹凸数 ...

  8. Python爬取猫眼电影TOP100榜

    Python爬取猫眼电影TOP100榜 兴趣点: 这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈! 爬取网址: 传送门:https://m ...

  9. python爬取猫眼电影

    爬取猫眼电影排名前一百的电影 验证问题不知道怎么解决,隔段时间要重新输一次链接' # -*- coding: utf-8 -*- """ Created on Wed D ...

最新文章

  1. 一脸懵逼学习基于CentOs的Hadoop集群安装与配置(三台机器跑集群)
  2. 在操作系统重启后恢复应用程序的工作状态
  3. 最新2019 蚂蚁金服4面(Java)面试题
  4. wegame一键蹲替换文件_如何在ps里批量替换姓名、编号等内容(变量和图像处理器)...
  5. 计算机保护地阻值,机房接地系统的一般接地电阻要小于多少欧姆?
  6. golang - strings
  7. clickhouse原理解析与应用实践 pdf_阿里专家分享内部绝密RocketMQ核心原理与最佳实践PDF...
  8. php 时间 拼接,PHP关于时间的时段的重合、 整合的方法
  9. 2021年上半年软考真题网络工程师真题及答案解析
  10. 日志文件的格式和内容,日志文件的作用,登记日志文件的规则
  11. 大数据具体是干什么的
  12. google搜索自己博客文章小记
  13. 抖音小程序怎么注册?一文看懂抖音小程序注册开发流程
  14. CCS使用教程07:曲线图形显示工具
  15. [Python Tips] 从list中选择”除某个特定元素之外“的值
  16. Jackson的使用与创建Jackson工具类
  17. 数字证书抓包安装证书原理
  18. eNSP配置基于VRRP的负载均衡出口链路
  19. 超声波HC-SR04
  20. 回溯 剪枝 之跳马问题

热门文章

  1. android增量编译,GitHub - brok1n/androidBsdiffUpdate: Android增量更新项目源代码。带C源程序以及ndk编译好的so包。可以直接导出使用。...
  2. 视频数据集下载及处理
  3. Eslint 从入门到放弃
  4. 微信小程序 - text 标签头部有空白间距
  5. 大学计算机算法程序框图,2019高考真题:算法与程序框图,专题解析
  6. WINRAR -- CRC校验失败,文件被破坏
  7. 大数据技术-Kerberos学习笔记
  8. 近期修改cython文件问题汇总
  9. vbs服务器bat文件,自动以管理员身份运行批处理bat文件(vbs与bat两种方法)
  10. 计算机房维护登记表,机房运维值班记录表.doc