使用xpath爬取校花网

难点:
1.各个分类栏目下的页码url不统一
2.只取前三页,或者后三页

文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒。
所以就…哈哈…
移植到scrapy需要略微修改下。还可以获取校花名称和图片url。

废话不多说,上代码,代码注释很多,欢迎留言交流~
from lxml import etree
import requestsurl = 'http://www.521609.com/daxuexiaohua/'
headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}# 第一次获取初始url的网页内容
response = requests.get(url=url, headers=headers)
content = response.content.decode('gbk')
# 创建xpath对象
mytree = etree.HTML(content)
# 网页里取出各个了栏目分类列表,第一个分类和最后一个分类无用,切片去掉
item_li = mytree.xpath('//ul[@class="nav_content"]/li')[1:-1]# 遍历循环栏目分类列表
for li in item_li:item_url = li.xpath('./a/@href')[0]  # 取出栏目分类后半段链接item_url = 'http://www.521609.com' + item_url  # 链接拼接,得到完整栏目urlitem_name = li.xpath('./a/span/text()')[0]  # 栏目分类名称print(item_url)  # 每个分类第一页的url# 第二次获取栏目分类url的网页内容response2 = requests.get(url=item_url, headers=headers)content2 = response2.content.decode('gbk')mytree2 = etree.HTML(content2)# 获取栏目网页里面下一页的后半段urlnext_page = mytree2.xpath('//div[@class="listpage"]/ol/li/a[contains(text(),"下一页")]/@href')[0]next_page = item_url + next_page  # 通过栏目url和下一页的后半段url拼接,得到完整的下一页urlprint(next_page)  # 每个分类第二页的url# 循环获取后面的网页for i in range(5):# 因为有些分类栏目里页码很少,防止报错# 所以做了异常捕获try:# 第三次获取栏目分类url的网页内容,和第二次类似,主要是写进了循环response3 = requests.get(url=next_page, headers=headers)content3 = response3.content.decode('gbk')mytree3 = etree.HTML(content3)next_page = mytree3.xpath('//div[@class="listpage"]/ol/li/a[contains(text(),"下一页")]/@href')[0]next_page = item_url + next_pageprint(next_page)  # 每个分类第二页后的url# 抛出异常except:print(f'此分类没有第{i + 3}页,报错了')

使用Xpath爬取校花网,致敬10年前的校花『和』我们逝去的青春相关推荐

  1. python爬虫——使用requests库和xpath爬取猎聘网职位详情

    文章目录 前言 一.页面分析 1.职位列表页面分析 2.职位详情页面URL获取 3.职位详情页面分析 至此,所有页面解析完毕,开始写代码. 二.代码编写 1.导入相应库 2.设置代理和随机请求头 3. ...

  2. 数据采集(四):用XPath爬取链家网房价数据

    准备工作 编写爬虫前的准备工作,我们需要导入用到的库,这里主要使用的是requests和lxml两个.还有一个Time库,负责设置每次抓取的休息时间. import requests import r ...

  3. 爬虫学习(10):xpath爬取包图网高清模板视频

    暂时我就没有发xpath基础知识了,编辑太浪费时间了,需要了解或者有问题的可以加我群问我就好了,我也正在努力学习中,不废话了,上代码,解释都在注释. 先看效果: 开始的时候下载的还不是那么高清,后来我 ...

  4. xpath爬取当当网

    xpath爬取当当网 import requests from lxml import etree #from itertools import chain #import json # 利用接口读取 ...

  5. [ Python ] 爬虫类库学习之 xpath,爬取彼岸图网的 小姐姐 图片

    安装:pip install lxml 实例化一个etree对象 from lxml import etree 1.将本地的html文档中的源码数据加载到etree对象中 etree.parse(fi ...

  6. 【Python从零到壹】使用XPath解析数据爬取起点小说网数据

    我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析 文章目录 1. xpath 的介绍 优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网 在浏览器中获取 ...

  7. xpath爬取我爱我家杭州地区租房网

    xpath爬取我爱我家杭州地区租房网 分析房源信息列表页 网页的请求属于get,然后找我们需要的信息所在的模块 可以看见我们需要的网页数据在doc模块中,找到这个模块,分析他的请求,在requests ...

  8. 爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求...

    6.21自我总结 一.爬取斗图网 1.摘要 使用xpath匹配规则查找对应信息文件将请求伪装成浏览器Referer 防跨域请求 2.爬取代码 #导入模块 import requests#爬取网址 ur ...

  9. python爬取二手房信息_刚刚接触PythonR?教你爬取分析赶集网北京二手房数据(附详细代码)...

    原标题:刚刚接触Python&R?教你爬取分析赶集网北京二手房数据(附详细代码) 源 /数据森麟文 /徐涛 前言: 本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的 ...

最新文章

  1. 计算机网络Rip例题,计算机网络技术习题
  2. 一次无线网络故障排除过程
  3. c语言中结构体的用法
  4. springboot-整合freemarker
  5. android 获取文件夹下的所有文件
  6. 【技术贴】安装sql server 2005后不能连接服务器,没有studio express以及安
  7. 设计模式:观察者模式 ——— 城管来了,摊主快跑
  8. Linux进程间通信之管道(pipe)、命名管道(FIFO)与信号(Signal)
  9. 祝贺 Java 走过创新的 25 年
  10. Neutron Vlan Network 原理- 每天5分钟玩转 OpenStack(92)
  11. 2013年阿里巴巴实习生笔试题
  12. matlab标注图例位置,MATLAB中标注图例
  13. 智能AI源码机器人电销机器人智能电话机器人拨号机器人语音机器人
  14. ArcGIS使用模型构建器批量剪裁影像
  15. 云计算计算机二级,全国计算机等级考试二级MS+Office高级应用真题题库2+2020年3月-20210613095444.pdf-原创力文档...
  16. js实现缓慢回到页面顶部
  17. 指数基金投资指南读书笔记
  18. 练手项目|Node.js实战——轻松实现听歌识曲
  19. P1039 [NOIP2003 提高组] 侦探推理
  20. Html批量统一给汉字注音,HTML5:给汉字加拼音?让我秀给你看

热门文章

  1. android bitmap内存大小,Android——Bitmap占用的内存大小
  2. 定时清理mysql表数据
  3. VLC电脑串流视频到手机播放
  4. ThinkPadT550加装ssd
  5. php手机浏览器获取经纬度,H5移动端调用浏览器Geolocation方法获取手机gps经纬度方法...
  6. MIT-BIH数据库PSG信号提取(含EEG)
  7. 第十四届蓝桥杯三月真题刷题训练——第 27 天
  8. String.intern() 的详细理解
  9. Charles抓包神器
  10. Spark 运行架构与原理