使用Xpath爬取校花网，致敬10年前的校花『和』我们逝去的青春

使用xpath爬取校花网

难点：

1.各个分类栏目下的页码url不统一

2.只取前三页,或者后三页

文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒。
所以就…哈哈…
移植到scrapy需要略微修改下。还可以获取校花名称和图片url。

废话不多说，上代码，代码注释很多，欢迎留言交流~

from lxml import etree
import requestsurl = 'http://www.521609.com/daxuexiaohua/'
headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}# 第一次获取初始url的网页内容
response = requests.get(url=url, headers=headers)
content = response.content.decode('gbk')
# 创建xpath对象
mytree = etree.HTML(content)
# 网页里取出各个了栏目分类列表,第一个分类和最后一个分类无用,切片去掉
item_li = mytree.xpath('//ul[@class="nav_content"]/li')[1:-1]# 遍历循环栏目分类列表
for li in item_li:item_url = li.xpath('./a/@href')[0]  # 取出栏目分类后半段链接item_url = 'http://www.521609.com' + item_url  # 链接拼接,得到完整栏目urlitem_name = li.xpath('./a/span/text()')[0]  # 栏目分类名称print(item_url)  # 每个分类第一页的url# 第二次获取栏目分类url的网页内容response2 = requests.get(url=item_url, headers=headers)content2 = response2.content.decode('gbk')mytree2 = etree.HTML(content2)# 获取栏目网页里面下一页的后半段urlnext_page = mytree2.xpath('//div[@class="listpage"]/ol/li/a[contains(text(),"下一页")]/@href')[0]next_page = item_url + next_page  # 通过栏目url和下一页的后半段url拼接,得到完整的下一页urlprint(next_page)  # 每个分类第二页的url# 循环获取后面的网页for i in range(5):# 因为有些分类栏目里页码很少,防止报错# 所以做了异常捕获try:# 第三次获取栏目分类url的网页内容,和第二次类似,主要是写进了循环response3 = requests.get(url=next_page, headers=headers)content3 = response3.content.decode('gbk')mytree3 = etree.HTML(content3)next_page = mytree3.xpath('//div[@class="listpage"]/ol/li/a[contains(text(),"下一页")]/@href')[0]next_page = item_url + next_pageprint(next_page)  # 每个分类第二页后的url# 抛出异常except:print(f'此分类没有第{i + 3}页,报错了')

使用Xpath爬取校花网，致敬10年前的校花『和』我们逝去的青春相关推荐

python爬虫——使用requests库和xpath爬取猎聘网职位详情
文章目录前言一.页面分析 1.职位列表页面分析 2.职位详情页面URL获取 3.职位详情页面分析至此,所有页面解析完毕,开始写代码. 二.代码编写 1.导入相应库 2.设置代理和随机请求头 3. ...
数据采集（四）：用XPath爬取链家网房价数据
准备工作编写爬虫前的准备工作,我们需要导入用到的库,这里主要使用的是requests和lxml两个.还有一个Time库,负责设置每次抓取的休息时间. import requests import r ...
爬虫学习（10）：xpath爬取包图网高清模板视频
暂时我就没有发xpath基础知识了,编辑太浪费时间了,需要了解或者有问题的可以加我群问我就好了,我也正在努力学习中,不废话了,上代码,解释都在注释. 先看效果: 开始的时候下载的还不是那么高清,后来我 ...
xpath爬取当当网
xpath爬取当当网 import requests from lxml import etree #from itertools import chain #import json # 利用接口读取 ...
[ Python ] 爬虫类库学习之 xpath，爬取彼岸图网的小姐姐图片
安装:pip install lxml 实例化一个etree对象 from lxml import etree 1.将本地的html文档中的源码数据加载到etree对象中 etree.parse(fi ...
【Python从零到壹】使用XPath解析数据爬取起点小说网数据
我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析文章目录 1. xpath 的介绍优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网在浏览器中获取 ...
xpath爬取我爱我家杭州地区租房网
xpath爬取我爱我家杭州地区租房网分析房源信息列表页网页的请求属于get,然后找我们需要的信息所在的模块可以看见我们需要的网页数据在doc模块中,找到这个模块,分析他的请求,在requests ...
爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求...
6.21自我总结一.爬取斗图网 1.摘要使用xpath匹配规则查找对应信息文件将请求伪装成浏览器Referer 防跨域请求 2.爬取代码 #导入模块 import requests#爬取网址 ur ...
python爬取二手房信息_刚刚接触PythonR？教你爬取分析赶集网北京二手房数据（附详细代码）...
原标题:刚刚接触Python&R?教你爬取分析赶集网北京二手房数据(附详细代码) 源 /数据森麟文 /徐涛前言: 本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的 ...

使用Xpath爬取校花网，致敬10年前的校花『和』我们逝去的青春

使用xpath爬取校花网

难点：

1.各个分类栏目下的页码url不统一

2.只取前三页,或者后三页

废话不多说，上代码，代码注释很多，欢迎留言交流~

使用Xpath爬取校花网，致敬10年前的校花『和』我们逝去的青春相关推荐

最新文章

热门文章