四个Python爬虫案例，带你掌握xpath数据解析方法！

大家好，我是辰哥

文章目录

xpath基本概念
xpath解析原理
环境安装
如何实例化一个etree对象：
xpath(‘xpath表达式’)
xpath爬取58二手房实例
爬取网址
完整代码
效果图
xpath图片解析下载实例
爬取网址
完整代码
效果图
xpath爬取全国城市名称实例
爬取网址
完整代码
效果图
xpath爬取简历模板实例
爬取网址
完整代码
效果图

xpath基本概念

xpath解析：最常用且最便捷高效的一种解析方式。通用性强。

xpath解析原理

1.实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中

2.调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕获。

环境安装

pip install lxml

如何实例化一个etree对象：

from lxml import etree

1.将本地的html文件中的远吗数据加载到etree对象中：

etree.parse(filePath)

2.可以将从互联网上获取的原码数据加载到该对象中：

etree.HTML(‘page_text’)

xpath(‘xpath表达式’)

/:表示的是从根节点开始定位。表示一个层级
//:表示多个层级。可以表示从任意位置开始定位
属性定位：//div[@class='song'] tag[@attrName='attrValue']
索引定位：//div[@class='song']/p[3] 索引从1开始的
取文本：
- /text()获取的是标签中直系的文本内容
- //text()标签中非直系的文本内容（所有文本内容）
取属性：/@attrName ==>img/src

xpath爬取58二手房实例

爬取网址

https://xa.58.com/ershoufang/完整代码

from lxml import etree
import requestsif __name__ == '__main__':headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}url = 'https://xa.58.com/ershoufang/'page_text = requests.get(url=url,headers=headers).texttree = etree.HTML(page_text)div_list = tree.xpath('//section[@class="list"]/div')fp = open('./58同城二手房.txt','w',encoding='utf-8')for div in div_list:title = div.xpath('.//div[@class="property-content-title"]/h3/text()')[0]print(title)fp.write(title+'\n'+'\n')

xpath图片解析下载实例

爬取网址

https://pic.netbian.com/4kmeinv/完整代码

import requests,os
from lxml import etreeif __name__ == '__main__':headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}url = 'https://pic.netbian.com/4kmeinv/'page_text = requests.get(url=url,headers=headers).texttree = etree.HTML(page_text)li_list = tree.xpath('//div[@class="slist"]/ul/li/a')if not os.path.exists('./piclibs'):os.mkdir('./piclibs')for li in li_list:detail_url ='https://pic.netbian.com' + li.xpath('./img/@src')[0]detail_name = li.xpath('./img/@alt')[0]+'.jpg'detail_name = detail_name.encode('iso-8859-1').decode('GBK')detail_path = './piclibs/' + detail_namedetail_data = requests.get(url=detail_url, headers=headers).contentwith open(detail_path,'wb') as fp:fp.write(detail_data)print(detail_name,'seccess!!')

xpath爬取全国城市名称实例

爬取网址

https://www.aqistudy.cn/historydata/完整代码

import requests
from lxml import etreeif __name__ == '__main__':url = 'https://www.aqistudy.cn/historydata/'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36',}page_text = requests.get(url=url,headers=headers).content.decode('utf-8')tree = etree.HTML(page_text)#热门城市   //div[@class="bottom"]/ul/li#全部城市   //div[@class="bottom"]/ul/div[2]/lia_list = tree.xpath('//div[@class="bottom"]/ul/li | //div[@class="bottom"]/ul/div[2]/li')fp = open('./citys.txt','w',encoding='utf-8')i = 0for a in a_list:city_name = a.xpath('.//a/text()')[0]fp.write(city_name+'\t')i=i+1if i == 6:i = 0fp.write('\n')print('爬取成功')

xpath爬取简历模板实例

爬取网址

https://sc.chinaz.com/jianli/free.html完整代码

import requests,os
from lxml import etreeif __name__ == '__main__':url = 'https://sc.chinaz.com/jianli/free.html'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36',}page_text = requests.get(url=url,headers=headers).content.decode('utf-8')tree = etree.HTML(page_text)a_list = tree.xpath('//div[@class="box col3 ws_block"]/a')if not os.path.exists('./简历模板'):os.mkdir('./简历模板')for a in a_list:detail_url = 'https:'+a.xpath('./@href')[0]detail_page_text = requests.get(url=detail_url,headers=headers).content.decode('utf-8')detail_tree = etree.HTML(detail_page_text)detail_a_list = detail_tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li[1]/a')for a in detail_a_list:download_name = detail_tree.xpath('//div[@class="ppt_tit clearfix"]/h1/text()')[0]download_url = a.xpath('./@href')[0]download_data = requests.get(url=download_url,headers=headers).contentdownload_path = './简历模板/'+download_name+'.rar'with open(download_path,'wb') as fp:fp.write(download_data)print(download_name,'success!!')

欢迎扫码与我交流朋友圈经常有点赞送书，发红包等活动欢迎来围观
- EOF -
推荐阅读  点击标题可跳转1、三行Python代码，实现数据库和excel之间的导入导出！
2、从各大APP年度报告看用户画像——标签，比你更懂你自己
3、【速度收藏】17条好用的Python技巧分享
4、分享几款超好用的 REST API 工具
5、你见过的最全面的Python重点知识总结觉得本文对你有帮助？请分享给更多人
点赞和在看就是最大的支持❤️

四个Python爬虫案例，带你掌握xpath数据解析方法！相关推荐

一个Python爬虫案例，带你掌握xpath数据解析方法！
文章目录 xpath基本概念 xpath解析原理环境安装如何实例化一个etree对象: xpath('xpath表达式') xpath爬取58二手房实例爬取网址完整代码效果图 xpath图片 ...
Python爬虫案例:结合Matplotlib分析天气数据
目录 1.案例介绍 2.演示 3.代码 1.案例介绍本案例爬取中国气象网的天气数据,并用图表工具分析降水数据. 2.演示 3.代码 # 分析天气数据爬虫案例 import requests,matp ...
python爬虫案例-爬取当当网数据
输入关键字,爬取当当网中商品的基本数据,代码如下: 1 # Author:K 2 import requests 3 from lxml import etree 4 from fake_userag ...
python爬虫简单实例-最简单的Python爬虫案例，看得懂说明你已入门，附赠教程
原标题:最简单的Python爬虫案例,看得懂说明你已入门,附赠教程这是最简单的Python爬虫案例,如果你能看懂,那么请你保持信心,因为你已经入门Python爬虫,只要带着信心和努力,你的技术能力在 ...
python爬虫案例-Python爬虫案例集合
原标题:Python爬虫案例集合 urllib2 urllib2是Python中用来抓取网页的库,urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) 在python2.x里 ...
Python 爬虫案例（二）--附件下载
Python 爬虫案例(二) 此篇文章将爬取的网站是:http://www.warrensburg-mo.com/Bids.aspx (有时候打开不一定会有标书,因为标书实时更新) 类型跟上一篇相似, ...
Python爬虫实战-带你解析不一样的名人名言网站❤️
1.输入网址 https://quotes.toscrape.com/,进入网站首页,观察网页的结构,我们发现网页的内容很清晰. 主要分为:名人名言,作者,标签三个主要字段,同时三个字段的内容为本次提 ...
python爬虫案例-Python爬取租房数据实例，据说可以入门爬虫的小案例！
一.什么叫爬虫爬虫,又名"网络爬虫",就是能够自动访问互联网并将网站内容下载下来的程序.它也是搜索引擎的基础,像百度和GOOGLE都是凭借强大的网络爬虫,来检索海量的互联网信息的 ...
python爬虫案例——百度贴吧数据采集
全栈工程师开发手册 (作者:栾鹏) python教程全解 python爬虫案例--百度贴吧数据采集通过python实现百度贴吧页面的内容采集是相对来说比较容易的,因为百度贴吧不需要登陆,不需要coo ...
python爬虫案例——糗事百科数据采集
全栈工程师开发手册 (作者:栾鹏) python教程全解 python爬虫案例--糗事百科数据采集通过python实现糗事百科页面的内容采集是相对来说比较容易的,因为糗事百科不需要登陆,不需要coo ...

四个Python爬虫案例，带你掌握xpath数据解析方法！

四个Python爬虫案例，带你掌握xpath数据解析方法！相关推荐

最新文章

热门文章