一、前言

前两篇博客讲解了爬虫解析网页数据的两种常用方法,re正则表达解析和beautifulsoup标签解析,所以今天的博客将围绕另外一种数据解析方法,它就是xpath模块解析,话不多说,进入内容:

一、简介

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

xpath是最常用且最便捷高效的一种解析方式,通用型强,其不仅可以用于python语言中,还可以用于其他语言中,数据解析建议首先xpath。

二、安装

pip3 install lxml

三、使用

1、导入

from lxml import etree

2、基本使用

实例化一个etree的对象,且需要将被解析的页面源代码数据加载到该对象中

调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获

from lxml import etree
tree = etree.parse('./tree.html')  #从本地加载源码,实例化一个etree对象。必须是本地的文件,不能是字符串
tree = etree.HTML(源码)           #从互联网加载源码,实例化etree对象
#  / 表示从从根节点开始,一个 / 表示一个层级,//表示多个层级
r = tree.xpath('//div//a')       #以列表的形式返回div下的所有的a标签对象的地址
r = tree.xpath('//div//a')[1]    #返回div下的第二个a标签对象地址
r = tree.xpath('//div[@class="tang"]')   #以列表的形式返回tang标签地址
r = tree.xpath('//div[@class="tang"]//a') #以列表的形式返回tang标签下所有的a标签地址
#获取标签中的文本内容
r = tree.xpath('//div[@class="tang"]//a/text()') #以列表的形式返回所有a标签中的文本
#获取标签中属性值
r = tree.xpath('//div//a/@href')   ##以列表的形式返回所有a标签中href属性值

3、基本使用

from lxml import etreewb_data = """<div><ul><li><a href="link1.html">first item</a></li><li><a href="link2.html">second item</a></li><li><a href="link3.html">third item</a></li><li><a href="link4.html">fourth item</a></li><li><a href="link5.html">fifth item</a></ul></div>"""
html = etree.HTML(wb_data)
print(html)
result = etree.tostring(html)
print(result.decode("utf-8"))

从下面的结果来看,我们打印机html其实就是一个python对象,etree.tostring(html)则是补全html的基本写法,补全了缺胳膊少腿的标签。

<Element html at 0x39e58f0>
<html><body><div><ul><li><a href="link1.html">first item</a></li><li><a href="link2.html">second item</a></li><li><a href="link3.html">third item</a></li><li><a href="link4.html">fourth item</a></li><li><a href="link5.html">fifth item</a></li></ul></div></body></html>

3、获取某个标签的内容(基本使用),注意,获取a标签的所有内容,a后面就不用再加正斜杠,否则报错。

写法一

html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a')
print(html)
for i in html_data:print(i.text)# 打印结果如下:
<Element html at 0x12fe4b8>
first item
second item
third item
fourth item
fifth item

写法二(直接在需要查找内容的标签后面加一个/text()就行)

html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/text()')
print(html)
for i in html_data:print(i)# 打印结果如下:
<Element html at 0x138e4b8>
first item
second item
third item
fourth item
fifth item

4、打开读取html文件

#使用parse打开html的文件
html = etree.parse('test.html')
html_data = html.xpath('//*')<br>#打印是一个列表,需要遍历
print(html_data)
for i in html_data:print(i.text)
html = etree.parse('test.html')
html_data = etree.tostring(html,pretty_print=True)
res = html_data.decode('utf-8')
print(res)打印:
<div><ul><li><a href="link1.html">first item</a></li><li><a href="link2.html">second item</a></li><li><a href="link3.html">third item</a></li><li><a href="link4.html">fourth item</a></li><li><a href="link5.html">fifth item</a></li></ul>
</div>

5、打印指定路径下a标签的属性(可以通过遍历拿到某个属性的值,查找标签的内容)

html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/@href')
for i in html_data:print(i)打印:
link1.html
link2.html
link3.html
link4.html
link5.html

6、我们知道我们使用xpath拿到得都是一个个的ElementTree对象,所以如果需要查找内容的话,还需要遍历拿到数据的列表。

查到绝对路径下a标签属性等于link2.html的内容。

html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()')
print(html_data)
for i in html_data:print(i)打印:
['second item']
second item

7、上面我们找到全部都是绝对路径(每一个都是从根开始查找),下面我们查找相对路径,例如,查找所有li标签下的a标签内容。

html = etree.HTML(wb_data)
html_data = html.xpath('//li/a/text()')
print(html_data)
for i in html_data:print(i)打印:
['first item', 'second item', 'third item', 'fourth item', 'fifth item']
first item
second item
third item
fourth item
fifth item

8、上面我们使用绝对路径,查找了所有a标签的属性等于href属性值,利用的是/—绝对路径,下面我们使用相对路径,查找一下l相对路径下li标签下的a标签下的href属性的值,注意,a标签后面需要双//。

html = etree.HTML(wb_data)
html_data = html.xpath('//li/a//@href')
print(html_data)
for i in html_data:print(i)打印:
['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']
link1.html
link2.html
link3.html
link4.html
link5.html

9、相对路径下跟绝对路径下查特定属性的方法类似,也可以说相同。

html = etree.HTML(wb_data)
html_data = html.xpath('//li/a[@href="link2.html"]')
print(html_data)
for i in html_data:print(i.text)打印:
[<Element a at 0x216e468>]
second item

10、查找最后一个li标签里的a标签的href属性

html = etree.HTML(wb_data)
html_data = html.xpath('//li[last()]/a/text()')
print(html_data)
for i in html_data:print(i)打印:
['fifth item']
fifth item

11、查找倒数第二个li标签里的a标签的href属性

html = etree.HTML(wb_data)
html_data = html.xpath('//li[last()-1]/a/text()')
print(html_data)
for i in html_data:print(i)打印:
['fourth item']
fourth item

四、案例

案例1:获取58商城房价单位:

import requests
from lxml import etree
url = "https://bj.58.com/ershoufang/p1/"
headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Mobile Safari/537.36'
}
pag_response = requests.get(url,headers=headers,timeout=3).text
#实例化一个etree对象
tree = etree.HTML(pag_response)
r = tree.xpath('//span[@class="content-title"]/text()') #获取所有//span标签为"content-title"的文本内容,列表形式
with open("58房价.txt",mode="w",encoding="utf-8") as fp:for r_list in r:fp.writelines(str(r_list))print(r_list)

案例2:获取豆瓣top榜电影信息(这个是老生常谈的话题了)

import re
from time import sleep
import requests
from lxml import etree
import random
import csvdef main(page,f):url = f'https://movie.douban.com/top250?start={page*25}&filter='headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.35 Safari/537.36',}resp = requests.get(url,headers=headers)tree = etree.HTML(resp.text)# 获取详情页的链接列表href_list = tree.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[1]/a/@href')# 获取电影名称列表name_list = tree.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')for url,name in zip(href_list,name_list):f.flush()  # 刷新文件try:get_info(url,name)  # 获取详情页的信息except:passsleep(1 + random.random())  # 休息print(f'第{i+1}页爬取完毕')def get_info(url,name):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.35 Safari/537.36','Host': 'movie.douban.com',}resp = requests.get(url,headers=headers)html = resp.texttree = etree.HTML(html)# 导演dir = tree.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')[0]# 电影类型type_ = re.findall(r'property="v:genre">(.*?)</span>',html)type_ = '/'.join(type_)# 国家country = re.findall(r'地区:</span> (.*?)<br',html)[0]# 上映时间time = tree.xpath('//*[@id="content"]/h1/span[2]/text()')[0]time = time[1:5]# 评分rate = tree.xpath('//*[@id="interest_sectl"]/div[1]/div[2]/strong/text()')[0]# 评论人数people = tree.xpath('//*[@id="interest_sectl"]/div[1]/div[2]/div/div[2]/a/span/text()')[0]print(name,dir,type_,country,time,rate,people)  # 打印结果csvwriter.writerow((name,dir,type_,country,time,rate,people))  # 保存到文件中if __name__ == '__main__':# 创建文件用于保存数据with open('03-movie-xpath.csv','a',encoding='utf-8',newline='')as f:csvwriter = csv.writer(f)# 写入表头标题csvwriter.writerow(('电影名称','导演','电影类型','国家','上映年份','评分','评论人数'))for i in range(10):  # 爬取10页main(i,f)  # 调用主函数sleep(3 + random.random())

python爬虫--xpath模块简介相关推荐

  1. Python爬虫——XPath的使用

    Python爬虫--XPath的使用 使用实例一:获取需要的文字 1.导入需要使用的模块 import urllib.request from lxml import etree 2.发送请求访问网站 ...

  2. 数据采集与清洗基础习题(二)Python爬虫常用模块,头歌参考答案

    数据采集习题参考答案,会持续更新,点个关注防丢失.为了方便查找,已按照头歌重新排版,朋友们按照头歌所属门类查找实训哦,该篇为Python爬虫常用模块. 创作不易,一键三连给博主一个支持呗. 文章目录 ...

  3. Python爬虫---requests模块的基本使用

    Python爬虫-requests模块的基本使用 基础 什么是爬虫? 就是通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程. 爬虫的分类 通用爬虫 抓取互联网中的一整张页面数据 聚焦爬虫 ...

  4. Python 爬虫 xpath 数据解析基本用法

    Python 爬虫 xpath 数据解析基本用法 1. 基本语法 1.1 解析 html 语法 1.2 获取标签 1.3 获取标签中的内容 1.4 获取标签中的属性 1.5 通过内容寻找结点 2. 实 ...

  5. python :codecs模块简介

    python :codecs模块简介 python对多国语言的处理是支持的很好的,它可以处理现在任意编码的字符,这里深入的研究一下python对多种不同语言的处理. 有一点需要清楚的是,当python ...

  6. Python - 爬虫 - Xpath定位之starts-with()和string()函数的简单使用

    Python - 爬虫 - Xpath定位之starts-with()和string()函数的简单使用 文章目录 Python - 爬虫 - Xpath定位之starts-with()和string( ...

  7. python爬虫urllib模块详解

    1.urllib模块简介 python2有urllib和urllib2两种模块,都用来实现网络请求的发送.python3将urllib和urllib2模块整合并命名为urllib模块.urllib模块 ...

  8. python爬虫xpath的语法

    有朋友问我正则,,okey,其实我的正则也不好,但是python下xpath是相对较简单的 简单了解一下xpath: XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML ...

  9. Python爬虫底层知识简介 - AI小白进阶之路

    目录 一.通讯协议 1.1 端口 1.2 通讯协议 二.网络模型 2.1 网络模型结构 2.2 HTTPS是什么 2.3 SSL怎么理解 三.爬虫介绍 3.1 什么是爬虫 3.2 为什么要爬虫 3.3 ...

最新文章

  1. tomcat 不支持put 高版本_「MG6_DCT280」湿式七档双离合版本-性价比并不高
  2. ios 防止按钮快速点击造成多次响应的避免方法。
  3. dw怎么打开html模板,Dreamweaver中如何使用模板
  4. 汇编语言调用c语言ads,ADS1.2 在汇编代码中调用C函数
  5. CSS——FC(BFC/IFC/FFC/GFC)超详细版+原理案例分析
  6. CentOS安装docker图解(下载、卸载、安装、启动、检测、设置开机自启动)
  7. Vue整合nginx:(1)开发环境npm run dev下,通过nginx解决前后端分离造成的跨域问题
  8. paip.网站上传服务里需要做的操作流程
  9. 如何将PDF每2页合并成横版的一页
  10. PLSQL 的安装与简单使用
  11. Spyder无法启动
  12. 萨缪尔·莫尔斯:电报之父的传奇人生
  13. python迅雷远程下载页面_迅雷远程下载
  14. 从零搭建KVM虚拟服务器
  15. Go和Rust计算性能大比武
  16. 现货黄金的优越性是什么?
  17. C语言进阶 之 字符串函数(4)
  18. 数据采集时总提示未登录_做电商必须学会这一招!教你用爬虫工具免费采集网易考拉商品数据...
  19. JS 判断浏览器客户端类型(ipad,iphone,android)
  20. WampServer修改MySQL密码

热门文章

  1. 第十四章 讲解如何去除和锁定网络验证暗装
  2. 虚拟主机或者网站服务器,网站服务器空间(也称:虚拟主机,或者云主机)
  3. OLED屏幕寿命和烧屏问题
  4. u-boot移植到mini2440,u-boot版本2008.10
  5. 同性社交软件Blued整改:暂停注册,对未成年人禁用
  6. Solta冲刺美股:靠热玛吉9个月赚2亿美元 林心如代言
  7. 触摸屏控制智能家居开关灯
  8. 在 ZBrush 和 Maya 中创建 Chris Hemsworth 的 3D 肖像
  9. 我想要的智能电视一键播放体验
  10. HTML5期末大作业:电影介绍类型网站设计——《盗梦空间》8页 HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕业设计源码