原标题:Python的lxml库学习之XPATH语法

预备阅读:

前言

前面已经学习了Python的lxml库,从库的名称来看,lxml包含了xml,所以lxml同样可以解析XML文档,而lxml使用的就是XPATH语法。下面做一下简单介绍。

XPath语法

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和XPointer 都构建于 XPath 表达之上。因此,对 XPath 的理解是很多高级 XML 应用的基础。

在继续学习之前,应该对下面的知识有基本的了解(默认同学们都会了,不知道的同学可以去看一下,很简单的):

HTML / XHTML

XML / XML 命名空间XPath 术语

节点(Node)

在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

基本值(或称原子值,Atomic value)

基本值是无父或无子的节点。

基本值的例子:

J K. Rowling "en"

项目(Item)

项目是基本值或者节点。

节点关系

(1)父(Parent)

每个元素以及属性都有一个父。

在下面的例子中,book 元素是 title、author、year 以及 price 元素的父:

(2)子(Children)

元素节点可有零个、一个或多个子。

在下面的例子中,title、author、year 以及 price 元素都是 book 元素的子:

(3)同胞(Sibling)

拥有相同的父的节点

在下面的例子中,title、author、year 以及 price 元素都是同胞:

Harry Potter

J K. Rowling

2005

29.99

(4)先辈(Ancestor)

某节点的父、父的父,等等。

在下面的例子中,title 元素的先辈是 book 元素和 bookstore 元素:

(5)后代(Descendant)

某个节点的子,子的子,等等。

在下面的例子中,bookstore 的后代是 book、title、author、year 以及 price 元素:

Harry Potter

J K. Rowling

2005

29.99

选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

下面列出了最有用的路径表达式:

表达式

描述

nodename

选取此节点的所有子节点。

/

从根节点选取。

//

从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。

.

选取当前节点。

..

选取当前节点的父节点。

@

选取属性。

实例

在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:

路径表达式

结果

bookstore

选取 bookstore 元素的所有子节点。

/bookstore

选取根元素 bookstore。

注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!

bookstore/book

选取属于 bookstore 的子元素的所有 book 元素。

//book

选取所有 book 子元素,而不管它们在文档中的位置。

bookstore//book

选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。

//@lang

选取名为 lang 的所有属性。

谓语(Predicates)

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

实例

在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:

路径表达式

结果

/bookstore/book[1]

选取属于 bookstore 子元素的第一个 book 元素。

/bookstore/book[last()]

选取属于 bookstore 子元素的最后一个 book 元素。

/bookstore/book[last()-1]

选取属于 bookstore 子元素的倒数第二个 book 元素。

/bookstore/book[position()<3]

选取最前面的两个属于 bookstore 元素的子元素的 book 元素。

//title[@lang]

选取所有拥有名为 lang 的属性的 title 元素。

//title[@lang=’eng’]

选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。

/bookstore/book[price>35.00]

选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。

/bookstore/book[price>35.00]/title

选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。

选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符

描述

*

匹配任何元素节点。

@*

匹配任何属性节点。

node()

匹配任何类型的节点。

实例

在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:

路径表达式

结果

/bookstore/*

选取 bookstore 元素的所有子元素。

//*

选取文档中的所有元素。

//title[@*]

选取所有带有属性的 title 元素。

选取若干路径

通过在路径表达式中使用“|”运算符,您可以选取若干个路径。

实例

在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:

路径表达式

结果

//book/title | //book/price

选取 book 元素的所有 title 和 price 元素。

//title | //price

选取文档中的所有 title 和 price 元素。

/bookstore/book/title | //price

选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。

XPath 运算符

下面列出了可用在 XPath 表达式中的运算符:

运算符

描述

实例

返回值

|

计算两个节点集

//book | //cd

返回所有拥有 book 和 cd 元素的节点集

+

加法

6 + 4

10

减法

6 – 4

2

*

乘法

6 * 4

24

div

除法

8 div 4

2

=

等于

price=9.80

如果 price 是 9.80,则返回 true。

如果 price 是 9.90,则返回 false。

!=

不等于

price!=9.80

如果 price 是 9.90,则返回 true。

如果 price 是 9.80,则返回 false。

<

小于

price<9.80

如果 price 是 9.00,则返回 true。

如果 price 是 9.90,则返回 false。

<=

小于或等于

price<=9.80

如果 price 是 9.00,则返回 true。

如果 price 是 9.90,则返回 false。

>

大于

price>9.80

如果 price 是 9.90,则返回 true。

如果 price 是 9.80,则返回 false。

>=

大于或等于

price>=9.80

如果 price 是 9.90,则返回 true。

如果 price 是 9.70,则返回 false。

or

price=9.80 or price=9.70

如果 price 是 9.80,则返回 true。

如果 price 是 9.50,则返回 false。

and

price>9.00 and price<9.90

如果 price 是 9.80,则返回 true。

如果 price 是 8.50,则返回 false。

mod

计算除法的余数

5 mod 2

1

小结

上面就是XPATH的语法知识了,这用在lxml库里很方便,快速。希望大家能学到对自己有用的知识。

希望通过上面的内容能帮助大家。如果你有什么好的意见,建议,或者有不同的看法,我都希望你留言和我们进行交流、讨论。

如果想快速联系我,欢迎关注微信公众号:AiryData。

欢迎访问原文链接查看更多精彩。返回搜狐,查看更多

责任编辑:

python lxml xpath_Python的lxml库学习之XPATH语法相关推荐

  1. Python爬虫实例--新浪热搜榜[xpath语法]

    Python爬虫实例--新浪热搜榜[xpath语法] 1.基础环境配置: requests-->版本:2.12.4 lxml-->版本:3.7.2 2.网页分析 很容易从html源码中看到 ...

  2. python xlwings 切片_Python xlwings库学习笔记(1)

    Python xlwings库学习笔记(1) Python是最近几年很火的编程语言,被办公自动化的宣传吸引入坑,办公自动化必然绕不开Excel的操作,能操作Excel的库有很多,例如: xlrd xl ...

  3. python海龟怎么隐藏_Turtle库学习--海龟可见性与外观

    turtle.hideturtle() 简:turtle.ht() 使海龟不可见. turtle.hideturtle() turtle.showturtle() 简:turtle.st() 使海龟可 ...

  4. python turtle隐藏画笔_Turtle库学习--画笔控制 绘图状态

    turtle.pendown() 简:turtle.pd() turtle.down() 画笔落下 – 移动时将画线. turtle.penup() 简:turtle.pu() turtle.up() ...

  5. Python爬虫:通过爬取CSDN博客信息,学习lxml库与XPath语法

    目录 lxml库 lxml基本用法 解析XML文件 解析HTML文件 XPath 什么是XPath XPath语法 XPath实战 选取某节点的所有子孙节点 选取某节点的所有子节点 通过属性选取某节点 ...

  6. python xpath语法-XPath语法和lxml模块(数据提取)

    XPath语法和lxml模块 XPath lxml库 1.什么是XPath? XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素 ...

  7. python学习之xpath使用案例总结_xPath 用法总结整理

    最近在研究kafka,看了一堆理论的东西,想动手实践一些东西,奈何手上的数据比较少,突发奇想就打算写个爬虫去抓一些数据来玩,顺便把深入一下爬虫技术. 之前写过一些小爬虫,一般就是用python的req ...

  8. python数据分析复盘——爬虫相关库

    Requests.BeautifulSoup.re.lxml.css selector .scrapy 1.Requests 1.1 Requests的7个主要方法 其中,request()方法是其它 ...

  9. python的xpath用法_python之Xpath语法

    python视频教程栏目介绍python的Xpath语法. 一.XMl简介 (一)什么是 XMLXML 指可扩展标记语言(EXtensible) XML 是一种标记语言,很类似 HTML. XML 的 ...

最新文章

  1. HP1020打印机“传递给系统调用的数据区域太小” 如何处理?
  2. 华为云服务器配置ipv6,华为云获“IPv6支持度优秀奖”,持续助推云网融合
  3. Java 12:使用开关表达式进行映射
  4. 决策树 算法原理及代码
  5. mysql备份时过滤掉某些库 以及 去掉Warning: Using a password on the command line interface can be insecure.提示信息...
  6. linux启动器编辑,linux下建立启动器
  7. Android 学习之补间(Tween)动画
  8. python 角度变弧度_弧度制和角度值怎么转换?
  9. Google 和 bing 都无法替代的10大深网搜索引擎
  10. SpringBoot Elasticsearch工具类封装
  11. apkeditor pro_APK编辑器 APK Editor Pro v1.15.0 + ApkModifier v3.6
  12. linux resolv.conf 重启,Ubuntu关于修改resolv.conf重启失效的问题
  13. 【汇编语言实验一】用机器指令和汇编指令编程(1)
  14. 石头机器人拖地水量调节_用石头扫地机器人扫地拖地是一种什么体验
  15. docker网桥讲解
  16. 数据分析(python系)
  17. License Code of Jigloo序列号、注册码,可能是通用的呵呵
  18. nodeJS+mysql+连接池——连接池的创建和使用
  19. 华为路由器负载均衡_华为路由器配置利用NAT实现TCP负载均衡
  20. 【小月电子】ALTERA FPGA开发板系统学习教程-LESSON12 IPCORE核之FIFO详细教程

热门文章

  1. matlab 插值函数理解
  2. 如何在linux(ubuntu)下安装字体(给wps安装字体)
  3. oracle数据库的字段怎么排序规则,Oracle中文、数字混杂字段的排序
  4. 跟着小马哥学系列之 Spring IoC(进阶篇:类型转换)
  5. 路由器动态ip怎么设置上网
  6. 阿里云域名 动态ip绑定 python方案
  7. ..\OBJ\OLED.axf: Error: L6200E: Symbol Usart_Int multiply defined (by usart_1.o and usart.o).
  8. 安卓Toast随时跟新以及自定义Toast
  9. 计算机组装与维修 字长,计算机组装与维修知识点总结.doc
  10. JavaScript设计模式----单例模式