python lxml xpath_Python的lxml库学习之XPATH语法
原标题:Python的lxml库学习之XPATH语法
预备阅读:
前言
前面已经学习了Python的lxml库,从库的名称来看,lxml包含了xml,所以lxml同样可以解析XML文档,而lxml使用的就是XPATH语法。下面做一下简单介绍。
XPath语法
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和XPointer 都构建于 XPath 表达之上。因此,对 XPath 的理解是很多高级 XML 应用的基础。
在继续学习之前,应该对下面的知识有基本的了解(默认同学们都会了,不知道的同学可以去看一下,很简单的):
HTML / XHTML
XML / XML 命名空间XPath 术语
节点(Node)
在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。
基本值(或称原子值,Atomic value)
基本值是无父或无子的节点。
基本值的例子:
J K. Rowling "en"
项目(Item)
项目是基本值或者节点。
节点关系
(1)父(Parent)
每个元素以及属性都有一个父。
在下面的例子中,book 元素是 title、author、year 以及 price 元素的父:
(2)子(Children)
元素节点可有零个、一个或多个子。
在下面的例子中,title、author、year 以及 price 元素都是 book 元素的子:
(3)同胞(Sibling)
拥有相同的父的节点
在下面的例子中,title、author、year 以及 price 元素都是同胞:
Harry Potter
J K. Rowling
2005
29.99
(4)先辈(Ancestor)
某节点的父、父的父,等等。
在下面的例子中,title 元素的先辈是 book 元素和 bookstore 元素:
(5)后代(Descendant)
某个节点的子,子的子,等等。
在下面的例子中,bookstore 的后代是 book、title、author、year 以及 price 元素:
Harry Potter
J K. Rowling
2005
29.99
选取节点
XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
下面列出了最有用的路径表达式:
表达式
描述
nodename
选取此节点的所有子节点。
/
从根节点选取。
//
从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
.
选取当前节点。
..
选取当前节点的父节点。
@
选取属性。
实例
在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:
路径表达式
结果
bookstore
选取 bookstore 元素的所有子节点。
/bookstore
选取根元素 bookstore。
注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
bookstore/book
选取属于 bookstore 的子元素的所有 book 元素。
//book
选取所有 book 子元素,而不管它们在文档中的位置。
bookstore//book
选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
//@lang
选取名为 lang 的所有属性。
谓语(Predicates)
谓语用来查找某个特定的节点或者包含某个指定的值的节点。
谓语被嵌在方括号中。
实例
在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:
路径表达式
结果
/bookstore/book[1]
选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]
选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]
选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]
选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]
选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang=’eng’]
选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]
选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title
选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。
选取未知节点
XPath 通配符可用来选取未知的 XML 元素。
通配符
描述
*
匹配任何元素节点。
@*
匹配任何属性节点。
node()
匹配任何类型的节点。
实例
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
路径表达式
结果
/bookstore/*
选取 bookstore 元素的所有子元素。
//*
选取文档中的所有元素。
//title[@*]
选取所有带有属性的 title 元素。
选取若干路径
通过在路径表达式中使用“|”运算符,您可以选取若干个路径。
实例
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
路径表达式
结果
//book/title | //book/price
选取 book 元素的所有 title 和 price 元素。
//title | //price
选取文档中的所有 title 和 price 元素。
/bookstore/book/title | //price
选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。
XPath 运算符
下面列出了可用在 XPath 表达式中的运算符:
运算符
描述
实例
返回值
|
计算两个节点集
//book | //cd
返回所有拥有 book 和 cd 元素的节点集
+
加法
6 + 4
10
–
减法
6 – 4
2
*
乘法
6 * 4
24
div
除法
8 div 4
2
=
等于
price=9.80
如果 price 是 9.80,则返回 true。
如果 price 是 9.90,则返回 false。
!=
不等于
price!=9.80
如果 price 是 9.90,则返回 true。
如果 price 是 9.80,则返回 false。
<
小于
price<9.80
如果 price 是 9.00,则返回 true。
如果 price 是 9.90,则返回 false。
<=
小于或等于
price<=9.80
如果 price 是 9.00,则返回 true。
如果 price 是 9.90,则返回 false。
>
大于
price>9.80
如果 price 是 9.90,则返回 true。
如果 price 是 9.80,则返回 false。
>=
大于或等于
price>=9.80
如果 price 是 9.90,则返回 true。
如果 price 是 9.70,则返回 false。
or
或
price=9.80 or price=9.70
如果 price 是 9.80,则返回 true。
如果 price 是 9.50,则返回 false。
and
与
price>9.00 and price<9.90
如果 price 是 9.80,则返回 true。
如果 price 是 8.50,则返回 false。
mod
计算除法的余数
5 mod 2
1
小结
上面就是XPATH的语法知识了,这用在lxml库里很方便,快速。希望大家能学到对自己有用的知识。
希望通过上面的内容能帮助大家。如果你有什么好的意见,建议,或者有不同的看法,我都希望你留言和我们进行交流、讨论。
如果想快速联系我,欢迎关注微信公众号:AiryData。
欢迎访问原文链接查看更多精彩。返回搜狐,查看更多
责任编辑:
python lxml xpath_Python的lxml库学习之XPATH语法相关推荐
- Python爬虫实例--新浪热搜榜[xpath语法]
Python爬虫实例--新浪热搜榜[xpath语法] 1.基础环境配置: requests-->版本:2.12.4 lxml-->版本:3.7.2 2.网页分析 很容易从html源码中看到 ...
- python xlwings 切片_Python xlwings库学习笔记(1)
Python xlwings库学习笔记(1) Python是最近几年很火的编程语言,被办公自动化的宣传吸引入坑,办公自动化必然绕不开Excel的操作,能操作Excel的库有很多,例如: xlrd xl ...
- python海龟怎么隐藏_Turtle库学习--海龟可见性与外观
turtle.hideturtle() 简:turtle.ht() 使海龟不可见. turtle.hideturtle() turtle.showturtle() 简:turtle.st() 使海龟可 ...
- python turtle隐藏画笔_Turtle库学习--画笔控制 绘图状态
turtle.pendown() 简:turtle.pd() turtle.down() 画笔落下 – 移动时将画线. turtle.penup() 简:turtle.pu() turtle.up() ...
- Python爬虫:通过爬取CSDN博客信息,学习lxml库与XPath语法
目录 lxml库 lxml基本用法 解析XML文件 解析HTML文件 XPath 什么是XPath XPath语法 XPath实战 选取某节点的所有子孙节点 选取某节点的所有子节点 通过属性选取某节点 ...
- python xpath语法-XPath语法和lxml模块(数据提取)
XPath语法和lxml模块 XPath lxml库 1.什么是XPath? XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素 ...
- python学习之xpath使用案例总结_xPath 用法总结整理
最近在研究kafka,看了一堆理论的东西,想动手实践一些东西,奈何手上的数据比较少,突发奇想就打算写个爬虫去抓一些数据来玩,顺便把深入一下爬虫技术. 之前写过一些小爬虫,一般就是用python的req ...
- python数据分析复盘——爬虫相关库
Requests.BeautifulSoup.re.lxml.css selector .scrapy 1.Requests 1.1 Requests的7个主要方法 其中,request()方法是其它 ...
- python的xpath用法_python之Xpath语法
python视频教程栏目介绍python的Xpath语法. 一.XMl简介 (一)什么是 XMLXML 指可扩展标记语言(EXtensible) XML 是一种标记语言,很类似 HTML. XML 的 ...
最新文章
- HP1020打印机“传递给系统调用的数据区域太小” 如何处理?
- 华为云服务器配置ipv6,华为云获“IPv6支持度优秀奖”,持续助推云网融合
- Java 12:使用开关表达式进行映射
- 决策树 算法原理及代码
- mysql备份时过滤掉某些库 以及 去掉Warning: Using a password on the command line interface can be insecure.提示信息...
- linux启动器编辑,linux下建立启动器
- Android 学习之补间(Tween)动画
- python 角度变弧度_弧度制和角度值怎么转换?
- Google 和 bing 都无法替代的10大深网搜索引擎
- SpringBoot Elasticsearch工具类封装
- apkeditor pro_APK编辑器 APK Editor Pro v1.15.0 + ApkModifier v3.6
- linux resolv.conf 重启,Ubuntu关于修改resolv.conf重启失效的问题
- 【汇编语言实验一】用机器指令和汇编指令编程(1)
- 石头机器人拖地水量调节_用石头扫地机器人扫地拖地是一种什么体验
- docker网桥讲解
- 数据分析(python系)
- License Code of Jigloo序列号、注册码,可能是通用的呵呵
- nodeJS+mysql+连接池——连接池的创建和使用
- 华为路由器负载均衡_华为路由器配置利用NAT实现TCP负载均衡
- 【小月电子】ALTERA FPGA开发板系统学习教程-LESSON12 IPCORE核之FIFO详细教程
热门文章
- matlab 插值函数理解
- 如何在linux(ubuntu)下安装字体(给wps安装字体)
- oracle数据库的字段怎么排序规则,Oracle中文、数字混杂字段的排序
- 跟着小马哥学系列之 Spring IoC(进阶篇:类型转换)
- 路由器动态ip怎么设置上网
- 阿里云域名 动态ip绑定 python方案
- ..\OBJ\OLED.axf: Error: L6200E: Symbol Usart_Int multiply defined (by usart_1.o and usart.o).
- 安卓Toast随时跟新以及自定义Toast
- 计算机组装与维修 字长,计算机组装与维修知识点总结.doc
- JavaScript设计模式----单例模式