@(这里写自定义目录标题)

使用XPath解析库

1.简介

??XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言。适用于XML和HTML文档的搜索。

??优点:提供了非常简洁明了的路径选择表达式。还提供了超过100个内建函数,可以匹配大部分的节点。

??官网:https://www.w3.org/TR/xpath/

??准备工作:需要安装lxml库。

2.常用规则

表达式

功能

nodename

选取此节点的所有子节点

/

从当前节点选取直接子节点

//

从当前节点选取直接子孙节点

.

选取当前节点

..

选取当前节点的父节点

@

选取属性

3.etree模块解析网页简介

??etree是lxml库中的函数,可以自动修正HTML文本。下面是两种导入方法:

??直接读取网页代码进行解析:

from lxml import etree

text = '''

HTML文本

'''

# 将HTML文本转化为可以用etree解析的对象,

html = etree.HTML(text) # 结果是bytes类型,如果需要文本输出,则需要用decode()转码为Unicode编码

??读取文本文件进行解析(这里既会自动修正文件,又会补充DOCTYPE声明):

from lxml import etree

html = etree.parse('文本文件路径/文本文件名字.html',etree.HTMLParse()) # 结果是bytes类型,如果需要文本输出,则需要用decode()转码为Unicode编码

??用tostring()方法即可输出修正后的HTML代码。

4.选取所有节点,子节点和父节点

(1)选取所有节点

??一般用//开头的XPath规则,就会选择从当前节点开始的所有子孙节点,也就是所有节点。所以要匹配所有的节点代码如下:

a = html.xpath('//*') # 选取所有的节点

b = html.xpath('//a') # 选取所有的a节点,是一个例子

??这里的a和b,也就是xpath方法的返回值是一个列表,每个元素是Element类型,后面跟着节点的名称,是一个可迭代对象。要取出某一个对象,就需要用处理列表的方法进行。

(2)选取子节点

??选取子节点只需要在后面加上/节点名称(选择直接子节点,也就是与其相邻的第一个子节点),如果直接子节点没有就会报错,或者//节点名称(选择所有子孙节点),例子如下:

c = html.xpath('//li/a') # 选取li节点的直接a子节点

d = html.xpath('//li//a') # 选取li节点的所有a子节点

(3)选取父节点

??获取某个节点的父节点有两个方法,一个是用..,另一个是用parent::。

同理,如果没有父节点,就会报错,例子如下:

e = html.xpath('//li/../a') # 选取li节点的父节点下的a节点

f = html.xpath('//li/parent::/a') # 选取li节点的父节点下的直接a节点

g = html.xpath('//li/parent::*/a') # 选取li节点的父节点下的所有a节点

5.属性匹配,文本获取和属性多值匹配

(1)属性匹配

??在选取节点的时候,[email protected],用[@属性名="属性值"]进行实现,例子如下:

s = html.xpath('//li[@class="ming"]') # 选取属性值class="ming"的所有li节点

??要注意的是里面的括号和外面的括号尽量一个用双引号,一个用单引号。

(2)文本获取

??我们用Xpath中的text()方法即可获取节点中的文本。要注意的是获取到的数据可能包括换行符‘\n‘。

(3)属性多值匹配

??要是属性有多个值的话,用上面的方法就无法匹配了。需要用到contains()函数,包含两个参数,[email protected],例子如下:

# 源代码中为

s1 = html.xpath('//li[contains(@class,"ming1")]') # 选取属性值class="ming1"的所有li节点

s2 = html.xpath('//li[contains(@class,"ming2")]') # 选取属性值class="ming2"的所有li节点

6.属性获取和多属性匹配

(1)属性获取

s = html.xpath('[email protected]]') # 获取所有li节点下的直接a子节点的href属性

(2)多属性匹配

??有时候需要根据多个属性值确定一个节点,就需要同时匹配多个属性。要用and进行连接,可以把contains(@属性名,"属性名")[email protected]="属性值"混合使用,例子如下:

# 选取所有属性值class="a"和_target="ming"的li节点下的所有a节点的href属性

two_s = html.xpath('//li[contains(@class,"a") and @_target="ming"][email protected]')

7.按次序选择

??有时候选择到的某些属性可能同时匹配了多个节点,但是要想得到其中的某一个节点,该如何获取呢?可以用中括号传入索引的方法获取特定次序的节点。下面是一些常用方法的总结:

方法

功能

[n]

选取第n个节点,序号是以1开头的

[last()]

选取最后一个节点

[position() < n]

选取位置小于n的节点,这里可以用算术运算符进行选择

[last() - n]

选取倒数第n+1个节点,由于last()是倒数第一个,则last() - n就是倒数第n+1个

8.节点轴选择

??由于网页代码是一个DOM树,因此可以用相对的位置进行选择节点的子节点,兄弟节点,父节点或者祖先节点等。python的节点轴选择常用的如下:

节点轴

选择节点

ancestor:: *

获取所有祖先节点

ancestor::条件

获取指定条件的祖先节点

attribute:: *

获取节点的所有属性

attribute::属性名

获取节点的指定属性

child:: *

获取所有子节点

child::条件

获取指定条件的子节点

descendent:: *

获取所有的子孙节点

descendent::条件

获取指定条件的子孙节点

following:: *

获取当前节点之后的所有节点

following:: *[n]

获取当前节点之后的第n个节点

following-sibing:: *

获取当前节点之后的所有同级节点

following-sibing::条件

获取当前节点之后指定条件的所有同级节点

9.开发者工具查看xpath选择器路径

??用F12打开开发者工具,按才Copy->Copy Xpath就可以把该段代码的XPath路径代码复制下来,很方便。

原文:https://www.cnblogs.com/ITXiaoAng/p/11958605.html

python爬虫xpath提取数据_python爬虫三大解析库之XPath解析库通俗易懂详讲相关推荐

  1. python爬虫xpath提取数据_python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)...

    The Dormouse's story Once upon a time there were three little sisters; and their names were , Lacie ...

  2. python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)

    本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...

  3. python代码html显示数据_Python爬虫基础之认识html和学习数据提取(上)

    我:我已经学会了基本的python,接下来可以学什么鸭? 惨绿青年:接下来可以学习制作python爬虫了,但还是需要学习相关的知识. 我:什么知识鸭? 惨绿青年:网页的相关知识.我们看到的网页一般是h ...

  4. python爬视频网站数据_python爬虫基础应用----爬取无反爬视频网站

    一.爬虫简单介绍 爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...

  5. python爬虫实时更新数据_Python爬虫 更新中

    基础 一.环境配置 查看已安装的包 pip freeze 导出 pip freeze >requirements.txt 安装 pip install -r requirements.txt - ...

  6. python抓取数据库数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储...

    Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...

  7. python爬虫和医学数据_Python爬虫入门教程 24-100 微医挂号网医生数据抓取

    1. 微医挂号网医生数据写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的 ...

  8. python爬取flash数据_python爬虫: 爬取flash播放页面的信息

    我们通过查看知道flash类型的网页采取文件格式是amf类型的 AMF(Action Message Format) 是Flash与服务端通信的一种常见的二进制编码模式,其传输效率高,可以在HTTP层 ...

  9. python抓取微博数据_Python爬虫实现半自动发微博

    Python实现半自动发微博[用COOKIES代替模拟登录:用WAP版微博代替网页版微博:每次还要改post数据的URL...半半自动的感觉] 微博的内容是从糗事百科抓取的最热段子以及某网站的每日晚安 ...

最新文章

  1. jndi weblogic mysql_Tomcat配置JNDI数据源连接池
  2. WPF中的动画——(六)演示图板
  3. puppet安装与配置
  4. C++ 多线程编程总结
  5. [转载]C#中MessageBox.Show用法以及VB.NET中MsgBox用法
  6. PHP生成日历(实例详解)
  7. python property方法_Python——property(使一个方法看起来就像类属性一样)
  8. CPU 是如何执行任务的?
  9. Linux进程管理工具 Supervisor详解
  10. 开课吧课堂:人工智能行业走向如何?
  11. GroupBox与Panel控件
  12. 统计学中p值计算公式_统计学中的P值如何计算?
  13. Java:爬取代理ip,并使用代理IP刷uv
  14. Failed to declare queue(s):[XXX]问题解决
  15. 关于瞎报Access violation writing location异常的瞎解决方法
  16. 华为服务器网口作用,设置网口模式(mode)
  17. .exp是什么文件格式
  18. 良心安利医疗素材网站
  19. c++ - 信息学奥赛一本通答案1000
  20. jmeter性能分享总结

热门文章

  1. 菜单之二:使用xml文件定义菜单
  2. 深度剖析 synchronized
  3. java agent技术原理及简单实现
  4. 对渠道流量异常情况的分析
  5. spring mvc 返回json数据的四种方式
  6. Learning to rank的讲解,单文档方法(Pointwise),文档对方法(Pairwise),文档列表方法(Listwise)
  7. [Hadoop in China 2011] 华为 - NoSQL/NewSQL在传统IT产业的机遇和挑战
  8. ie11上vue中使用elementui的input框无法输入中文
  9. 快学Scala 第二课 (apply, if表达式,循环,函数的带名参数,可变长参数,异常)...
  10. Hive 常见问题与技巧【Updating】