在上面的三篇中我们html的解析都是用了正则表达式进行匹配。下面我们主要说一下一个使用起来很简单的模块xpath进行匹配解析html文本。

Chrome上有一款插件:XPath Helper,直接在浏览器就可以验证xpath表达式的书写是否正确。

lxml 使用流程

1. from lxml import etree
2. parseHtml = etree.HTML(html)
3. rList = parseHtml.xpath('表达式')

xpath匹配规则

1. 获取节点对象//div[@class="test"]
2. 获取节点属性值//div[@class="test"]//a/@src
3. 函数//div[contains(@class,"test")]/a/@href 4.获取节点对象内容 //div/a/text()

抓取Demo实例

import requests
from lxml import etreeurl = 'https://maoyan.com/board/4?offset=10'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}# 获取页面
res = requests.get(url, headers=headers)
html = res.text parseHtml = etree.HTML(html) rList = parseHtml.xpath('//dl[@class="board-wrapper"]/dd') for r in rList: name= r.xpath('./a/@title') print(name)

转载于:https://www.cnblogs.com/leijing0607/p/7840341.html

爬虫第四篇:html解析之xpath相关推荐

  1. 爬虫第四篇-爬虫对网站改版快速解决思路

    采集数据时难免遇到采集网站的页面改版,快速解决页面改版对解析的影响对业务稳定性有重要影响 ##页面改版的影响 针对不同的解析网站,影响程度不一,一般资讯类影响最小,表格类和报告类影响最大 资讯类网站 ...

  2. python自带网页解析器_Python爬虫Chrome网页解析工具-XPath Helper

    之前就说过Python爬虫中Xpath的用法,相信每一个写爬虫.或者是做网页分析的人,都会因为在定位.获取XPath路径上花费大量的时间,在没有这些辅助工具的日子里,我们只能通过搜索HTML源代码,定 ...

  3. 解剖SQLSERVER 第四篇 OrcaMDF里对dates类型数据的解析(译)

    解剖SQLSERVER 第四篇  OrcaMDF里对dates类型数据的解析(译) http://improve.dk/parsing-dates-in-orcamdf/ 在SQLSERVER里面有几 ...

  4. python 安装xpath_Python网络爬虫(四)- XPath1.XPath2.XPath在python中的应用

    目录: 1.XPath XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言.它使用路径表达式来选取 XML 文档中的节点或节点集.节点是通 ...

  5. python爬虫正则解析及xpath解析,lxml解析库

    正则解析模块re re模块使用流程 方法一 r_list=re.findall('正则表达式',html,re.S) 方法二 # 1.创建正则编译对象 pattern = re.compile('正则 ...

  6. Python爬虫从入门到精通——解析库pyquery的使用

    分类目录:<Python爬虫从入门到精通>总目录 解析库使用篇: 解析库re的使用:正则表达式 解析库XPath的使用 解析库Beautiful Soup的使用 解析库pyquery的使用 ...

  7. CSDN爬虫(四)——博客专家(所有)爬取+数据分析

    CSDN爬虫(四)--博客专家(所有)爬取+数据分析 说明 开发环境:jdk1.7+myeclipse10.7+win74bit+mysql5.5+webmagic0.5.2+jsoup1.7.2 爬 ...

  8. Java中四种XML解析技术之不完全测试

    Java中四种XML解析技术之不完全测试 <script language=javascript src=""></script> 在平时工作中,难免会遇到 ...

  9. 浅谈解析库XPath,bs4和pyquery

    <浅谈解析库XPath,bs4和pyquery> 作者:墨非墨菲非菲 前几天在CSDN看到一篇帖子,题目是"如何让自己像打王者一样发了疯,拼了命,石乐志的学习".这里面 ...

最新文章

  1. [JavaWeb基础] 007.Struts2的配置和简单使用
  2. 高德联手凯迪拉克 发布全球首个高精地图应用
  3. python培训深圳-深圳哪里有Python培训?
  4. 聊聊微服务的服务注册与发现
  5. keepalived lvs
  6. 宏BOOST_CHECK_EXCEPTION用法的测试程序
  7. linux solrcloud zookeeper分布式集群部署
  8. mysql在哪儿查看表的代码_查看mysql数据库及表编码格式
  9. Flink应用实战案例50篇(一)- Flink SQL 在京东的优化实战
  10. linux安装python3.7的步骤_centos7安装python3 的三种方式
  11. java数据结构创建树_在java中创建树数据结构?
  12. linux消息队列的内核限制
  13. word 远程过程调用失败。 (异常来自 HRESULT:0x800706BE) 解决方法
  14. CCF NOI1019 分段函数
  15. NoiseAsh Rule Tec All Collection for Mac - 无源均衡器
  16. 随机信号分析基础——例题篇(例题3.4)
  17. PLSQL Developer新手使用教程(图文教程)
  18. 制定目标的SMART原则(思维导图)
  19. 电脑文件怎么加密?第一种方法最简单
  20. python3.4学习笔记(十八) pycharm 安装使用、注册码、显示行号和字体大小等常用设置...

热门文章

  1. ICCV2021 还在用大量数据暴力train模型?主动学习,教你选出数据集中最有价值的样本...
  2. LaneAF | 利用Affinity Field聚类进行车道线实例分割
  3. Transformer又又来了,生成配有音乐的丝滑3D舞蹈,开放最大规模数据集AIST++
  4. 总奖金64万!含吸烟打电话检测、车道线识别等,2020中国华录杯·数据湖算法大赛火热进行中!...
  5. 更快更精准的感知,元戎启行提出基于LiDAR的3D物体检测新框架|CVPR 2020
  6. 官方中文版开源!快速入门PyTorch
  7. 【赛事】京东百万巨奖寻多传感器融合定位算法英雄
  8. 千呼万唤始出来,OpenCV 4.0正式发布!
  9. 当前位置 计算机英语,计算机英语_文章
  10. CVPR2020 | 遮挡也能识别?地平线提出用时序信息提升行人检测准确度