爬虫第四篇:html解析之xpath
在上面的三篇中我们html的解析都是用了正则表达式进行匹配。下面我们主要说一下一个使用起来很简单的模块xpath进行匹配解析html文本。
Chrome上有一款插件:XPath Helper,直接在浏览器就可以验证xpath表达式的书写是否正确。
lxml 使用流程
1. from lxml import etree 2. parseHtml = etree.HTML(html) 3. rList = parseHtml.xpath('表达式')
xpath匹配规则
1. 获取节点对象//div[@class="test"] 2. 获取节点属性值//div[@class="test"]//a/@src 3. 函数//div[contains(@class,"test")]/a/@href 4.获取节点对象内容 //div/a/text()
抓取Demo实例
import requests from lxml import etreeurl = 'https://maoyan.com/board/4?offset=10' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' }# 获取页面 res = requests.get(url, headers=headers) html = res.text parseHtml = etree.HTML(html) rList = parseHtml.xpath('//dl[@class="board-wrapper"]/dd') for r in rList: name= r.xpath('./a/@title') print(name)
转载于:https://www.cnblogs.com/leijing0607/p/7840341.html
爬虫第四篇:html解析之xpath相关推荐
- 爬虫第四篇-爬虫对网站改版快速解决思路
采集数据时难免遇到采集网站的页面改版,快速解决页面改版对解析的影响对业务稳定性有重要影响 ##页面改版的影响 针对不同的解析网站,影响程度不一,一般资讯类影响最小,表格类和报告类影响最大 资讯类网站 ...
- python自带网页解析器_Python爬虫Chrome网页解析工具-XPath Helper
之前就说过Python爬虫中Xpath的用法,相信每一个写爬虫.或者是做网页分析的人,都会因为在定位.获取XPath路径上花费大量的时间,在没有这些辅助工具的日子里,我们只能通过搜索HTML源代码,定 ...
- 解剖SQLSERVER 第四篇 OrcaMDF里对dates类型数据的解析(译)
解剖SQLSERVER 第四篇 OrcaMDF里对dates类型数据的解析(译) http://improve.dk/parsing-dates-in-orcamdf/ 在SQLSERVER里面有几 ...
- python 安装xpath_Python网络爬虫(四)- XPath1.XPath2.XPath在python中的应用
目录: 1.XPath XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言.它使用路径表达式来选取 XML 文档中的节点或节点集.节点是通 ...
- python爬虫正则解析及xpath解析,lxml解析库
正则解析模块re re模块使用流程 方法一 r_list=re.findall('正则表达式',html,re.S) 方法二 # 1.创建正则编译对象 pattern = re.compile('正则 ...
- Python爬虫从入门到精通——解析库pyquery的使用
分类目录:<Python爬虫从入门到精通>总目录 解析库使用篇: 解析库re的使用:正则表达式 解析库XPath的使用 解析库Beautiful Soup的使用 解析库pyquery的使用 ...
- CSDN爬虫(四)——博客专家(所有)爬取+数据分析
CSDN爬虫(四)--博客专家(所有)爬取+数据分析 说明 开发环境:jdk1.7+myeclipse10.7+win74bit+mysql5.5+webmagic0.5.2+jsoup1.7.2 爬 ...
- Java中四种XML解析技术之不完全测试
Java中四种XML解析技术之不完全测试 <script language=javascript src=""></script> 在平时工作中,难免会遇到 ...
- 浅谈解析库XPath,bs4和pyquery
<浅谈解析库XPath,bs4和pyquery> 作者:墨非墨菲非菲 前几天在CSDN看到一篇帖子,题目是"如何让自己像打王者一样发了疯,拼了命,石乐志的学习".这里面 ...
最新文章
- [JavaWeb基础] 007.Struts2的配置和简单使用
- 高德联手凯迪拉克 发布全球首个高精地图应用
- python培训深圳-深圳哪里有Python培训?
- 聊聊微服务的服务注册与发现
- keepalived lvs
- 宏BOOST_CHECK_EXCEPTION用法的测试程序
- linux solrcloud zookeeper分布式集群部署
- mysql在哪儿查看表的代码_查看mysql数据库及表编码格式
- Flink应用实战案例50篇(一)- Flink SQL 在京东的优化实战
- linux安装python3.7的步骤_centos7安装python3 的三种方式
- java数据结构创建树_在java中创建树数据结构?
- linux消息队列的内核限制
- word 远程过程调用失败。 (异常来自 HRESULT:0x800706BE) 解决方法
- CCF NOI1019 分段函数
- NoiseAsh Rule Tec All Collection for Mac - 无源均衡器
- 随机信号分析基础——例题篇(例题3.4)
- PLSQL Developer新手使用教程(图文教程)
- 制定目标的SMART原则(思维导图)
- 电脑文件怎么加密?第一种方法最简单
- python3.4学习笔记(十八) pycharm 安装使用、注册码、显示行号和字体大小等常用设置...
热门文章
- ICCV2021 还在用大量数据暴力train模型?主动学习,教你选出数据集中最有价值的样本...
- LaneAF | 利用Affinity Field聚类进行车道线实例分割
- Transformer又又来了,生成配有音乐的丝滑3D舞蹈,开放最大规模数据集AIST++
- 总奖金64万!含吸烟打电话检测、车道线识别等,2020中国华录杯·数据湖算法大赛火热进行中!...
- 更快更精准的感知,元戎启行提出基于LiDAR的3D物体检测新框架|CVPR 2020
- 官方中文版开源!快速入门PyTorch
- 【赛事】京东百万巨奖寻多传感器融合定位算法英雄
- 千呼万唤始出来,OpenCV 4.0正式发布!
- 当前位置 计算机英语,计算机英语_文章
- CVPR2020 | 遮挡也能识别?地平线提出用时序信息提升行人检测准确度