Xpath string()提取多个子节点中的文本
<div><ul class="show"><li>275万购昌平邻铁三居 总价20万买一居</li><li>00万内购五环三居 140万安家东三环</li><li>北京首现零首付楼盘 53万购东5环50平</li><li>京楼盘直降5000 中信府 公园楼王现房</li></ul>
</div>
我想要把所有li标签中的文本提取出来,并且放到一个字符串中.
在网上查了下发现使用xpath的string()函数可以实现(string()和text()的区别请自行google)
先看下常见的方法:
>>> from lxml import etree
...
>>> result = html.xpath("//div/ul[@class='show']")[0]
>>> result.xpath('string(.)')' 275万购昌平邻铁三居 总价20万买一居 00万内购五
环三居 140万安家东三环 北京首现零首付楼盘 53万购东5环50平京楼盘直降5000 中信府 公园楼王现房 '
这是我查到的多数人使用的方法,还有人使用了concat()函数,更麻烦就不提了.
但是上面的匹配明显感觉可以写到一条xpath里面的,为什么非要分开写!忍不住吐槽一下
xpath string()函数的调用写法:
>>> html.xpath("string(//div/ul[@class='show'])")
' 275万购昌平邻铁三居 总价20万买一居 00万内购五
环三居 140万安家东三环 北京首现零首付楼盘 53万购东5环50平京楼盘直降5000 中信府 公园楼王现房 '
再吐槽下上面那种写法.在xpath语法里面,点(.)表示当前节点,当前节点不就是html.xpath("//div/ul[@class='show']")[0]
取到的节点元素吗!!!
转载于:https://www.cnblogs.com/thunderLL/p/8038927.html
Xpath string()提取多个子节点中的文本相关推荐
- 【教程】Spire.PDF教程:C# 如何提取 PDF 文档中的文本和图片
Spire.PDF是一个专业的PDF组件,能够独立地创建.编写.编辑.操作和阅读PDF文件,支持 .NET.Java.WPF和Silverlight. [下载Spire.PDF最新试用版] 文本和图片 ...
- Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址
推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...
- 记录 || Python | 提取xml/tmx文件中的文本内容
# -*- coding:utf-8 -*- import codecs import xml.etree.ElementTree as ET import sysdefaultencoding = ...
- DOM节点中属性nodeName、nodeType和nodeValue的区别 Delphi
http://msdn.microsoft.com/zh-cn/library/vstudio/hf9hbf87.aspx <?xml version="1.0"?>& ...
- java:获取后缀为doc、docx、xls、xlsx、ppt、pptx、pdf、xml的文件中的文本
目录 pom 代码 结果 pom <dependency><groupId>org.apache.poi</groupId><artifactId>po ...
- 火车头如何把标题加html标签,火车头采集中内容页及标签Xpath可视化提取功能的使用...
在上一篇文章<火车头采集中列表页及标签Xpath可视化提取功能的使用>中,我们讲解了火车头采集器如何利用Xpath来采集列表页.今天,我们就说说如何火车头采集器如何利用Xpath来采集内容 ...
- 使用 lxml 中的 xpath 高效提取文本与标签属性值
我们爬取网页的目的,无非是先定位到DOM树的节点,然后取其文本或属性值 myPage = '''<html><title>TITLE</title><body ...
- js添加多个子节点_在js中添加新节点
Insert title here window.onload = function(){ alert(1); //document.createElement(elementTagName); // ...
- java爬虫工具xpath提取_爬虫 xpath (数据提取)
xpath 是数据提取的一种常用的方法 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. 在 XPath 中,有七种类型的节点:元素.属性 ...
最新文章
- 【C4D教程】Octane渲染大师班
- 2021年春季学期-信号与系统-第十一次作业参考答案-第五小题
- 令人机双双崩溃的VS2008 SP1!WPF用户请勿更新!
- Java问题排查工具箱
- 全球最厉害的 14 位程序员,请收下我的膝盖
- python os.walk
- 微信小程序python token验证_微信小程序python 用户认证
- Go 语言实现 23 种设计模式(修饰器)
- .net winform panel 不刷新_【扫盲篇】visual studio2019(C#/.NET)安装教程
- 【资源下载】旷视研究院张祥雨valse2019报告PPT——高效轻量级深度模型的研究与实践
- 带孩子们做环球旅行的读后感_阜南七小教师风采之乔娜:做孩子们成长的记录者...
- PAT 00-自测1. 打印沙漏(20)
- FindChildControl与FindComponent(动态创建的控件要通过Owner.FindComponent去找该控件)
- 算法学习一:排序算法实现与算法性能分析
- C语言 小游戏 电脑大概率获胜,用C语言实现简单的三子棋小游戏
- java mq5.15,ActiveMQ 5.15.x Release安装和配置--Linux篇
- C# fmpeg加虹软的人脸识别demo
- 整理优秀的网盘搜索合集
- 何宾 单片机原理及应用_STC单片机原理及应用何宾答案
- 工资管理系统数据库设计
热门文章
- 禁用了ssh的密码认证方式导致无法登陆
- matlab将程序变量写入标题,如何该这段MATLAB程序(把一个常量改成变量)
- html参考文献_毕业设计参考文献格式(要求与范例)
- 如何做一个国产数据库系统(一)
- 边缘计算框架_黑科技 | 英特尔发布边缘计算加速框架最新版本 | OpenVINO 2019R02...
- 【Flink】Could not connect to BlobServer at address
- 【es】es API源码分析
- 【lucene】lucene查询操作
- 【Kafka】Kafka broker id 解释以及 自动生成id
- 【impala】Impala中的invalidate metadata和refresh