<div><ul class="show"><li>275万购昌平邻铁三居 总价20万买一居</li><li>00万内购五环三居 140万安家东三环</li><li>北京首现零首付楼盘 53万购东5环50平</li><li>京楼盘直降5000 中信府 公园楼王现房</li></ul>
</div>

我想要把所有li标签中的文本提取出来,并且放到一个字符串中.
在网上查了下发现使用xpath的string()函数可以实现(string()和text()的区别请自行google)
先看下常见的方法:

>>> from lxml import etree
...
>>> result = html.xpath("//div/ul[@class='show']")[0]
>>> result.xpath('string(.)')'                 275万购昌平邻铁三居 总价20万买一居                 00万内购五
环三居 140万安家东三环                 北京首现零首付楼盘 53万购东5环50平京楼盘直降5000 中信府 公园楼王现房             '

这是我查到的多数人使用的方法,还有人使用了concat()函数,更麻烦就不提了.
但是上面的匹配明显感觉可以写到一条xpath里面的,为什么非要分开写!忍不住吐槽一下

xpath string()函数的调用写法:

>>> html.xpath("string(//div/ul[@class='show'])")
'                 275万购昌平邻铁三居 总价20万买一居                 00万内购五
环三居 140万安家东三环                 北京首现零首付楼盘 53万购东5环50平京楼盘直降5000 中信府 公园楼王现房             '

再吐槽下上面那种写法.在xpath语法里面,点(.)表示当前节点,当前节点不就是html.xpath("//div/ul[@class='show']")[0]取到的节点元素吗!!!

转载于:https://www.cnblogs.com/thunderLL/p/8038927.html

Xpath string()提取多个子节点中的文本相关推荐

  1. 【教程】Spire.PDF教程:C# 如何提取 PDF 文档中的文本和图片

    Spire.PDF是一个专业的PDF组件,能够独立地创建.编写.编辑.操作和阅读PDF文件,支持 .NET.Java.WPF和Silverlight. [下载Spire.PDF最新试用版] 文本和图片 ...

  2. Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址

    推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...

  3. 记录 || Python | 提取xml/tmx文件中的文本内容

    # -*- coding:utf-8 -*- import codecs import xml.etree.ElementTree as ET import sysdefaultencoding = ...

  4. DOM节点中属性nodeName、nodeType和nodeValue的区别 Delphi

    http://msdn.microsoft.com/zh-cn/library/vstudio/hf9hbf87.aspx <?xml version="1.0"?>& ...

  5. java:获取后缀为doc、docx、xls、xlsx、ppt、pptx、pdf、xml的文件中的文本

    目录 pom 代码 结果 pom <dependency><groupId>org.apache.poi</groupId><artifactId>po ...

  6. 火车头如何把标题加html标签,火车头采集中内容页及标签Xpath可视化提取功能的使用...

    在上一篇文章<火车头采集中列表页及标签Xpath可视化提取功能的使用>中,我们讲解了火车头采集器如何利用Xpath来采集列表页.今天,我们就说说如何火车头采集器如何利用Xpath来采集内容 ...

  7. 使用 lxml 中的 xpath 高效提取文本与标签属性值

    我们爬取网页的目的,无非是先定位到DOM树的节点,然后取其文本或属性值 myPage = '''<html><title>TITLE</title><body ...

  8. js添加多个子节点_在js中添加新节点

    Insert title here window.onload = function(){ alert(1); //document.createElement(elementTagName); // ...

  9. java爬虫工具xpath提取_爬虫 xpath (数据提取)

    xpath 是数据提取的一种常用的方法 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. 在 XPath 中,有七种类型的节点:元素.属性 ...

最新文章

  1. 【C4D教程】Octane渲染大师班
  2. 2021年春季学期-信号与系统-第十一次作业参考答案-第五小题
  3. 令人机双双崩溃的VS2008 SP1!WPF用户请勿更新!
  4. Java问题排查工具箱
  5. 全球最厉害的 14 位程序员,请收下我的膝盖
  6. python os.walk
  7. 微信小程序python token验证_微信小程序python 用户认证
  8. Go 语言实现 23 种设计模式(修饰器)
  9. .net winform panel 不刷新_【扫盲篇】visual studio2019(C#/.NET)安装教程
  10. 【资源下载】旷视研究院张祥雨valse2019报告PPT——高效轻量级深度模型的研究与实践
  11. 带孩子们做环球旅行的读后感_阜南七小教师风采之乔娜:做孩子们成长的记录者...
  12. PAT 00-自测1. 打印沙漏(20)
  13. FindChildControl与FindComponent(动态创建的控件要通过Owner.FindComponent去找该控件)
  14. 算法学习一:排序算法实现与算法性能分析
  15. C语言 小游戏 电脑大概率获胜,用C语言实现简单的三子棋小游戏
  16. java mq5.15,ActiveMQ 5.15.x Release安装和配置--Linux篇
  17. C# fmpeg加虹软的人脸识别demo
  18. 整理优秀的网盘搜索合集
  19. 何宾 单片机原理及应用_STC单片机原理及应用何宾答案
  20. 工资管理系统数据库设计

热门文章

  1. 禁用了ssh的密码认证方式导致无法登陆
  2. matlab将程序变量写入标题,如何该这段MATLAB程序(把一个常量改成变量)
  3. html参考文献_毕业设计参考文献格式(要求与范例)
  4. 如何做一个国产数据库系统(一)
  5. 边缘计算框架_黑科技 | 英特尔发布边缘计算加速框架最新版本 | OpenVINO 2019R02...
  6. 【Flink】Could not connect to BlobServer at address
  7. 【es】es API源码分析
  8. 【lucene】lucene查询操作
  9. 【Kafka】Kafka broker id 解释以及 自动生成id
  10. 【impala】Impala中的invalidate metadata和refresh