利用xpath来提取所有标签里面的内容,即使标签头不同

 1 #-*-coding:utf8-*-
 2 import re
 3 import os
 4 from lxml import etree
 5 html = '''
 6 <!DOCTYPE html>
 7 <html>
 8 <head lang="en">
 9     <meta charset="UTF-8">
10     <title>测试-常规用法</title>
11 </head>
12 <body>
13 <div id="content">
14     <ul id="useful">
15     <li>我</li>
16     <ml>是</ml>
17     <li>谁</li>
18     </ul>
19     <ul id="useless">
20     <li>who </li>
21     <li>am </li>
22     <li>i!</li>
23     </ul>
24 </div>
25 <div id="content">
26     <ul id="useful"><li>你</li><ml>是</ml><li>谁!</li>
27     </ul>
28     <ul id="useless"><li>who </li><li>you </li><li>are!</li>
29     </ul>
30 </div>
31
32 </body>
33 </html>
34 '''
35 selector = etree.HTML(html)
36 for k in range(1,3):
37     chinese = selector.xpath('//div[@id="content"][%s]/ul[@id="useful"]//text()'%k)
38     data = "".join([each for each in chinese])
39     english = selector.xpath('//div[@id="content"][%s]/ul[@id="useless"]//text()'%k)
40     Data = "".join([each for each in english])
41     print data
42     print Data

结果:

转载于:https://www.cnblogs.com/lovychen/p/5671287.html

xpath提取目录下所有标签内的内容,递归 //text()相关推荐

  1. xpath 取标签下所有文字内容_xpath提取目录下所有标签内的内容,递归 //text()...

    利用xpath来提取所有标签里面的内容,即使标签头不同 #-*-coding:utf8-*- import re import os from lxml import etree html = ''' ...

  2. C#正则_取出标签内的内容(非贪婪)

    using System.Text.RegularExpressions; /// <summary>         /// 执行正则提取出值         /// </summ ...

  3. php 删除指定html标签,总结php删除html标签和标签内的内容的方法

    经常扒别人网站文章的坑们:我是指那种批量式采集的压根不看内容的,少不了都会用到删除html标签的函数:这里介绍3种不同用途上的方法: $str=' 这里是p标签 这里是a标签 '; 1:删除全部或者保 ...

  4. python打开一个文件夹下所有txt文件-python读取一个目录下所有txt里面的内容方法...

    实例如下所示: import os allFileNum = 0 def printPath(level, path): global allFileNum ''''' 打印一个目录下的所有文件夹和文 ...

  5. python怎么导入txt文件夹-python读取一个目录下所有txt里面的内容方法

    实例如下所示: import os allFileNum = 0 def printPath(level, path): global allFileNum ''''' 打印一个目录下的所有文件夹和文 ...

  6. 总结php删除html标签和标签内的内容的方法

    经常扒别人网站文章的坑们: 我是指那种批量式采集的压根不看内容的: 少不了都会用到删除html标签的函数: 这里介绍3种不同用途上的方法: $str='<div><p>这里是p ...

  7. 使用正则表达式 匹配 HTML 标签内的内容

    正则表达式如下 /(?<=((<[a-zA-Z-]+?){0,1}>))([\s\S]+)(?=([\s]{0,1}<\/[a-zA-Z-]+(>{0,1})))/g 测 ...

  8. 请问一下用xpath提取信息时,遇到网页文本中有br标签,提取不到br标签后的内容怎么处理呢

    # Xpath提取 node_list = response.xpath("//div[@class='article block untagged mb15 typs_hot']" ...

  9. python爬虫时删除多余标签内的内容remove、remove_tags

    当爬取到内容后,发现有些便签内的内容不是我们想要的,这时只能通过删除多余标签的方法来进行处理 doc = pq(html)doc('.article-t style').remove() 如上是:想要 ...

  10. python soup提取叶子标签_python 利用beautifulSoup提取页面多个标签的文本内容

    初学beautifulsoup解析库,拿一个招聘网页练手,想达到提取多个标签的文本内容,但是目前只可以提取到单个标签的单个文本内容,多标签的文本如何提取? from requests.exceptio ...

最新文章

  1. 如何搭建亿级社交信息分享社交平台架构
  2. 很全的SQL注入语句,有SQL漏洞的都可以拿下
  3. 复旦大学肖仰华教授:知识图谱落地的基本原则与最佳实践
  4. 28句话让你的人际关系更上一层楼
  5. dp按照规模分类总结
  6. ARMA模型的性质 1
  7. logcat不显示信息
  8. 斗鱼递交私有化退市文件 与虎牙合并暂无完成时间表
  9. 用贪心算法来解决沙袋装箱问题
  10. crm客户管理系统源码_公司crm客户关系管理系统的功能
  11. 通信专业顶刊_通信类会议期刊排名(转)
  12. bigemap如何添加第三方地图
  13. 【转】MapGIS基础系列(三)--服务疑难面面观
  14. 第五次打卡 模型融合
  15. 流程框图-各方框含义
  16. windows10如何使用Wallpaper Engine实现动态锁屏壁纸?把WE的壁纸应用到锁屏。
  17. [UOJ#132][BZOJ4200][luogu_P2304][NOI2015]小园丁与老司机
  18. AR、BR、CR、SR 与 CE、PE、P概念整理
  19. java图形界面编程 房子_Java图形界面编程
  20. s5p6818PWM驱动蜂鸣器实验

热门文章

  1. retinex算法小感
  2. Machine Learning——Homework1
  3. GAOT工具箱设置交叉概率和变异概率
  4. 回顾 | Apache Flink Meetup · 深圳站精彩回顾(附PPT下载)
  5. 直播首屏耗时400ms以下的优化实践
  6. 2019年互联网大厂月饼大盘点,最丑的一家竟然是...
  7. Android studio中的一次编译报错’Error:Execution failed for task ':app:transformClassesWithDexForDebug‘,困扰了两天
  8. Python 必备要点总结及环境搭建(上)
  9. linux shell写日志,Linux shell编程之文件内容写入和日志记录
  10. css3中插入地图,CSS3 地图展开动画