xpath提取目录下所有标签内的内容,递归 //text()
利用xpath来提取所有标签里面的内容,即使标签头不同
1 #-*-coding:utf8-*- 2 import re 3 import os 4 from lxml import etree 5 html = ''' 6 <!DOCTYPE html> 7 <html> 8 <head lang="en"> 9 <meta charset="UTF-8"> 10 <title>测试-常规用法</title> 11 </head> 12 <body> 13 <div id="content"> 14 <ul id="useful"> 15 <li>我</li> 16 <ml>是</ml> 17 <li>谁</li> 18 </ul> 19 <ul id="useless"> 20 <li>who </li> 21 <li>am </li> 22 <li>i!</li> 23 </ul> 24 </div> 25 <div id="content"> 26 <ul id="useful"><li>你</li><ml>是</ml><li>谁!</li> 27 </ul> 28 <ul id="useless"><li>who </li><li>you </li><li>are!</li> 29 </ul> 30 </div> 31 32 </body> 33 </html> 34 ''' 35 selector = etree.HTML(html) 36 for k in range(1,3): 37 chinese = selector.xpath('//div[@id="content"][%s]/ul[@id="useful"]//text()'%k) 38 data = "".join([each for each in chinese]) 39 english = selector.xpath('//div[@id="content"][%s]/ul[@id="useless"]//text()'%k) 40 Data = "".join([each for each in english]) 41 print data 42 print Data
结果:
转载于:https://www.cnblogs.com/lovychen/p/5671287.html
xpath提取目录下所有标签内的内容,递归 //text()相关推荐
- xpath 取标签下所有文字内容_xpath提取目录下所有标签内的内容,递归 //text()...
利用xpath来提取所有标签里面的内容,即使标签头不同 #-*-coding:utf8-*- import re import os from lxml import etree html = ''' ...
- C#正则_取出标签内的内容(非贪婪)
using System.Text.RegularExpressions; /// <summary> /// 执行正则提取出值 /// </summ ...
- php 删除指定html标签,总结php删除html标签和标签内的内容的方法
经常扒别人网站文章的坑们:我是指那种批量式采集的压根不看内容的,少不了都会用到删除html标签的函数:这里介绍3种不同用途上的方法: $str=' 这里是p标签 这里是a标签 '; 1:删除全部或者保 ...
- python打开一个文件夹下所有txt文件-python读取一个目录下所有txt里面的内容方法...
实例如下所示: import os allFileNum = 0 def printPath(level, path): global allFileNum ''''' 打印一个目录下的所有文件夹和文 ...
- python怎么导入txt文件夹-python读取一个目录下所有txt里面的内容方法
实例如下所示: import os allFileNum = 0 def printPath(level, path): global allFileNum ''''' 打印一个目录下的所有文件夹和文 ...
- 总结php删除html标签和标签内的内容的方法
经常扒别人网站文章的坑们: 我是指那种批量式采集的压根不看内容的: 少不了都会用到删除html标签的函数: 这里介绍3种不同用途上的方法: $str='<div><p>这里是p ...
- 使用正则表达式 匹配 HTML 标签内的内容
正则表达式如下 /(?<=((<[a-zA-Z-]+?){0,1}>))([\s\S]+)(?=([\s]{0,1}<\/[a-zA-Z-]+(>{0,1})))/g 测 ...
- 请问一下用xpath提取信息时,遇到网页文本中有br标签,提取不到br标签后的内容怎么处理呢
# Xpath提取 node_list = response.xpath("//div[@class='article block untagged mb15 typs_hot']" ...
- python爬虫时删除多余标签内的内容remove、remove_tags
当爬取到内容后,发现有些便签内的内容不是我们想要的,这时只能通过删除多余标签的方法来进行处理 doc = pq(html)doc('.article-t style').remove() 如上是:想要 ...
- python soup提取叶子标签_python 利用beautifulSoup提取页面多个标签的文本内容
初学beautifulsoup解析库,拿一个招聘网页练手,想达到提取多个标签的文本内容,但是目前只可以提取到单个标签的单个文本内容,多标签的文本如何提取? from requests.exceptio ...
最新文章
- 如何搭建亿级社交信息分享社交平台架构
- 很全的SQL注入语句,有SQL漏洞的都可以拿下
- 复旦大学肖仰华教授:知识图谱落地的基本原则与最佳实践
- 28句话让你的人际关系更上一层楼
- dp按照规模分类总结
- ARMA模型的性质 1
- logcat不显示信息
- 斗鱼递交私有化退市文件 与虎牙合并暂无完成时间表
- 用贪心算法来解决沙袋装箱问题
- crm客户管理系统源码_公司crm客户关系管理系统的功能
- 通信专业顶刊_通信类会议期刊排名(转)
- bigemap如何添加第三方地图
- 【转】MapGIS基础系列(三)--服务疑难面面观
- 第五次打卡 模型融合
- 流程框图-各方框含义
- windows10如何使用Wallpaper Engine实现动态锁屏壁纸?把WE的壁纸应用到锁屏。
- [UOJ#132][BZOJ4200][luogu_P2304][NOI2015]小园丁与老司机
- AR、BR、CR、SR 与 CE、PE、P概念整理
- java图形界面编程 房子_Java图形界面编程
- s5p6818PWM驱动蜂鸣器实验
热门文章
- retinex算法小感
- Machine Learning——Homework1
- GAOT工具箱设置交叉概率和变异概率
- 回顾 | Apache Flink Meetup · 深圳站精彩回顾(附PPT下载)
- 直播首屏耗时400ms以下的优化实践
- 2019年互联网大厂月饼大盘点,最丑的一家竟然是...
- Android studio中的一次编译报错’Error:Execution failed for task ':app:transformClassesWithDexForDebug‘,困扰了两天
- Python 必备要点总结及环境搭建(上)
- linux shell写日志,Linux shell编程之文件内容写入和日志记录
- css3中插入地图,CSS3 地图展开动画