xpath提取目录下所有标签内的内容，递归 //text（）

利用xpath来提取所有标签里面的内容，即使标签头不同

 1 #-*-coding:utf8-*-
 2 import re
 3 import os
 4 from lxml import etree
 5 html = '''
 6 <!DOCTYPE html>
 7 <html>
 8 <head lang="en">
 9     <meta charset="UTF-8">
10     <title>测试-常规用法</title>
11 </head>
12 <body>
13 <div id="content">
14     <ul id="useful">
15     <li>我</li>
16     <ml>是</ml>
17     <li>谁</li>
18     </ul>
19     <ul id="useless">
20     <li>who </li>
21     <li>am </li>
22     <li>i！</li>
23     </ul>
24 </div>
25 <div id="content">
26     <ul id="useful"><li>你</li><ml>是</ml><li>谁！</li>
27     </ul>
28     <ul id="useless"><li>who </li><li>you </li><li>are！</li>
29     </ul>
30 </div>
31
32 </body>
33 </html>
34 '''
35 selector = etree.HTML(html)
36 for k in range(1,3):
37     chinese = selector.xpath('//div[@id="content"][%s]/ul[@id="useful"]//text()'%k)
38     data = "".join([each for each in chinese])
39     english = selector.xpath('//div[@id="content"][%s]/ul[@id="useless"]//text()'%k)
40     Data = "".join([each for each in english])
41     print data
42     print Data

结果：

转载于:https://www.cnblogs.com/lovychen/p/5671287.html

xpath提取目录下所有标签内的内容，递归 //text（）相关推荐

xpath 取标签下所有文字内容_xpath提取目录下所有标签内的内容，递归 //text（）...
利用xpath来提取所有标签里面的内容,即使标签头不同 #-*-coding:utf8-*- import re import os from lxml import etree html = ''' ...
C#正则_取出标签内的内容（非贪婪）
using System.Text.RegularExpressions; /// <summary> /// 执行正则提取出值 /// </summ ...
php 删除指定html标签,总结php删除html标签和标签内的内容的方法
经常扒别人网站文章的坑们:我是指那种批量式采集的压根不看内容的,少不了都会用到删除html标签的函数:这里介绍3种不同用途上的方法: $str=' 这里是p标签这里是a标签 '; 1:删除全部或者保 ...
python打开一个文件夹下所有txt文件-python读取一个目录下所有txt里面的内容方法...
实例如下所示: import os allFileNum = 0 def printPath(level, path): global allFileNum ''''' 打印一个目录下的所有文件夹和文 ...
python怎么导入txt文件夹-python读取一个目录下所有txt里面的内容方法
实例如下所示: import os allFileNum = 0 def printPath(level, path): global allFileNum ''''' 打印一个目录下的所有文件夹和文 ...
总结php删除html标签和标签内的内容的方法
经常扒别人网站文章的坑们: 我是指那种批量式采集的压根不看内容的: 少不了都会用到删除html标签的函数: 这里介绍3种不同用途上的方法: $str='<div><p>这里是p ...
使用正则表达式匹配 HTML 标签内的内容
正则表达式如下 /(?<=((<[a-zA-Z-]+?){0,1}>))([\s\S]+)(?=([\s]{0,1}<\/[a-zA-Z-]+(>{0,1})))/g 测 ...
请问一下用xpath提取信息时，遇到网页文本中有br标签，提取不到br标签后的内容怎么处理呢
# Xpath提取 node_list = response.xpath("//div[@class='article block untagged mb15 typs_hot']" ...
python爬虫时删除多余标签内的内容remove、remove_tags
当爬取到内容后,发现有些便签内的内容不是我们想要的,这时只能通过删除多余标签的方法来进行处理 doc = pq(html)doc('.article-t style').remove() 如上是:想要 ...
python soup提取叶子标签_python 利用beautifulSoup提取页面多个标签的文本内容
初学beautifulsoup解析库,拿一个招聘网页练手,想达到提取多个标签的文本内容,但是目前只可以提取到单个标签的单个文本内容,多标签的文本如何提取? from requests.exceptio ...

xpath提取目录下所有标签内的内容，递归 //text（）

xpath提取目录下所有标签内的内容，递归 //text（）相关推荐

最新文章

热门文章