xpath 取标签下所有文字内容_xpath提取目录下所有标签内的内容,递归 //text()...
利用xpath来提取所有标签里面的内容,即使标签头不同
#-*-coding:utf8-*-
import re
import os
from lxml import etree
html = '''
测试-常规用法
- 我
是
谁
- who
- am
- i!
- 你是
- 谁!
- who
- you
- are!
'''
selector = etree.HTML(html)
for k in range(1,3):
chinese = selector.xpath('//div[@id="content"][%s]/ul[@id="useful"]//text()'%k)
data = "".join([each for each in chinese])
english = selector.xpath('//div[@id="content"][%s]/ul[@id="useless"]//text()'%k)
Data = "".join([each for each in english])
print data
print Data
结果:
xpath 取标签下所有文字内容_xpath提取目录下所有标签内的内容,递归 //text()...相关推荐
- java获得src文件夹下的图片和 获得resource目录下的文件
java获得src文件夹下的图片和 获得resource目录下的文件 1 获得src文件夹下的图片 文件位置 获得url代码 URL url= getClass().getClassLoader(). ...
- linux怎么在目录下查找文件,linux find-在指定目录下查找文件
find命令用来在指定目录下查找文件.任何位于参数之前的字符串都将被视为欲查找的目录名.如果使用该命令时,不设置任何参数,则find命令将在当前目录下查找子目录与文件.并且将查找到的子目录和文件全部进 ...
- Shell sed命令,替换文件内容、替换目录下所有文件内容、读取文件内容
目录 替换文件内容 格式: 实例:将文件内的34:51替换为11:22 替换目录下所有文件内容 格式: 实例: 替换当前目录下内容有aaa的替换为bbb 读取文件内容 替换文件内容 格式: sed - ...
- Linux下CMake简明教程(四)不同目录下多个源文件
代码在git 一般来说,当程序文件比较多时,我们会进行分类管理,把代码根据功能放在不同的目录下,这样方便查找.那么这种情况下如何编写CMakeLists.txt呢? 我们把之前的源文件整理一下(新建2 ...
- Linux下CMake简明教程(二)同一目录下多个源文件
代码在git 接下来进入稍微复杂的例子:在同一个目录下有多个源文件.在之前的目录下添加2个文件,testFunc.c和testFunc.h.添加完后整体文件结构如下, (base) ledi@ledi ...
- Linux下CMake简明教程(三)同一目录下多个源文件
如果在同一目录下有多个源文件,那么只要在add_executable里把所有源文件都添加进去就可以了.但是如果有一百个源文件,再这样做就有点坑了,无法体现cmake的优越性,cmake提供了一个命令可 ...
- php遍历指定目录下的文件,PHP遍历指定目录下所有文件和目录
PHP目录遍历程序代码,将显示指定目录下的所有文件和文件夹,并列出这些文件,最后统计出文件总数.使用的PHP函数有is_dir.closedir.scan_dir等. 本代码比较准确,可判断目录下的是 ...
- Linux系统下C语言实现遍历该目录下所有文件
#include <stdio.h> #include <dirent.h> //头文件int ReadDir(char *path) //读取文件 {DIR *dir; ch ...
- 7.python 移动目录下的文件至另一个目录下
# srcfile 需要复制.移动的文件 # dstpath 目的地址import os import shutil from glob import globdef mymovefile(srcfi ...
最新文章
- 2008 R2 AD通过组策略针对用户进行限制QQ等软件的运行
- linux 查看 定时任务 crontab 日志记录
- python列表有固定大小吗,使用python自己写了一个固定长度的list
- 牛客题霸 [字符串变形]C++题解/答案
- 第三方开源项目名称_如何为您的开源项目选择品牌名称
- CUDA全局变量(__device__)的初始化与使用:cudaMemoryToSymbol、cudaMemoryFromSymbol、cudaGetSymbolAddress
- C# 3.0新语言特性和改进
- 深入学习java虚拟机第二版学习笔记
- vector::erase()的那些事儿
- 企业资源计划(ERP)原理与实践第二章
- office图标异常处理
- rest-assured一些使用心得
- tp6 gatewayWorker
- 更换ruby源----RubyGems 镜像 - 淘宝网
- 没有项目经验?软件测试简历项目经验怎么写...
- 炫酷3D相册❤ 520七夕情人节表白网页制作❤(HTML+CSS+JavaScript)
- 史上最全的Uboot常用命令汇总(超全面!超详细!)收藏这一篇就够了
- 初识C语言中的结构体(一)
- c++小项目:基于STL的演讲比赛流程管理系统
- Java基础篇-基本类型
热门文章
- vb6 datagrid表格垂直居中_老板不喜欢看你的Excel表格,学完这些美化技巧,早日升职加薪...
- 64位ie加载java失败_java-无法在AMD 64位平台上加载IA 32位.dll
- java泛型和注解,泛型 · 注解和泛型 · 看云
- python乘法表运算_Python入门教程(三):史上最全的Numpy计算函数总结,建议收藏!...
- java 数组 截取_Java成长孵化园---认识java(day09)
- Redis 实用技术——Pipeline
- 谈谈 final、finally、 finalize 有什么不同?
- oc 画一个圆弧_SolidWorks一步扫描特征,就可以画出一个螺母,你有思路吗
- 江苏计算机一级怎么自学,江苏计算机一级自学教程推荐:计算机基础及MS Office应用上机指导(2018年版)...
- IDEA中运行springboot+vue项目设置terminal路径