lxml库的一些注意事项
lxml 的element.text返回的是这个元素第一个节点的内容,经常第一个节点下面还有子节点,所以这个不经常使用
2.lxml.html中的document_fromstring函数是返回一个完整的html网页,即第一个标签就是<html>
而fromstring不论是完整html和碎片html都可以处理,所以常用的是fromstring
官方文档中也有详细说明http://lxml.de/lxmlhtml.html
3.lxml对处理的字符必须要求是unicode格式
如果网页源代码是utf-8格式,可以用decode('utf-8', 'ignore'),gbk可以用decode('gbk','ignore')
4.清理HTML
from lxml.html.clean import Cleaner
cleaner = Cleaner(page_structure=False, links=False)
print cleaner.clean_html(html)
具体参数见文档http://lxml.de/api/lxml.html.clean.Cleaner-class.html
这个相当有用
5.text_content():
Returns the text content of the element, including the text content of its children, with no markup.
返回此元素下所有标签的文本,不包含html标签
官方文档http://lxml.de/lxmlhtml.html
参考http://www.tuicool.com/articles/yaemae
我个人用这个时,有时会有一些script标签,所以还是要过滤一下哈
6.tostring函数
在lxml.html和lxml.etree中都有,etree中的功能更多一些
注意:tostring返回的html都经过escape的,所以有时需要再unescape一下
7.获取innerHTML
def innerHTML(node): buildString = ''for child in node:buildString += html.tostring(child)return buildString
来源
http://stackoverflow.com/questions/15343218/get-divs-html-content-with-lxml
转载于:https://blog.51cto.com/pcliuyang/1541902
lxml库的一些注意事项相关推荐
- Python中lxml库的安装(Windows平台)
之前写过<Python中requests包的安装>,今天我需要安装lxml库,这里我尝试之前安装requests方式,但是没有成功,几经周折,终于总结出来了一个方法,这里拿出来给大家分享. ...
- 【Python爬虫学习笔记4】结合Xpath与lxml库解析数据
在之前的学习中了解了如何使用爬虫向目标服务器发送请求并获取响应,而此后便是要对响应进行处理,这里的处理在爬虫中通常指的是数据解析,即将相应内容数据化以方便我们进行有效数据的提取.在此过程中,有许多解析 ...
- python xpath语法-Python爬虫之XPath语法和lxml库的用法
本来打算写的标题是XPath语法,但是想了一下Python中的解析库lxml,使用的是Xpath语法,同样也是效率比较高的解析方法,所以就写成了XPath语法和lxml库的用法 安装 为什么要用这个库 ...
- python xpath语法-Python爬虫基础之XPath语法与lxml库的用法详解
前言 本来打算写的标题是XPath语法,但是想了一下Python中的解析库lxml,使用的是Xpath语法,同样也是效率比较高的解析方法,所以就写成了XPath语法和lxml库的用法 XPath 即为 ...
- 基于pip的安装lxml库报错解决方案
pip是python中经常使用可以便捷安装python其他库的一款软件,我们经常在命令行cmd中使用它. 安装lxml库的时候容易出现没法从网上安装twisted库的错误,解决方案是从将twisted ...
- Python 中 xpath 语法 与 lxml 库解析 HTML/XML 和 CSS Selector
The lxml.etree Tutorial :https://lxml.de/tutorial.html python3 解析 xml:https://www.cnblogs.com/deadwo ...
- python添加lxml库_Python lxml库简介
lxml是一个Python库,使用它可以轻松处理XML和HTML文件,还可以用于web爬取.市面上有很多现成的XML解析器,但是为了获得更好的结果,开发人员有时更愿意编写自己的XML和HTML解析器. ...
- 【爬虫剑谱】三卷4章 拾遗篇-关于lxml库下etree模块中Xpath表达式的使用小结
关于lxml库下etree模块中Xpath表达式在实战后的快速上手小结 一.Xpath表达式 1. 将 etree 对象实例化的两种方法 (1)etree.parse() 转本地HTML文档 (2)e ...
- python网络爬虫系列教程——python中lxml库应用全解(xpath表达式)
全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install lxml" 离线安装,下载 ...
- 爬虫学习笔记 -- 实战某电影网(lxml库版)
0x01 安装lxml库文件 pip3 install lxml 0x02 初始化字符串 1.通过HTML类初始化字符串 from lxml import etree import requests ...
最新文章
- 分层开发思想与小笼包
- document.body.offsetWidth 网页可见区域高宽,offset、client、scroll使用方法详解,页面位置距离
- python3 socket send sendall 区别
- 别人的Linux私房菜(17)进程管理与SELinux初探
- FineReport——JS二次开发(局部刷新)
- 类模板实现基于数组的栈
- 大端模式小端模式 主机序网络序
- windows的常用快捷键(实用篇)
- 解决问题的能力 10倍程序员
- 精讲23种设计模式-基于装饰模式~设计多级缓存框架
- Less 官方文档学习笔记
- <算法导论>练习4.3
- 华为HG8245光纤猫获得超级用户密码
- 笔记本电脑开机后发现突然扫描不到WiFi网络(WiFi列表消失)
- PCL实现点云选取并计算选取点法向量及可视化
- ORA-39097:Data Pump job encountered unexpected error 06502
- emc re 整改 超标_EMC设计RE辐射超标整改策略和定位流程
- 七分钟学会 HTML 网页制作
- 事业单位面试题 二(自我练习及答案)
- Html5中的input标签之多少
热门文章
- 软件2班36人[扑林作]
- Thought Works 培训总结
- bzoj 2795	[Poi2012]A Horrible Poem hash+线性筛
- windows 环境下.Net使用Redis缓存
- [充电]Code Review
- Sublime Text各种插件使用方法
- POJ 1647 One-move checkmate
- 将DataGrid中的数据导出为Excel的方法
- 关于data.table中i, j, by都为数字的理解
- 软件工程第十二周总结