lxml库的一些注意事项

lxml 的element.text返回的是这个元素第一个节点的内容，经常第一个节点下面还有子节点，所以这个不经常使用

2.lxml.html中的document_fromstring函数是返回一个完整的html网页，即第一个标签就是<html>

而fromstring不论是完整html和碎片html都可以处理，所以常用的是fromstring

官方文档中也有详细说明http://lxml.de/lxmlhtml.html

3.lxml对处理的字符必须要求是unicode格式

如果网页源代码是utf-8格式，可以用decode('utf-8', 'ignore')，gbk可以用decode('gbk','ignore')

4.清理HTML

from lxml.html.clean import Cleaner

cleaner = Cleaner(page_structure=False, links=False)

print cleaner.clean_html(html)

具体参数见文档http://lxml.de/api/lxml.html.clean.Cleaner-class.html

这个相当有用

5.text_content():

Returns the text content of the element, including the text content of its children, with no markup.

返回此元素下所有标签的文本，不包含html标签

官方文档http://lxml.de/lxmlhtml.html

参考http://www.tuicool.com/articles/yaemae

我个人用这个时，有时会有一些script标签，所以还是要过滤一下哈

6.tostring函数

在lxml.html和lxml.etree中都有，etree中的功能更多一些

注意:tostring返回的html都经过escape的，所以有时需要再unescape一下

7.获取innerHTML

def innerHTML(node): buildString = ''for child in node:buildString += html.tostring(child)return buildString

来源

http://stackoverflow.com/questions/15343218/get-divs-html-content-with-lxml

转载于:https://blog.51cto.com/pcliuyang/1541902

lxml库的一些注意事项相关推荐

Python中lxml库的安装(Windows平台)
之前写过<Python中requests包的安装>,今天我需要安装lxml库,这里我尝试之前安装requests方式,但是没有成功,几经周折,终于总结出来了一个方法,这里拿出来给大家分享. ...
【Python爬虫学习笔记4】结合Xpath与lxml库解析数据
在之前的学习中了解了如何使用爬虫向目标服务器发送请求并获取响应,而此后便是要对响应进行处理,这里的处理在爬虫中通常指的是数据解析,即将相应内容数据化以方便我们进行有效数据的提取.在此过程中,有许多解析 ...
python xpath语法-Python爬虫之XPath语法和lxml库的用法
本来打算写的标题是XPath语法,但是想了一下Python中的解析库lxml,使用的是Xpath语法,同样也是效率比较高的解析方法,所以就写成了XPath语法和lxml库的用法安装为什么要用这个库 ...
python xpath语法-Python爬虫基础之XPath语法与lxml库的用法详解
前言本来打算写的标题是XPath语法,但是想了一下Python中的解析库lxml,使用的是Xpath语法,同样也是效率比较高的解析方法,所以就写成了XPath语法和lxml库的用法 XPath 即为 ...
基于pip的安装lxml库报错解决方案
pip是python中经常使用可以便捷安装python其他库的一款软件,我们经常在命令行cmd中使用它. 安装lxml库的时候容易出现没法从网上安装twisted库的错误,解决方案是从将twisted ...
Python 中 xpath 语法与 lxml 库解析 HTML/XML 和 CSS Selector
The lxml.etree Tutorial :https://lxml.de/tutorial.html python3 解析 xml:https://www.cnblogs.com/deadwo ...
python添加lxml库_Python lxml库简介
lxml是一个Python库,使用它可以轻松处理XML和HTML文件,还可以用于web爬取.市面上有很多现成的XML解析器,但是为了获得更好的结果,开发人员有时更愿意编写自己的XML和HTML解析器. ...
【爬虫剑谱】三卷4章拾遗篇-关于lxml库下etree模块中Xpath表达式的使用小结
关于lxml库下etree模块中Xpath表达式在实战后的快速上手小结一.Xpath表达式 1. 将 etree 对象实例化的两种方法 (1)etree.parse() 转本地HTML文档 (2)e ...
python网络爬虫系列教程——python中lxml库应用全解（xpath表达式）
全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install lxml" 离线安装,下载 ...
爬虫学习笔记 -- 实战某电影网（lxml库版）
0x01 安装lxml库文件 pip3 install lxml 0x02 初始化字符串 1.通过HTML类初始化字符串 from lxml import etree import requests ...

lxml库的一些注意事项

lxml库的一些注意事项相关推荐

最新文章

热门文章