在使用python爬虫提取中文网页的内容,为了能正确显示中文的内容,在转为字符串时一定要声明编码为utf-8,否则无法正常显示中文,而是显示原编码的字符,并没有正确转换。比如下面这个简单的爬取百度页面的title的示例:

import os
import lxml
from urllib2 import urlopen # Mac
# from urllib.request import Request, urlopen # Win
from lxml import etreehfile = urlopen('http://www.baidu.com').read()
tree = etree.HTML(hfile)
strs = tree.xpath( "//title")
strs = strs[0]
# strs = (etree.tostring(strs)) # 不能正常显示中文
strs = (etree.tostring(strs, encoding = "utf-8", pretty_print = True, method = "html")) # 可以正常显示中文
print (strs)

如果不在tostring函数中正确配置的话,会打印出:

<title>&#30334;度一下,你就知道</title>

而正确的应该是:

<title>百度一下,你就知道</title>

本文转自博客园Grandyang的博客,原文链接:lxml xpath 爬取并正常显示中文内容

,如需转载请自行联系原博主。

lxml xpath 爬取并正常显示中文内容相关推荐

  1. python 爬取豆瓣某一主题书单_Python爬虫 || 使用requests和xpath爬取豆瓣Top250书单内容全解。...

    昨天,我们了解了如何爬取豆瓣某一个电影固定的位置信息,包含电影名称.导演.演员及评分等,今天我们来了解一下如何爬取豆瓣Top250书单,并如何将爬取到的内容存放到本地. 废话不多说了,shou my ...

  2. Requests+Xpath 爬取豆瓣读书TOP并生成txt,csv,json,excel文件

    说明: ##来源:https://www.cnblogs.com/yizhiamumu/p/10270926.html 1 Requests+Xpath 爬取豆瓣读书TOP ''' Requests+ ...

  3. python爬取豆瓣书籍_Python利用lxml模块爬取豆瓣读书排行榜的方法与分析

    前言 上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的 ...

  4. python爬虫模块排名_Python爬虫使用lxml模块爬取豆瓣读书排行榜并分析

    上次使用了beautifulsoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的首页地 ...

  5. xpath爬取我爱我家杭州地区租房网

    xpath爬取我爱我家杭州地区租房网 分析房源信息列表页 网页的请求属于get,然后找我们需要的信息所在的模块 可以看见我们需要的网页数据在doc模块中,找到这个模块,分析他的请求,在requests ...

  6. xpath爬取手机壁纸

    xpath爬取实例 文章目录 系列文章目录 前言 一.模块导入 二.示例 1.单图爬取 2.多图爬取 总结 前言 提示:这里可以添加本文要记录的大概内容: 本节主要介绍在学习过程中掌握的爬取图片的简单 ...

  7. xpath爬取当当网

    xpath爬取当当网 import requests from lxml import etree #from itertools import chain #import json # 利用接口读取 ...

  8. 使用Xpath爬取校花网,致敬10年前的校花『和』我们逝去的青春

    使用xpath爬取校花网 难点: 1.各个分类栏目下的页码url不统一 2.只取前三页,或者后三页 文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒. 所以就-哈哈 ...

  9. 利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中

    我们的需求是利用xpath爬取链家租房房源数据,并将数据通过pandas保存到Excel文件当中 下面我们看一下链家官网的房源信息(以北京为例) 如图所示,我们通过筛选得到北京租房信息 那么我们需要将 ...

最新文章

  1. 2022-2028年中国肉制品行业市场调查研究及前瞻分析报告
  2. 死脑筋要活用(我只放贴图)01
  3. Python自动化运维技术与最佳实现
  4. Android 三方库lottie、mmkv的使用
  5. 利用bind搭建dns
  6. html number方法,JavaScript Number 对象
  7. 阿波罗登月51周年,程序员用DAIN技术还原阿波罗登月高清影像,效果震撼
  8. c语言流水灯小程序,流水灯小程序.doc
  9. met40如何升级成鸿蒙系统,再见了,EMUI11!你好,华为鸿蒙!
  10. LeetCode 1410. HTML 实体解析器(哈希map)
  11. 按条件增加列_12个公式解决Excel按条件多列求和,掌握两、三个就够用了
  12. python编写网页游戏脚本_[大数据]用Python脚本做一些网页游戏中力所能及的自动化任务 - 码姐姐找文...
  13. Xcode 7 App Transport Security has blocked a cleartext HTTP 报错解决办法
  14. java 指针 地址压缩_JVM优化之压缩普通对象指针(CompressedOops)
  15. 带你全面的了解二叉树
  16. C语言文件拷贝-四种方式
  17. python灰色预测模型步骤人口预测_人口预测模型灰色预测
  18. Android apk签名
  19. 麻将牌型说明最全版(图文介绍)
  20. 蓝牙Mesh开发五 Ble Mesh友谊FriendShip之TLSR8258低功耗节点

热门文章

  1. ylbtech-LanguageSamples-Generics(泛型)
  2. 将要看的两本书 - Hide From All - ITeye技术网站
  3. 日志切割清理工具 Log-Cutter
  4. TD-SCDMA向HSPA+的演进
  5. 数据之路 Day8 Numpy包
  6. 一场稳定、高清、流畅的大型活动直播是怎么炼成的?
  7. 推荐一个 Java 实体映射工具 MapStruct
  8. 二、数据库的基本操作
  9. 政务数据放开在即 政策红利下大数据投资亮点凸显
  10. 深入理解JAVA序列化