lxml xpath 爬取并正常显示中文内容
在使用python爬虫提取中文网页的内容,为了能正确显示中文的内容,在转为字符串时一定要声明编码为utf-8,否则无法正常显示中文,而是显示原编码的字符,并没有正确转换。比如下面这个简单的爬取百度页面的title的示例:
import os import lxml from urllib2 import urlopen # Mac # from urllib.request import Request, urlopen # Win from lxml import etreehfile = urlopen('http://www.baidu.com').read() tree = etree.HTML(hfile) strs = tree.xpath( "//title") strs = strs[0] # strs = (etree.tostring(strs)) # 不能正常显示中文 strs = (etree.tostring(strs, encoding = "utf-8", pretty_print = True, method = "html")) # 可以正常显示中文 print (strs)
如果不在tostring函数中正确配置的话,会打印出:
<title>百度一下,你就知道</title>
而正确的应该是:
<title>百度一下,你就知道</title>
本文转自博客园Grandyang的博客,原文链接:lxml xpath 爬取并正常显示中文内容
,如需转载请自行联系原博主。
lxml xpath 爬取并正常显示中文内容相关推荐
- python 爬取豆瓣某一主题书单_Python爬虫 || 使用requests和xpath爬取豆瓣Top250书单内容全解。...
昨天,我们了解了如何爬取豆瓣某一个电影固定的位置信息,包含电影名称.导演.演员及评分等,今天我们来了解一下如何爬取豆瓣Top250书单,并如何将爬取到的内容存放到本地. 废话不多说了,shou my ...
- Requests+Xpath 爬取豆瓣读书TOP并生成txt,csv,json,excel文件
说明: ##来源:https://www.cnblogs.com/yizhiamumu/p/10270926.html 1 Requests+Xpath 爬取豆瓣读书TOP ''' Requests+ ...
- python爬取豆瓣书籍_Python利用lxml模块爬取豆瓣读书排行榜的方法与分析
前言 上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的 ...
- python爬虫模块排名_Python爬虫使用lxml模块爬取豆瓣读书排行榜并分析
上次使用了beautifulsoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的首页地 ...
- xpath爬取我爱我家杭州地区租房网
xpath爬取我爱我家杭州地区租房网 分析房源信息列表页 网页的请求属于get,然后找我们需要的信息所在的模块 可以看见我们需要的网页数据在doc模块中,找到这个模块,分析他的请求,在requests ...
- xpath爬取手机壁纸
xpath爬取实例 文章目录 系列文章目录 前言 一.模块导入 二.示例 1.单图爬取 2.多图爬取 总结 前言 提示:这里可以添加本文要记录的大概内容: 本节主要介绍在学习过程中掌握的爬取图片的简单 ...
- xpath爬取当当网
xpath爬取当当网 import requests from lxml import etree #from itertools import chain #import json # 利用接口读取 ...
- 使用Xpath爬取校花网,致敬10年前的校花『和』我们逝去的青春
使用xpath爬取校花网 难点: 1.各个分类栏目下的页码url不统一 2.只取前三页,或者后三页 文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒. 所以就-哈哈 ...
- 利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中
我们的需求是利用xpath爬取链家租房房源数据,并将数据通过pandas保存到Excel文件当中 下面我们看一下链家官网的房源信息(以北京为例) 如图所示,我们通过筛选得到北京租房信息 那么我们需要将 ...
最新文章
- 2022-2028年中国肉制品行业市场调查研究及前瞻分析报告
- 死脑筋要活用(我只放贴图)01
- Python自动化运维技术与最佳实现
- Android 三方库lottie、mmkv的使用
- 利用bind搭建dns
- html number方法,JavaScript Number 对象
- 阿波罗登月51周年,程序员用DAIN技术还原阿波罗登月高清影像,效果震撼
- c语言流水灯小程序,流水灯小程序.doc
- met40如何升级成鸿蒙系统,再见了,EMUI11!你好,华为鸿蒙!
- LeetCode 1410. HTML 实体解析器(哈希map)
- 按条件增加列_12个公式解决Excel按条件多列求和,掌握两、三个就够用了
- python编写网页游戏脚本_[大数据]用Python脚本做一些网页游戏中力所能及的自动化任务 - 码姐姐找文...
- Xcode 7 App Transport Security has blocked a cleartext HTTP 报错解决办法
- java 指针 地址压缩_JVM优化之压缩普通对象指针(CompressedOops)
- 带你全面的了解二叉树
- C语言文件拷贝-四种方式
- python灰色预测模型步骤人口预测_人口预测模型灰色预测
- Android apk签名
- 麻将牌型说明最全版(图文介绍)
- 蓝牙Mesh开发五 Ble Mesh友谊FriendShip之TLSR8258低功耗节点