python爬虫返回文本为乱码的解决方法
1、在网站爬取文章时,返回的结果为乱码,如下
2、出现这种情况是因为访问page_text.text时,Requests会使用其推测的文本编码。
查看网页返回的字符集类型:page_text.apparent_encoding
查看自动判断的字符集类型:page_text.encoding
可以看到Requests推测的文本编码(ISO-8859-1)与源网页编码(utf-8)不一致
3、解决方法
(1)方法一:在page_text.text之前,指定page_text.encoding为源网页的编码格式
page_text.encoding = 'utf-8'
(2)方法二:通过page_text.apparent_encoding属性来指定,直接将其值赋给page_text.encoding
r.encoding = r.apparent_encoding
python爬虫返回文本为乱码的解决方法相关推荐
- scrapy爬虫返回302,301,解决方法
scrapy爬虫返回302,301,解决方法 参考文章: (1)scrapy爬虫返回302,301,解决方法 (2)https://www.cnblogs.com/s5vc/p/10437242.ht ...
- java写到txt乱码_java读取txt文本发生乱码的解决方法
java读取txt文本发生乱码的解决方法 发布时间:2020-06-25 17:35:58 来源:亿速云 阅读:90 作者:Leah 本篇文章为大家展示了java读取txt文本发生乱码的解决方法,代码 ...
- python requests返回结果带\\u的解决方法
request请求里结果带\u的解决方法 形如 "\\u80a1\\u7968\\u4ee3\\u7801" 解决方法 result = result.content.decode ...
- 【转载】C#中StreamReader读取中文文本出现乱码的解决方法
首先O(∩_∩)O谢谢一品梅分享了自己的经验,这是他的blog原文地址 http://www.cnblogs.com/onlyendure/archive/2008/03/25/1121247.htm ...
- python读取文件路径乱码 linux_Python之pandas读写文件乱码的解决方法
Python之pandas读写文件乱码的解决方法 python读写文件有时候会出现 'XXX'编码不能打开XXX什么的,用记事本打开要读取的文件,另存为UTF-8编码,然后再用py去读应该可以了.如果 ...
- 连享会-Python爬虫与文本分析专题 (2019.5.17-19)
连享会-Python爬虫与文本分析专题研讨班 文章目录 连享会-Python爬虫与文本分析专题研讨班 1. 课程概览 2. 嘉宾简介 3. 授课内容 3.1 课程介绍 为什么要学爬虫和文本分析? 为什 ...
- python爬虫与文本数据分析 系列课
在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学.管 ...
- python处理json数据 乱码报错_python操作mysql中文显示乱码的解决方法
本文实例展示了一个脚本python用来转化表配置数据xml并生成相应的解析代码. 但是在中文编码上出现了乱码,现将解决方法分享出来供大家参考. 具体方法如下: 1. Python文件设置编码 utf- ...
- python为运行为何出现乱码_解决执行python脚本出现乱码的问题
解决执行python脚本出现乱码的问题 发布时间:2020-08-11 09:19:22 来源:亿速云 阅读:111 作者:小新 小编给大家分享一下解决执行python脚本出现乱码的问题,相信大部分人 ...
最新文章
- 树状数组 | 1057
- 9.65 最长上升子序列
- WinForm 实现两个容器之间控件的拖动及排列(图文)
- mysql only_full_group_by报错的问题(转)
- li 前面的缩进怎么去除?
- Spring学习笔记:Spring整合Mybatis(mybatis-spring.jar)(二:mybatis整合spring)
- UA MATH563 概率论的数学基础2 随机变量1 随机变量与分布函数
- linux mount 挂载U盘
- 关于STM32使用RTC时复位后程序死在 RTC
- 使用script命令自动录屏用户操作
- xmemcached spring 配置文件
- 走近CTPN:1. 解读README
- 【132天】尚学堂高淇Java300集视频精华笔记(67-70)
- 新唐M261M262M263系列芯片知识总结归纳(2)
- 惠普打印机介质不匹配_HP打印机驱动安装失败的解决办法
- Educational Codeforces Round 91 (Rated for Div. 2) D. Berserk And Fireball
- 网站地图制作百度地图google地图制作方法
- 软件工程师工作经历_我学会成为高级软件工程师的经历
- [音乐] 逆转裁判1~4 追求 链接
- luogu P4238 【模板】多项式乘法逆