爬虫返回乱码以及解决办法以及锟斤拷、ISO-8859-1转码、#、#x转码、unicode转码,gbk转码,ascii转码
一、headers去掉后面的br或者 注释Accept-Encoding
注销设置Accept-Encoding为gzip,deflate,返回的网页是乱码
����g�/1�C�y�/�D�O��'��
self.headers = {...# 'Accept-Encoding': 'gzip, deflate, br','Accept-Encoding': 'gzip, deflate, br','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
二、锟斤拷
是一串经常在搜索引擎页面和其他网站上看到的乱码字符。乱码源于GBK字符集和Unicode字符集之间的转换问题。
- requests解决方案:
import requests url = ''https://www.baidu.com/' res = requests.get(url) res.encoding=res.apparent_encoding #获取网页正确的编码格式 print(res.text)
- scrapy 解决方案
res =(request.text).encode('cp1252').decode('gbk')
三、utf8 编码,请求输出为乱码, 文章实际编码为ISO-8859-1
输出情况如下 æ–°ç–†åšæ¹–县:åšçˆ±é€ä¸‡å®¶æš¨è¿Ž
解决办法 res.content.decode('utf-8')
self.headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.9','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
}
uri = 'http://www.xj.chinanews.com/dizhou/2019-01-16/detail-ifzcufai2316598.shtml'
res = requests.get(url=uri, headers=self.headers)
print(res.encoding) 查看编码方式
print(res.content.decode('utf-8'))
四、gb2312
五、&#、&#x开头的字符串转换成中文
&#开头,后接十进制数字,&#x开头,后接十六进制数字。
import html
y = '93831'
print(html.unescape(y))
93831
六 utf8 转码 gbk 转码
s = '你好'
a = s.encode('utf8')
# b'\xe4\xbd\xa0\xe5\xa5\xbd' 6字节
b = s.encode('gbk')
# b'\xc4\xe3\xba\xc3’ 4个字节python把gdb格式的文本文件转为utf-8的格式
content.decode("gbk").encode("utf8")
unicode与ascii互转
涉及函数:ord()与 chr()、unichr()
总结
res = requests.get(url, headers=self.headers) 1. 先查看返回的编码 print(res.encoding) 2. 进行编码 print(res.content.decode('utf8'), 'ignore')
gbk转化成utf-8:���
utf-8转化成gbk:锟斤拷锟�
进制的表示方法
前缀表示法 进制 后缀表示法 进制 十六进制 0x H 十六进制数 十进制 无前缀 D 或 省略 十进制数 八进制 0 Q 八进制数 二进制 没有表示符号 B 二进制数
如果帮到你请点赞或者评论, 谢谢让我看到你
爬虫返回乱码以及解决办法以及锟斤拷、ISO-8859-1转码、#、#x转码、unicode转码,gbk转码,ascii转码相关推荐
- php 返回英文乱码,使用php 5时MySQL返回乱码的解决办法_php
在使用 php 5 中,通过 mysql 查询得到的值全部成为 '???????',原来是字符集设错了. 我在安装 MySQL 5 时,已经选择默认字符集为 gb2312,但还是返回乱码,解决的办法是 ...
- python3 中文乱码 锟斤_乱码问题解决之“锟斤拷”
原标题:乱码问题解决之"锟斤拷" 本文作者:张语盈 本文编辑:李朋冲 技术总编:薛 原 乱码是我们在用stata读入文件时经常会出现并且令人头疼的问题,当我们错误定义了读入文件的编 ...
- Python模拟锟斤拷等各类乱码
锟拷码和口字码 说到乱码问题就不得不提到锟斤拷,这算是非常常见的一种乱码形式,那么它到底是经过何种错误操作产生的呢?下面我们一步步探究. 看一个基本示例: "��".encode( ...
- freetds php mssql 中文乱码,PHP读取mssql json数据中文乱码的解决办法
PHP及网页使用UTF-8编码,数据库是sql server2008,使用默认编码(936,即GBK编码) 当读取数据库数据时,使用php自带的json_encode()返回到前端,结果中文不显示. ...
- C语言在读取txt类型文件中的汉字字符串出现乱码的解决办法
题目 C语言在读取txt类型文件中的汉字字符串出现乱码的解决办法 以下是本篇文章正文内容,欢迎朋友们进行指正,一起探讨,共同进步.--来自考研路上的lwj 一.前言 当我们在练习文件这一章节时,因为需 ...
- linux unzip乱码,Linux 中unzip解压时中文乱码的解决办法
Linux 中unzip解压时中文乱码的解决办法 Linux 中unzip解压时中文乱码的解决办法 当我们在linux中解压一个含有中文名字的压缩包如"资料.zip"时,如果直接使 ...
- mysql设置字符集 php_MySQL字符集编码设置与PHP显示乱码的解决办法
转自:博客水木 http://shuimu.js.cn/mysql-php-character-set-encoding-settings-and-garbled-solution.html PHP显 ...
- ubuntu下文件名乱码的解决办法
ubuntu下文件名乱码的解决办法 (2012-11-30 11:38:49) 转载▼ 标签: 终端 ubuntu it 分类:系统问题 ubuntu下文件名乱码的解决办法 最近一直在用u ...
- php excel中文名称乱码,phpexcel导出中文文件名乱码的解决办法
使用phpexcel类库导出excel文件,文件名为中文时,在chrome浏览器下导出正常,在IE内核浏览器下导出文件名显示乱码,解决办法就是通过iconv函数转换编码,从utf-8转为gb2312, ...
- redhat enterprise 5 在 VMware 6.5 中中文显示乱码的解决办法
redhat enterprise 5 在 VMware 6.5 中中文显示乱码的解决办法 事情的经过是这样的 记得以前曾经在VMware 5.5.3 上装过redhat 估计是9吧 当初我选的是图形 ...
最新文章
- 浅析Entity Framework Core2.0的日志记录与动态查询条件
- Crawling - Computing Ranking 很长时间, 怎么办?
- qunee for html5 api,Qunee for HTML5 - 中文 : 常见问题
- 说说你对binlog、redo log和undo log的理解
- nginx常用功能介绍
- 神策 2021 数据驱动大会,科特勒、桑文锋等发出营销未来之强音
- JZOJ 5405. 【NOIP2017提高A组模拟10.10】Permutation
- 理解C++中拷贝构造函数
- 第一次使用水晶报表,柱状图的横竖坐标不会定位,怎么办?
- 72. Edit Distance
- UIPikerView的属性和使用方法
- 用计算机弹歌我的歌声里,我的歌声里 (完整版)
- google erath api v3 与v2版本在定位方面的区别
- (转)比较全的OA模板
- 【原创】Web前端性能优化思维导图
- XP/WIN7系统中删除已结束进程托盘图标的方法
- bzoj4173 数学
- 基于POP3协议收取邮件
- hrbust 1865人类希望——kokoⅡ【思维】
- 如何将excel三列数据合为一列日期数据
热门文章
- 应该学会运用的十种人脉关系
- 使用d2rq把mysql转化为rdf_D2RQ
- Window 配置RabbitMQ
- 积分营销系统的优势知多少
- Eclipse代码格式化无效解决方案
- 东方财富股吧评论爬虫和情绪分析
- 麦吉尔大学统计与计算机科学,麦吉尔大学统计学和计算机科学本科.pdf
- Google IO 2018开发者大会:Android P
- BMP图像位图法隐藏信息
- 美通社企业新闻汇总 | 2019.1.21 | 春节访日可享受更多免税优惠;勃林格殷格翰国产化猪疫苗上市...