一、headers去掉后面的br或者 注释Accept-Encoding

注销设置Accept-Encoding为gzip,deflate,返回的网页是乱码

����g�/1�C�y�/�D�O��'��

self.headers = {...# 'Accept-Encoding': 'gzip, deflate, br','Accept-Encoding': 'gzip, deflate, br','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}

二、锟斤拷

是一串经常在搜索引擎页面和其他网站上看到的乱码字符。乱码源于GBK字符集和Unicode字符集之间的转换问题。

  • requests解决方案:

    import requests
    url = ''https://www.baidu.com/'
    res = requests.get(url)
    res.encoding=res.apparent_encoding  #获取网页正确的编码格式
    print(res.text)
    
  • scrapy 解决方案
    res =(request.text).encode('cp1252').decode('gbk')
    

三、utf8 编码,请求输出为乱码, 文章实际编码为ISO-8859-1

输出情况如下 新疆博湖县:博爱送万家暨迎
解决办法 res.content.decode('utf-8')

self.headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.9','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
}
uri = 'http://www.xj.chinanews.com/dizhou/2019-01-16/detail-ifzcufai2316598.shtml'
res = requests.get(url=uri, headers=self.headers)
print(res.encoding)  查看编码方式
print(res.content.decode('utf-8'))

四、gb2312

五、&#、&#x开头的字符串转换成中文

&#开头,后接十进制数字,&#x开头,后接十六进制数字。

import html
y = '93831'
print(html.unescape(y))
93831

六 utf8 转码 gbk 转码

s = '你好'
a = s.encode('utf8')
# b'\xe4\xbd\xa0\xe5\xa5\xbd' 6字节
b = s.encode('gbk')
# b'\xc4\xe3\xba\xc3’ 4个字节python把gdb格式的文本文件转为utf-8的格式
content.decode("gbk").encode("utf8")

unicode与ascii互转

涉及函数:ord()与 chr()、unichr()

总结

  • res = requests.get(url, headers=self.headers)
    1. 先查看返回的编码
    print(res.encoding)
    2. 进行编码
    print(res.content.decode('utf8'), 'ignore')
    
  • gbk转化成utf-8:���

  • utf-8转化成gbk:锟斤拷锟�

  • 进制的表示方法

    前缀表示法 进制 后缀表示法 进制
    十六进制 0x H 十六进制数
    十进制 无前缀 D 或 省略 十进制数
    八进制 0 Q 八进制数
    二进制 没有表示符号 B 二进制数

如果帮到你请点赞或者评论, 谢谢让我看到你

爬虫返回乱码以及解决办法以及锟斤拷、ISO-8859-1转码、#、#x转码、unicode转码,gbk转码,ascii转码相关推荐

  1. php 返回英文乱码,使用php 5时MySQL返回乱码的解决办法_php

    在使用 php 5 中,通过 mysql 查询得到的值全部成为 '???????',原来是字符集设错了. 我在安装 MySQL 5 时,已经选择默认字符集为 gb2312,但还是返回乱码,解决的办法是 ...

  2. python3 中文乱码 锟斤_乱码问题解决之“锟斤拷”

    原标题:乱码问题解决之"锟斤拷" 本文作者:张语盈 本文编辑:李朋冲 技术总编:薛 原 乱码是我们在用stata读入文件时经常会出现并且令人头疼的问题,当我们错误定义了读入文件的编 ...

  3. Python模拟锟斤拷等各类乱码

    锟拷码和口字码 说到乱码问题就不得不提到锟斤拷,这算是非常常见的一种乱码形式,那么它到底是经过何种错误操作产生的呢?下面我们一步步探究. 看一个基本示例: "��".encode( ...

  4. freetds php mssql 中文乱码,PHP读取mssql json数据中文乱码的解决办法

    PHP及网页使用UTF-8编码,数据库是sql server2008,使用默认编码(936,即GBK编码) 当读取数据库数据时,使用php自带的json_encode()返回到前端,结果中文不显示. ...

  5. C语言在读取txt类型文件中的汉字字符串出现乱码的解决办法

    题目 C语言在读取txt类型文件中的汉字字符串出现乱码的解决办法 以下是本篇文章正文内容,欢迎朋友们进行指正,一起探讨,共同进步.--来自考研路上的lwj 一.前言 当我们在练习文件这一章节时,因为需 ...

  6. linux unzip乱码,Linux 中unzip解压时中文乱码的解决办法

    Linux 中unzip解压时中文乱码的解决办法 Linux 中unzip解压时中文乱码的解决办法 当我们在linux中解压一个含有中文名字的压缩包如"资料.zip"时,如果直接使 ...

  7. mysql设置字符集 php_MySQL字符集编码设置与PHP显示乱码的解决办法

    转自:博客水木 http://shuimu.js.cn/mysql-php-character-set-encoding-settings-and-garbled-solution.html PHP显 ...

  8. ubuntu下文件名乱码的解决办法

    ubuntu下文件名乱码的解决办法 (2012-11-30 11:38:49) 转载▼ 标签: 终端 ubuntu it 分类:系统问题 ubuntu下文件名乱码的解决办法       最近一直在用u ...

  9. php excel中文名称乱码,phpexcel导出中文文件名乱码的解决办法

    使用phpexcel类库导出excel文件,文件名为中文时,在chrome浏览器下导出正常,在IE内核浏览器下导出文件名显示乱码,解决办法就是通过iconv函数转换编码,从utf-8转为gb2312, ...

  10. redhat enterprise 5 在 VMware 6.5 中中文显示乱码的解决办法

    redhat enterprise 5 在 VMware 6.5 中中文显示乱码的解决办法 事情的经过是这样的 记得以前曾经在VMware 5.5.3 上装过redhat 估计是9吧 当初我选的是图形 ...

最新文章

  1. 浅析Entity Framework Core2.0的日志记录与动态查询条件
  2. Crawling - Computing Ranking 很长时间, 怎么办?
  3. qunee for html5 api,Qunee for HTML5 - 中文 : 常见问题
  4. 说说你对binlog、redo log和undo log的理解
  5. nginx常用功能介绍
  6. 神策 2021 数据驱动大会,科特勒、桑文锋等发出营销未来之强音
  7. JZOJ 5405. 【NOIP2017提高A组模拟10.10】Permutation
  8. 理解C++中拷贝构造函数
  9. 第一次使用水晶报表,柱状图的横竖坐标不会定位,怎么办?
  10. 72. Edit Distance
  11. UIPikerView的属性和使用方法
  12. 用计算机弹歌我的歌声里,我的歌声里 (完整版)
  13. google erath api v3 与v2版本在定位方面的区别
  14. (转)比较全的OA模板
  15. 【原创】Web前端性能优化思维导图
  16. XP/WIN7系统中删除已结束进程托盘图标的方法
  17. bzoj4173 数学
  18. 基于POP3协议收取邮件
  19. hrbust 1865人类希望——kokoⅡ【思维】
  20. 如何将excel三列数据合为一列日期数据

热门文章

  1. 应该学会运用的十种人脉关系
  2. 使用d2rq把mysql转化为rdf_D2RQ
  3. Window 配置RabbitMQ
  4. 积分营销系统的优势知多少
  5. Eclipse代码格式化无效解决方案
  6. 东方财富股吧评论爬虫和情绪分析
  7. 麦吉尔大学统计与计算机科学,麦吉尔大学统计学和计算机科学本科.pdf
  8. Google IO 2018开发者大会:Android P
  9. BMP图像位图法隐藏信息
  10. 美通社企业新闻汇总 | 2019.1.21 | 春节访日可享受更多免税优惠;勃林格殷格翰国产化猪疫苗上市...