由于爬取的网页编码格式是“gb2312”格式的,所以第一反应就是也用这个格式编码和解码

import re
from lxml import etree
import html
with open('test.html','r',encoding='gbk') as f:c = f.read()
s = re.sub(r'\n',' ',c)
tree = etree.HTML(c)
rows = tree.xpath("//ul[@class='bang_list clearfix bang_list_mode']/li")
for row in rows:boards = {}s1 = etree.tostring(row).decode('gbk')s1 = html.unescape(s1)print(s1)break


由于 “gbk” 包括 “gb2312”所以使用了 “gbk”,其实结果都一样
翻看了好多博客发现:

爬取的所有网页无论何种编码格式,都转化为 utf-8 格式进行存储

具体什么原因现在我也没清楚,留着后续补充吧

但是关于 gbk 或者 gb2312 格式的网页牵扯到存储时,转换成 utf-8 格式是没错的

import re
from lxml import etree
import html
with open('test.html','r',encoding='utf-8') as f:c = f.read()
s = re.sub(r'\n',' ',c)
tree = etree.HTML(c)
rows = tree.xpath("//ul[@class='bang_list clearfix bang_list_mode']/li")for row in rows:boards = {}s1 = etree.tostring(row).decode('utf-8')s1 = html.unescape(s1)print(s1)break

正常显示

爬虫:UnicodeDecodeError: 'gbk' codec can't decode byte 0xa6 in position相关推荐

  1. 踩坑记-- UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa6 in position 17: illegal multibyte seque

    在使用exejs运行js代码的时候发生如下报错,但是在命令行去运行js文件正常: Exception in thread Thread-1: Traceback (most recent call l ...

  2. UnicodeDecodeError: 'gbk' codec can't decode byte 0xa6 in position 34: illegal multibyte sequence

    在做写诗机器人的诗词预处理时,出现错误.原代码如下: poems = [] file = open('poetryTang.txt','r' ) for line in file.readlines( ...

  3. UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa6 in position 34: illegal multibyte sequence

    python读取TXT文件时出现错误 with open(r'高等数学.txt') as file_object:contents=file_object.read()print(contents) ...

  4. 关于UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa6 in position 9737: 的解决

    异常原因: 判断这个版本django由于出错信息的代码有编码读取问题 造成无法正常显示. 根据提示找到 python安装路径\Lib\site-packages\django\views\debug. ...

  5. anaconda -spyder报错解决-UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 611: illegal

    此文首发于我的个人博客:anaconda -spyder报错解决-UnicodeDecodeError 'gbk' codec can't decode byte 0x93 in position 6 ...

  6. 解决Python报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 658: illegal multibyte

    解决Python报错–UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 658: illegal multibyte ...

  7. UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 658: illegal multibyte sequence

    解决Python报错–UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 658: illegal multibyte ...

  8. 编码调试:UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xaf in position 12: illegal multibyte sequen

    在程序段: stopkey = [w.strip() for w in codecs.open('data/stopWord.txt', 'r').readlines()] 出现错误: Unicode ...

  9. 成功解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xba in position 2: illegal multibyte sequence

    成功解决UnicodeDecodeError: 'gbk' codec can't decode byte 0xba in position 2: illegal multibyte sequence ...

最新文章

  1. RxSwift设置 UITextField文本订阅未响应
  2. Python切片中的误区与高级用法
  3. linux 光盘yum源搭建
  4. oracle备份还原采集,oracle 备份还原
  5. 新一代 Python 包管理工具来了!
  6. wordpress 静态化 linux,WordPress如何静态化
  7. 快报:Python 被爆重大“黑料”!程序员:劲爆!
  8. 普罗米修斯监控java项目_java学到什么程度可以出去实习?
  9. docker swarm
  10. 计算机视觉目标检测算法总结5——RCNN系列算法
  11. 程序员级别,你到哪一级?
  12. 图:广州南洋理工职业学院管理系“相聚南洋”朗诵(演讲)比赛尘埃落定
  13. exposed beyond app through Intent.getData()
  14. sql server的linux版命令行,Linux配置SQLServer
  15. sqlserver2008r2安装_SQL2008R2图文安装步骤详解
  16. 前端学习之CSS模块
  17. 计算机考验数学 英语分数要求,2020考研数学一110分,能过985大学复试线?通过这3所大学来预测...
  18. Java 性能优化的七个方向
  19. WPF弹窗框自定义可自定义样式
  20. 蔚来汽车前端春招一面面经(2021.4.21)

热门文章

  1. 苍蝇也有自己的“领空”吗?
  2. 赵小楼《天道》《遥远的救世主》深度解析(81)一个不愿躺着对话的女人,应给与绝对尊严,这符合强势文化范畴
  3. mysql 字符串用省略号_SQL截取字符串,后加省略号的处理办法
  4. 录屏软件哪个好?电脑录屏软件排行榜推荐
  5. 刚刚马化腾发布腾讯超级大脑,腾讯云AI服务全面免费接入!
  6. 密码锁屏保护隐私更安全,这款口碑好的手机浏览器值得拥有
  7. 如何解决租房烦恼?阿里工程师写了一套神奇的代码
  8. Anaconda+Pycharm下载及环境配置
  9. MySQL Workbench报错说 seems to be a different OS
  10. 形容谣言的四字词语_形容会说谎的四字词