问题:

今天在做爬虫的时候遇到如下问题,提示gbk编码方式无法对字符’\xa9’进行编码。
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa9’ in position 25703: illegal multibyte sequence

解决:

1、查看爬取网页的编码格式为’utf-8’,我使用的编码也是’utf-8’,此处没有问题;
2、使用print(’\xa9’),得到特殊字符,此字符在utf-8下是可以正常显示的;

3、综上考虑是在将获得的网页代码保存到本地时出了问题。由于中文windows系统使用gbk作为默认的编码方式,所以部分unicode字符是无法准确的在系统上进行显示的。
此处将写入的txt编码格式从默认的gbk改为utf-8即可正常存储。

注:

在python2中由于python默认的编码方式为ascii码,所以在进行操作时要遵循 'Decode early, Unicode everywhere, Encode late’的原则,各个编码格式显示的使用unicode作为中转。
而python3中的python默认的编码方式为unicode,在使用中会比python2简单很多,但是依然要考虑到操作系统的编码方式对数据存储的影响。

爬虫问题小记 --- UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 25703: illegal相关推荐

  1. Python报错UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 1919: illegal mult

    with open("a.html", 'w') as f:f.write(html) python在写入文件时报错 UnicodeEncodeError: 'gbk' codec ...

  2. UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 314810: illegal multibyte

    遇到这个错误,在网上找了很久.大家都说的是原理为啥会这样,首先确定这是特殊字符,一般用不上,不需要.这就简单了,用正表达式把它删除了就可以了 比如出错的就是:\xa9 这个字符 # 这个一般都是需要输 ...

  3. Python3 解决编码问题: UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position

    原博文链接:http://www.aobosir.com/blog/2016/12/08/python3-UnicodeEncodeError-gbk-codec-can't-encode-chara ...

  4. UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xe7‘ in position 295: illegal multibyte seq

    解决UnicodeEncodeError: 'gbk' codec can't encode character '\xe7' in position 295: illegal multibyte s ...

  5. 解决python UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xb5‘ in position 255: illegal mult

    UnicodeEncodeError: 'gbk' codec can't encode character '\ufffd' in position 373: illegal multibyte s ...

  6. UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xa0‘ in position 21: illegal multibyte sequ

    关于python的pywinaotu库print_control_identifiers()因为获取内容有'\xa0'而报错 报错内容: UnicodeEncodeError: 'gbk' codec ...

  7. UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\u0467‘ in position 0: illegal multibyte解决方案

      大家好,我是herosunly.985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用.曾获得阿里云天池比赛第一名,科大讯飞比赛第三名,CCF比赛第四名.拥有多项发明专利.对机器学 ...

  8. UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xee‘ in position 71: illegal multibyte sequ

    成功解决:UnicodeEncodeError: 'gbk' codec can't encode character '\xee' in position 71: illegal multibyte ...

  9. UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f349' in position 64: illegal multibyt

    解决办法: s.decode('gbk', 'ignore').encode('utf-8′) reference:http://www.cnblogs.com/baiyuyang/archive/2 ...

最新文章

  1. ubuntu 16.04 多个python版本切换
  2. vse职位的全称_吉利汽车VSE岗(SE5AGBRC-M工资待遇怎么样 - 浙江吉利控股集团有限公司 - 职友集...
  3. 内核中的kmalloc函数详解
  4. QSS之图形渐变填充
  5. window 查找 java 进程中占用cpu比较高的线程
  6. Spring cloud集成Rabbitmq
  7. [html] 可以给内联元素设置宽和高吗?为什么?
  8. 欧洲半导体三巨头的守旧与拓新
  9. Debian8.1 安装samba与windows共享文件,在系统重启后samba服务无法自动启动
  10. 【学习笔记3】hook、冒烟测试、Procexp的使用
  11. linux如何安装ut880驱动下载,ut880驱动
  12. depends的用法
  13. 树莓派远程监控+运动目标检测
  14. shiro 记住我 的实现
  15. Linux下基于C++11的socket网络编程(线程版本)
  16. Verilator+gtkwave
  17. 《5K入门级项目实战:好来屋在线影院》之第 9 战 —— 电影信息管理
  18. 支付宝余额提现收手续费了
  19. putty psftp 上传文件夹或上传文件到linux
  20. 火绒安全安装出现NSIS error

热门文章

  1. 解决用VC6.0编写的软件在另一台电脑编译时无APPMODUL.CPP源文件问题
  2. java是什么?好学吗?
  3. 【安卓USB开发】让手机与物联网设备鹊桥相会
  4. 【Spring Boot】--整合RabbitMQ
  5. 苹果微信换行怎么打_微信空白朋友圈怎么发?安卓苹果双平台教程
  6. postgresql分割字符串_PostgreSQL 字符串拆分与合并案例
  7. 出生日期格式正则表达式
  8. Laya Air+Unity3D双引擎带你做个天空球3D小游戏(下篇)
  9. 苹果手机还原网络设置会怎样_苹果手机老是信号不好,只要掌握这4个小技巧,信号便能立马增强...
  10. Android源码 SettingsEnums路径