爬虫问题小记 --- UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 25703: illegal
问题:
今天在做爬虫的时候遇到如下问题,提示gbk编码方式无法对字符’\xa9’进行编码。
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa9’ in position 25703: illegal multibyte sequence
解决:
1、查看爬取网页的编码格式为’utf-8’,我使用的编码也是’utf-8’,此处没有问题;
2、使用print(’\xa9’),得到特殊字符,此字符在utf-8下是可以正常显示的;
3、综上考虑是在将获得的网页代码保存到本地时出了问题。由于中文windows系统使用gbk作为默认的编码方式,所以部分unicode字符是无法准确的在系统上进行显示的。
此处将写入的txt编码格式从默认的gbk改为utf-8即可正常存储。
注:
在python2中由于python默认的编码方式为ascii码,所以在进行操作时要遵循 'Decode early, Unicode everywhere, Encode late’的原则,各个编码格式显示的使用unicode作为中转。
而python3中的python默认的编码方式为unicode,在使用中会比python2简单很多,但是依然要考虑到操作系统的编码方式对数据存储的影响。
爬虫问题小记 --- UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 25703: illegal相关推荐
- Python报错UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 1919: illegal mult
with open("a.html", 'w') as f:f.write(html) python在写入文件时报错 UnicodeEncodeError: 'gbk' codec ...
- UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 314810: illegal multibyte
遇到这个错误,在网上找了很久.大家都说的是原理为啥会这样,首先确定这是特殊字符,一般用不上,不需要.这就简单了,用正表达式把它删除了就可以了 比如出错的就是:\xa9 这个字符 # 这个一般都是需要输 ...
- Python3 解决编码问题: UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position
原博文链接:http://www.aobosir.com/blog/2016/12/08/python3-UnicodeEncodeError-gbk-codec-can't-encode-chara ...
- UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xe7‘ in position 295: illegal multibyte seq
解决UnicodeEncodeError: 'gbk' codec can't encode character '\xe7' in position 295: illegal multibyte s ...
- 解决python UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xb5‘ in position 255: illegal mult
UnicodeEncodeError: 'gbk' codec can't encode character '\ufffd' in position 373: illegal multibyte s ...
- UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xa0‘ in position 21: illegal multibyte sequ
关于python的pywinaotu库print_control_identifiers()因为获取内容有'\xa0'而报错 报错内容: UnicodeEncodeError: 'gbk' codec ...
- UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\u0467‘ in position 0: illegal multibyte解决方案
大家好,我是herosunly.985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用.曾获得阿里云天池比赛第一名,科大讯飞比赛第三名,CCF比赛第四名.拥有多项发明专利.对机器学 ...
- UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xee‘ in position 71: illegal multibyte sequ
成功解决:UnicodeEncodeError: 'gbk' codec can't encode character '\xee' in position 71: illegal multibyte ...
- UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f349' in position 64: illegal multibyt
解决办法: s.decode('gbk', 'ignore').encode('utf-8′) reference:http://www.cnblogs.com/baiyuyang/archive/2 ...
最新文章
- ubuntu 16.04 多个python版本切换
- vse职位的全称_吉利汽车VSE岗(SE5AGBRC-M工资待遇怎么样 - 浙江吉利控股集团有限公司 - 职友集...
- 内核中的kmalloc函数详解
- QSS之图形渐变填充
- window 查找 java 进程中占用cpu比较高的线程
- Spring cloud集成Rabbitmq
- [html] 可以给内联元素设置宽和高吗?为什么?
- 欧洲半导体三巨头的守旧与拓新
- Debian8.1 安装samba与windows共享文件,在系统重启后samba服务无法自动启动
- 【学习笔记3】hook、冒烟测试、Procexp的使用
- linux如何安装ut880驱动下载,ut880驱动
- depends的用法
- 树莓派远程监控+运动目标检测
- shiro 记住我 的实现
- Linux下基于C++11的socket网络编程(线程版本)
- Verilator+gtkwave
- 《5K入门级项目实战:好来屋在线影院》之第 9 战 —— 电影信息管理
- 支付宝余额提现收手续费了
- putty psftp 上传文件夹或上传文件到linux
- 火绒安全安装出现NSIS error
热门文章
- 解决用VC6.0编写的软件在另一台电脑编译时无APPMODUL.CPP源文件问题
- java是什么?好学吗?
- 【安卓USB开发】让手机与物联网设备鹊桥相会
- 【Spring Boot】--整合RabbitMQ
- 苹果微信换行怎么打_微信空白朋友圈怎么发?安卓苹果双平台教程
- postgresql分割字符串_PostgreSQL 字符串拆分与合并案例
- 出生日期格式正则表达式
- Laya Air+Unity3D双引擎带你做个天空球3D小游戏(下篇)
- 苹果手机还原网络设置会怎样_苹果手机老是信号不好,只要掌握这4个小技巧,信号便能立马增强...
- Android源码 SettingsEnums路径