import codecs
f1=codecs.open('items.json', 'r', encoding='utf-8').read().decode("unicode_escape")
f=codecs.open('out.txt','wb',encoding='utf-8')
print >>f,f1
f.close()

字符编码问题的确是万年的难题。之前我也处理过 R 语言中文乱码的问题,it just drives me crazy!!!!!!!!!!!!!!!!! HOLY SHIT!!!!!!!!!!!!

要么就是这样的错误

UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte sequence

要么就是可以读取然后就乱码。

我本身环境为UTF-8.

>>> import sys;
>>> print(sys.getdefaultencoding());
utf-8

在第一行加上

# -*- coding: utf-8 -*-

将你的PY文件改为UTF-8文件格式,然后就

↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓

完美解决方案:

BYTES.decode("GBK",'ignore').encode("GBK").decode('UTF-8','ignore')#总之尼玛你就GBK和UTF-8之间搞来搞起就好了!艹!

EXCEL 乱码问题

可能大家都遇到过,python在输出的csv文件中如果有utf-8格式的中文,那么在使用excel打开该csv文件时,excel将不能够有效识别 出文件中的中文数据,严重时甚至不能够识别出分隔符。那么,要怎样操作才能够让excel识别出utf-8格式的中文呢?方法其实很简单,见以下代码:

  1. import codecs
  2. with open('ExcelUtf8.csv', 'w') as f:
  3. t = u'中国人'
  4. f.write(codecs.BOM_UTF8)
  5. f.write('%s,1,3\n' % t.encode('utf-8'))

运行代码,使用excel打开,截图如下:

如果我们屏蔽掉其中的一句代码

  1. import codecs
  2. with open('ExcelUtf8.csv', 'w') as f:
  3. t = u'中国人'
  4. #f.write(codecs.BOM_UTF8)
  5. f.write('%s,1,3\n' % t.encode('utf-8'))

再次运行代码,使用excel打开,截图如下:

其中具体的原理,大家可以去百度:BOM了

That which didn't kill me makes me stronger

转载于:https://www.cnblogs.com/kiddy/p/4354061.html

Python 抓取网页乱码问题 以及EXCEL乱码相关推荐

  1. python 抓取网页链接_从Python中的网页抓取链接

    python 抓取网页链接 Prerequisite: 先决条件: Urllib3: It is a powerful, sanity-friendly HTTP client for Python ...

  2. python 抓取网页数据

    python 抓取网页数据 此文解决如何从不同网页爬取数据的问题及注意事项,重点说明requests库的应用. 在开始之前,要郑重说明一下,不是每一个网页都可以爬取数据哦.有的网页涉及个人隐私或其他敏 ...

  3. python抓取网页文章_使用Python从公共API抓取新闻和文章

    python抓取网页文章 Whether you are data scientist, programmer or AI specialist, you surely can put huge nu ...

  4. Python抓取网页中的动态序列化数据

    Python抓取网页中的动态序列化数据 动态序列化数据经常应用于前后端分离的页面.或者通过VUE.JS等HTML页面环境,常规的爬虫抓取方法并不能满足数据采集的要求,因此需要其他的方式进行数据的采集. ...

  5. python抓取网站图片_python抓取图片示例 python抓取网页上图片

    python抓取网页上图片 这个错误时是什么意思 下面是代码 import re import urllib.request imp正则表达式匹配的url有错误 for x in add: print ...

  6. python抓取html中特定的数据库,Python抓取网页中内容,正则分析后存入mysql数据库...

    firefox+httpfox可以查看post表单 首先在http://www.renren.com/这个地址输入用户名和密码, 输入用户名和密码之后post到下面这个网址: http://www.r ...

  7. python抓取网页电话号码_利用正则表达式编写python 爬虫,抓取网页电话号码!...

    利用正则表达式编写python 爬虫,抓取网页联系我们电话号码!这里以九奥科技(www.jiuaoo.com)为例,抓取'联系我们'里面的电话号码,并输出. #!/usrweilie/bin/pyth ...

  8. 使用Python抓取网页信息

    之前用C#帮朋友写了一个抓取网页信息的程序,搞得好复杂,今天朋友又要让下网页数据,好多啊,又想偷懒,可是不想用C#了,于是想到了Python,大概花了两个小时,用记事本敲的,然后在IDLE (Pyth ...

  9. Python抓取网页云音乐指定歌手的歌曲和评论数量

    之前简单学了一下Python,没做过东西,心血来潮来了个idea,就写了一个抓取网页云音乐指定歌手的歌曲和评论数量的脚本. 代码如下,如果缺少包则用pip安装一下,不过AES加密用到的pycrypto ...

  10. 怎么用python抓取网页数据

    一个人能力太小,聚沙成塔,抱团取火,分享知识,帮助学习, 有愿意或者有问题一起钻研,新人也好,老手也好,希望在这个寒冬下,尽力生活, 欢迎 一起 qq群,306671879.学习前端 抓取网页需要导入 ...

最新文章

  1. exec不同文件l怎么汇总_ABAQUS常见问题汇总 - 2.0版.doc
  2. 梯度倒谱matlab程序,MFCC梅尔倒谱参数及matlab代码
  3. multiple Rational objects
  4. c/c++ 标准库 插入迭代器 详解
  5. CentOS7 redis-3.2.8 从单机到主从再到集群配置
  6. 享受便利的应用方式—Linux系统三则超酷技巧
  7. The Illustrated Transformer (Transformer可视化解读自译笔记)
  8. 欠拟合和过拟合以及如何选择模型
  9. linux cordova安装教程,mac怎么安装cordova?
  10. 浅谈算法和数据结构: 十一 哈希表
  11. 【软件相关】win10自带软件“画图”的妙用
  12. IDEA工具-鼠标滚轮调整字体大小
  13. 云计算发展现状及未来趋势
  14. 3.Regression(二)
  15. 动态本体 palantir
  16. win7连接惠普打印机p1108
  17. 国家级专精特新小巨人企业是什么?
  18. 去中心化存储项目终极指南 | Filecoin, Storj 和 PPIO 项目异同 (上)
  19. VC 控制台颜色设置
  20. 荣大速印机维修手册_荣大/佳文一体印刷机常见电机故障提示含义解释及排除...

热门文章

  1. 订单中有订单详细实体类。保存订单
  2. 懒加载(延迟加载)之后,在使用数据过程中容易出现的bug
  3. 每天一个linux命令(30):cal 命令
  4. nrpe的安装和配置(转)
  5. (转) mp4编码全介绍 (一)
  6. 图文:2010中国计算机网络安全年会启明星辰展台
  7. 基于applet与ServerSocket的网络聊天室(记得是上学的时候写的,现在都忘了,记录一下)...
  8. Golang 方法接收者为值与指针的区别
  9. C#GDI画立体渐变圆角panel
  10. 【拼爹坑爹不比爹】深入理解css中position属性及z-index属性