Python 抓取网页乱码问题 以及EXCEL乱码
import codecs f1=codecs.open('items.json', 'r', encoding='utf-8').read().decode("unicode_escape") f=codecs.open('out.txt','wb',encoding='utf-8') print >>f,f1 f.close()
字符编码问题的确是万年的难题。之前我也处理过 R 语言中文乱码的问题,it just drives me crazy!!!!!!!!!!!!!!!!! HOLY SHIT!!!!!!!!!!!!
要么就是这样的错误
UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte sequence
要么就是可以读取然后就乱码。
我本身环境为UTF-8.
>>> import sys; >>> print(sys.getdefaultencoding()); utf-8
在第一行加上
# -*- coding: utf-8 -*-
将你的PY文件改为UTF-8文件格式,然后就
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
完美解决方案:
BYTES.decode("GBK",'ignore').encode("GBK").decode('UTF-8','ignore')#总之尼玛你就GBK和UTF-8之间搞来搞起就好了!艹!
EXCEL 乱码问题
可能大家都遇到过,python在输出的csv文件中如果有utf-8格式的中文,那么在使用excel打开该csv文件时,excel将不能够有效识别 出文件中的中文数据,严重时甚至不能够识别出分隔符。那么,要怎样操作才能够让excel识别出utf-8格式的中文呢?方法其实很简单,见以下代码:
- import codecs
- with open('ExcelUtf8.csv', 'w') as f:
- t = u'中国人'
- f.write(codecs.BOM_UTF8)
- f.write('%s,1,3\n' % t.encode('utf-8'))
运行代码,使用excel打开,截图如下:
如果我们屏蔽掉其中的一句代码
- import codecs
- with open('ExcelUtf8.csv', 'w') as f:
- t = u'中国人'
- #f.write(codecs.BOM_UTF8)
- f.write('%s,1,3\n' % t.encode('utf-8'))
再次运行代码,使用excel打开,截图如下:
其中具体的原理,大家可以去百度:BOM了
转载于:https://www.cnblogs.com/kiddy/p/4354061.html
Python 抓取网页乱码问题 以及EXCEL乱码相关推荐
- python 抓取网页链接_从Python中的网页抓取链接
python 抓取网页链接 Prerequisite: 先决条件: Urllib3: It is a powerful, sanity-friendly HTTP client for Python ...
- python 抓取网页数据
python 抓取网页数据 此文解决如何从不同网页爬取数据的问题及注意事项,重点说明requests库的应用. 在开始之前,要郑重说明一下,不是每一个网页都可以爬取数据哦.有的网页涉及个人隐私或其他敏 ...
- python抓取网页文章_使用Python从公共API抓取新闻和文章
python抓取网页文章 Whether you are data scientist, programmer or AI specialist, you surely can put huge nu ...
- Python抓取网页中的动态序列化数据
Python抓取网页中的动态序列化数据 动态序列化数据经常应用于前后端分离的页面.或者通过VUE.JS等HTML页面环境,常规的爬虫抓取方法并不能满足数据采集的要求,因此需要其他的方式进行数据的采集. ...
- python抓取网站图片_python抓取图片示例 python抓取网页上图片
python抓取网页上图片 这个错误时是什么意思 下面是代码 import re import urllib.request imp正则表达式匹配的url有错误 for x in add: print ...
- python抓取html中特定的数据库,Python抓取网页中内容,正则分析后存入mysql数据库...
firefox+httpfox可以查看post表单 首先在http://www.renren.com/这个地址输入用户名和密码, 输入用户名和密码之后post到下面这个网址: http://www.r ...
- python抓取网页电话号码_利用正则表达式编写python 爬虫,抓取网页电话号码!...
利用正则表达式编写python 爬虫,抓取网页联系我们电话号码!这里以九奥科技(www.jiuaoo.com)为例,抓取'联系我们'里面的电话号码,并输出. #!/usrweilie/bin/pyth ...
- 使用Python抓取网页信息
之前用C#帮朋友写了一个抓取网页信息的程序,搞得好复杂,今天朋友又要让下网页数据,好多啊,又想偷懒,可是不想用C#了,于是想到了Python,大概花了两个小时,用记事本敲的,然后在IDLE (Pyth ...
- Python抓取网页云音乐指定歌手的歌曲和评论数量
之前简单学了一下Python,没做过东西,心血来潮来了个idea,就写了一个抓取网页云音乐指定歌手的歌曲和评论数量的脚本. 代码如下,如果缺少包则用pip安装一下,不过AES加密用到的pycrypto ...
- 怎么用python抓取网页数据
一个人能力太小,聚沙成塔,抱团取火,分享知识,帮助学习, 有愿意或者有问题一起钻研,新人也好,老手也好,希望在这个寒冬下,尽力生活, 欢迎 一起 qq群,306671879.学习前端 抓取网页需要导入 ...
最新文章
- exec不同文件l怎么汇总_ABAQUS常见问题汇总 - 2.0版.doc
- 梯度倒谱matlab程序,MFCC梅尔倒谱参数及matlab代码
- multiple Rational objects
- c/c++ 标准库 插入迭代器 详解
- CentOS7 redis-3.2.8 从单机到主从再到集群配置
- 享受便利的应用方式—Linux系统三则超酷技巧
- The Illustrated Transformer (Transformer可视化解读自译笔记)
- 欠拟合和过拟合以及如何选择模型
- linux cordova安装教程,mac怎么安装cordova?
- 浅谈算法和数据结构: 十一 哈希表
- 【软件相关】win10自带软件“画图”的妙用
- IDEA工具-鼠标滚轮调整字体大小
- 云计算发展现状及未来趋势
- 3.Regression(二)
- 动态本体 palantir
- win7连接惠普打印机p1108
- 国家级专精特新小巨人企业是什么?
- 去中心化存储项目终极指南 | Filecoin, Storj 和 PPIO 项目异同 (上)
- VC 控制台颜色设置
- 荣大速印机维修手册_荣大/佳文一体印刷机常见电机故障提示含义解释及排除...
热门文章
- 订单中有订单详细实体类。保存订单
- 懒加载(延迟加载)之后,在使用数据过程中容易出现的bug
- 每天一个linux命令(30):cal 命令
- nrpe的安装和配置(转)
- (转) mp4编码全介绍 (一)
- 图文:2010中国计算机网络安全年会启明星辰展台
- 基于applet与ServerSocket的网络聊天室(记得是上学的时候写的,现在都忘了,记录一下)...
- Golang 方法接收者为值与指针的区别
- C#GDI画立体渐变圆角panel
- 【拼爹坑爹不比爹】深入理解css中position属性及z-index属性