最近老被编码困扰,多次折腾之后,感觉python的编解码做得挺好的,只要了解下边的流程,一般都能解决

input文件(gbk, utf-8...) ----decode-----> unicode -------encode------> output文件(gbk, utf-8...)
很多文本挖掘的package是在unicode上边做事的,比如nltk. 所以开始读入文件后要decode为unicode格式,可以通过下边两步:

f=open('XXXXX', 'r')
content=f.read().decode('utf-8')

更好的方法是使用codecs.open读入时直接解码:

f=codecs.open(XXX, encoding='utf-8')
content=f.read()

转自: http://f.dataguru.cn/thread-237116-1-1.html

转载于:https://www.cnblogs.com/Akkuman/p/6959243.html

Python中的open和codecs.open相关推荐

  1. python中codecs_Python:如何使用codecs模块将unicode数据保存成gbk格式

    需求:使用codecs模块将utf-8的文件保存成gbk格式. 读取的时候,已经将编码设置成utf-8了.输出结果是unicode字符串. 但是在将unicode字符串写入文件并保存为gbk的时候,发 ...

  2. python中codecs_python模块之codecs: 自然语言编码转换

    python对多国语言的处理是支持的很好的,它可以处理现在任意编码的字符,这里深入的研究一下python对多种不同语言的处理. 有一点需要清楚的是,当python要做编码转换的时候,会借助于内部的编码 ...

  3. python中codecs_Python3 中codecs进行文件的读取

    简单的概念与说明 编码(动词):按照某种规则(这个规则称为:编码(名词))将"文本"转换为"字节流".而在python 3中则表示:unicode变成str 解 ...

  4. python中codecs模块_python自然语言编码转换模块codecs介绍

    python对多国语言的处理是支持的很好的,它可以处理现在任意编码的字符,这里深入的研究一下python对多种不同语言的处理. 有一点需要清楚的是,当python要做编码转换的时候,会借助于内部的编码 ...

  5. python中string的操作函数

    在python有各种各样的string操作函数.在历史上string类在python中经历了一段轮回的历史.在最开始的时候,python有一个专门的string的module,要使用string的方法 ...

  6. python中的中文乱码问题深入分析

    网址 :http://www.jb51.net/article/26543.htm 在本文中,以'哈'来解释作示例解释所有的问题,"哈"的各种编码如下: 1. UNICODE (U ...

  7. python创建csv文件并写入-【已解决】Python中创建和保存数据到csv文件中

    此处希望在python中,将A和B的QA对话,中错误的对话,保存到csv中. 打算自己先创建一个csv文件,然后后续每个对话出错的话,就append追加写入到csv中. 其中希望用逗号分隔.而句子中如 ...

  8. python与php8-详解Python中Unicode和utf-8

    在Python语言中,Uincode字符串处理一直是一个容易让人迷惑的问题.许多Python爱好者经常因为搞不清Unicode.UTF-8还有其它许许多多的编码之间的区别而大伤脑筋.本文将介绍Unic ...

  9. Python中常用字符串 函数-转

    转自http://blog.csdn.net/jiangnanandi/archive/2008/10/09/3041964.aspx 在python有各种各样的string操作函数.在历史上stri ...

最新文章

  1. GitHub日收7000星,Windows计算器项目开源即爆红!
  2. asterisk源码目录结构
  3. PHP array_key_exists() 函数(判断某个数组中是否存在指定的 key)
  4. DPM 2007升级到SP1的方法
  5. 浅谈SCOM Agent的心跳响应机制
  6. 九、模型文档编辑器(生成项目文档)
  7. 一个关于C++ Inline关键字的引发的一个错误
  8. Java 线程池实际运用案例
  9. SQL文件导入数据库【保姆级教程】
  10. 对lambert diffuse(兰伯特漫反射)模型的理解
  11. ibd 导入mysql_mysql导入frm和ibd文件还原数据
  12. Mybatis游标Cursor查询
  13. PyQt5网易云主页UI实现
  14. 计算机多功能解说词,音乐教室解说词
  15. html怎么移动按钮位置,CSS Nav按钮向左下方移动(CSS Nav buttons move bottom left)
  16. 怎么恢复电脑删除的文件,误删除数据恢复
  17. 如何区分集线器、交换机、路由器呢
  18. 细数那些年我们一起玩过的Unity3D游戏(unity开发的游戏有哪些)
  19. 森林防火无线监控系统解决方案
  20. 生于1999年的11家互联网公司:为何唯独阿里巴巴化茧成蝶?

热门文章

  1. python不同颜色的代码_python日志通过不同的等级打印不同的颜色(示例代码)
  2. [已解决] org.hibernate.AnnotationException:未为实体类指定标识符
  3. primefaces教程_Primefaces BlockUI组件示例教程
  4. python map函数_Python map()函数
  5. python print_Python print()
  6. C语言基础教程之enum
  7. 简单理解const是锁还是不锁!
  8. oracle表连接——处理连接过程中另外一张表没有相关数据不显示问题
  9. asp.net 用parameter对象更新数据
  10. exchange 2010 部署