将txt文本由utf-8转gbk

import codecs# file = open(path, encoding='gbk', errors='ignore')
# print(file.readline())path = "locator5.txt" #输入文件路径,要保证格式为utf-8,window下文本打开另存为utf-8,# linux下文件直接转gbk  [shenjiayu@cp01-shenjiayu: ~]$ iconv -f utf-8 -t gbk utf_file > gbk_file
path2 = "locator6.txt"
path3 = "locator.json"def ReadFile(filePath,encoding="utf-8"):with codecs.open(filePath, "r", encoding) as f:return f.read()def ReadFile2(filePath,encoding="gbk"):with codecs.open(filePath, "r", encoding) as f:return f.read()def WriteFile(filePath,u,encoding="gbk"):with codecs.open(filePath, "w", encoding) as f:f.write(u)def UTF8_2_GBK(src,dst):content = ReadFile(src, encoding="utf-8")WriteFile(dst, content, encoding="gbk")def UTF8_2_GBK2(src,dst):content = ReadFile(src, encoding="utf-8")WriteFile(dst, content, encoding="gb18030")def UTF8_2_GBK3(src,dst):content = ReadFile(src, encoding="gbk")WriteFile(dst, content, encoding="gbk")UTF8_2_GBK2(path,path2)
#
# a = ReadFile2(path3)
# b = WriteFile(path2)
# UTF8_2_GBK2(a,b)

还有顺便补一个去除中文的

#随便记一个去除中文的
```python
import re
from zhon.hanzi import punctuation
from zhon.hanzi import charactersdef lm_find_unchinese(file):pattern = re.compile(r'[\u4e00-\u9fa5]')unchinese = re.sub(pattern,"",file) #排除汉字unchinese = re.sub('[{}]'.format(punctuation),"",unchinese) #排除中文符号#print("unchinese:",unchinese)return unchinese

将txt文本由utf-8转gbk相关推荐

python读取中文txt文本-python读取中文txt文本的方法
对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unico ...
python逐行读取字符串_python3.4.3下逐行读入txt文本并去重的方法
读写文件时应注意的问题包括: 1.字符编码 2.操作完成即时关闭文件描述符 3.代码兼容性几种方法: #!/bin/python3 original_list1=[" "] or ...
python文本去重函数_python3.4.3下逐行读入txt文本并去重的方法
读写文件时应注意的问题包括: 1.字符编码 2.操作完成即时关闭文件描述符 3.代码兼容性几种方法: #!/bin/python3 original_list1=[" "] or ...
python读取txt中的一列称为_python读取中文txt文本的方法
对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unico ...
python怎么读中文-python读取中文txt文本的方法
对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unico ...
python文本txt词频统计_python实例：三国演义TXT文本词频分析
0x00 前言找不到要写什么东西了!今天有个潭州大牛讲师说了个文本词频分析我基本上就照抄了一遍中间遇到一些小小的问题自我百度填坑补全了如下 : 效果演示 0x01 准备环境及 ...
python实现txt文本数据分类——中英文分类
最近在做自然语言处理的数据预处理部分--实体词,提取.抓取的数据集中包含中英文,那么我们只需要英文,不需要中文,于是就写了一个简单的脚本实现txt文本数据分类. 原数据如下(为了写这篇博客特意只提取了 ...
Python，批量删除txt文本指定行
本文解决问题:批量删除多行txt文本中的内容. 思路: 1.找出需要删除行的 id(就是需要删除那些行,把这是第几行给记录下来.) 2.将原文本内容不需要删除的行赋予到新的列表.(以此达到删除 ...
批量转txt文本编码,由utf-8转为ANSI(ASCII)
@批量转txt文本编码,由utf-8转为ANSI(ASCII) 废话不多说,直接上代码,这是java的技术;之前在网上找了好久都没有多大作用,老是出现乱码;找不到原因,现在可以了;转编码可以实现了! ...
python txt默认读取字符还是行,python读取中文txt文本的方法
字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unicode编码成另一种编码. ...

将txt文本由utf-8转gbk

将txt文本由utf-8转gbk相关推荐

最新文章

热门文章