将txt文本由utf-8转gbk
import codecs# file = open(path, encoding='gbk', errors='ignore')
# print(file.readline())path = "locator5.txt" #输入文件路径,要保证格式为utf-8,window下文本打开另存为utf-8,# linux下文件直接转gbk [shenjiayu@cp01-shenjiayu: ~]$ iconv -f utf-8 -t gbk utf_file > gbk_file
path2 = "locator6.txt"
path3 = "locator.json"def ReadFile(filePath,encoding="utf-8"):with codecs.open(filePath, "r", encoding) as f:return f.read()def ReadFile2(filePath,encoding="gbk"):with codecs.open(filePath, "r", encoding) as f:return f.read()def WriteFile(filePath,u,encoding="gbk"):with codecs.open(filePath, "w", encoding) as f:f.write(u)def UTF8_2_GBK(src,dst):content = ReadFile(src, encoding="utf-8")WriteFile(dst, content, encoding="gbk")def UTF8_2_GBK2(src,dst):content = ReadFile(src, encoding="utf-8")WriteFile(dst, content, encoding="gb18030")def UTF8_2_GBK3(src,dst):content = ReadFile(src, encoding="gbk")WriteFile(dst, content, encoding="gbk")UTF8_2_GBK2(path,path2)
#
# a = ReadFile2(path3)
# b = WriteFile(path2)
# UTF8_2_GBK2(a,b)
``
还有顺便补一个去除中文的
#随便记一个去除中文的
```python
import re
from zhon.hanzi import punctuation
from zhon.hanzi import charactersdef lm_find_unchinese(file):pattern = re.compile(r'[\u4e00-\u9fa5]')unchinese = re.sub(pattern,"",file) #排除汉字unchinese = re.sub('[{}]'.format(punctuation),"",unchinese) #排除中文符号#print("unchinese:",unchinese)return unchinese
将txt文本由utf-8转gbk相关推荐
- python读取中文txt文本-python读取中文txt文本的方法
对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unico ...
- python逐行读取字符串_python3.4.3下逐行读入txt文本并去重的方法
读写文件时应注意的问题包括: 1.字符编码 2.操作完成即时关闭文件描述符 3.代码兼容性 几种方法: #!/bin/python3 original_list1=[" "] or ...
- python文本去重函数_python3.4.3下逐行读入txt文本并去重的方法
读写文件时应注意的问题包括: 1.字符编码 2.操作完成即时关闭文件描述符 3.代码兼容性 几种方法: #!/bin/python3 original_list1=[" "] or ...
- python读取txt中的一列称为_python读取中文txt文本的方法
对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unico ...
- python怎么读中文-python读取中文txt文本的方法
对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unico ...
- python文本txt词频统计_python实例:三国演义TXT文本词频分析
0x00 前言 找不到要写什么东西了!今天有个潭州大牛讲师 说了个 文本词频分析 我基本上就照抄了一遍 中间遇到一些小小的问题 自我百度 填坑补全了 如下 : 效果演示 0x01 准备环境及 ...
- python实现txt文本数据分类——中英文分类
最近在做自然语言处理的数据预处理部分--实体词,提取.抓取的数据集中包含中英文,那么我们只需要英文,不需要中文,于是就写了一个简单的脚本实现txt文本数据分类. 原数据如下(为了写这篇博客特意只提取了 ...
- Python,批量删除txt文本指定行
本文解决问题:批量删除多行txt文本中的内容. 思路: 1.找出需要删除行的 id(就是需要删除那些行,把这是第几行给记录下来.) 2.将原文本内容不需要删除的行 赋予到 新的列表.(以此达到删除 ...
- 批量转txt文本编码,由utf-8转为ANSI(ASCII)
@批量转txt文本编码,由utf-8转为ANSI(ASCII) 废话不多说,直接上代码,这是java的技术;之前在网上找了好久都没有多大作用,老是出现乱码;找不到原因,现在可以了;转编码可以实现了! ...
- python txt默认读取字符还是行,python读取中文txt文本的方法
字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unicode编码成另一种编码. ...
最新文章
- P4513 小白逛公园 (线段树)
- 成都理工大学c语言复试,2020年成都理工大学信号与信息处理考研真题试卷及试题答案,C语言程序设计考研试题下载...
- 空间留言软件_电脑硬盘空间提示不足,原来还可以这么做,真是学到老活到老...
- ZZULIOJ 1159: 最大的两个数(指针专题)
- Android架构实例分析之编写hello驱动的HAL层代码
- 机器学习-1-.py文件的导入问题
- linux创建用户已存在哪里,解决linux下创建用户时出现 Creating mailbox file: 文件已存在...
- linux中的定时器检测按键,STM32单片机利用定时器实现按键采集
- excel中,0不显示,负数显示红色
- android后台获取当前屏幕截图(screencap.cpp修改)
- 手机群控系统电脑/手机硬件配置相关测试参数
- 计算机讲Word文档中的组合,电脑Word文档中两个表格如何合并
- Java并发 JUC 一文快速入门
- matlab怎么画函数线,请问matlab怎么画常数函数,比如同时画x=300和x=400这两条线...
- 什么是跨域及怎么解决跨域问题?
- kail之MSF渗透测试
- 安腾处理器 oracle,英特尔展示下一代安腾处理器Poulson
- 租用游艇问题——动态规划
- 【阿里云2020校招提前批】中间件核心部门疯狂直推中!
- ios开源框架——UITableView+FDTemplateLayoutCell优化UITableViewCell高度计算