python读取中文txt操作 转化为拼音
import re f = open('geci.txt','r',encoding="gbk") word = f.read() f.close()p2 = re.compile(r'[^\u4e00-\u9fa5]') zh = "".join(p2.split(word)).strip()print(zh)
txt另存为,编码选ANSI(默认)的话,打开文件时要加上encoding=gbk
中文编码范围是u4e00到u9fa5
所以可以利用正则表达式
pypinyin
http://pypinyin.mozillazg.com/zh_CN/master/usage.html
>>> from pypinyin import pinyin, lazy_pinyin, Style >>> pinyin('中心') [['zhōng'], ['xīn']] >>> pinyin('中心', heteronym=True) # 启用多音字模式 [['zhōng', 'zhòng'], ['xīn']] >>> pinyin('中心', style=Style.FIRST_LETTER) # 设置拼音风格 [['z'], ['x']] >>> pinyin('中心', style=Style.TONE2, heteronym=True) [['zho1ng', 'zho4ng'], ['xi1n']] >>> lazy_pinyin('中心') # 不考虑多音字的情况 ['zhong', 'xin']
转载于:https://www.cnblogs.com/mrfri/p/8880046.html
python读取中文txt操作 转化为拼音相关推荐
- python读取中文txt文本-python读取中文txt文本的方法
对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unico ...
- python怎么读中文-python读取中文txt文本的方法
对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unico ...
- python txt默认读取字符还是行,python读取中文txt文本的方法
字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unicode编码成另一种编码. ...
- python如何读取中文文件-python读取中文txt文本的方法
对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unico ...
- python读取中文txt文本-Python3 解决读取中文文件txt编码的问题
问题描述 尝试用Python写一个Wordcloud的时候,出现了编码问题. 照着网上某些博客的说法添添改改后,结果是变成了"UnicodeDecodeError: "utf-8' ...
- python读取中文txt文本-python中使用txt文本保存和读取变量
### 问题: 在python中需要经常有需要提前生成复杂的计算结果变量的需求减少程序计算运行时间的需求,因此这里把变量存在txt文本文件中. 解决方法: 使用两个函数解决问题,一个函数把变量保存到文 ...
- python读取中文txt乱码问题
在用windows新建个文本文档然后用python进行读取的时候可能会出现乱码问题 解决办法: 导入 chardet 包 示例代码: import chardet with open(savepath ...
- python读取中文-python读取中文txt文本
对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unico ...
- python读取txt中的一列称为_python读取中文txt文本的方法
对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unico ...
最新文章
- celldex包使用
- ICML 2019全纪录:论文解读、workshop讨论、核心知识都在这里了
- [Erlang 0034] Erlang iolist
- 第10周项目实践 线索二叉树的建立及遍历
- ORB-SLAM2中生成金字塔提取FAST角点和计算BRIEF描述子
- pytorch入门使用
- html canvas直线进度条,js+HTML5 canvas 实现简单的加载条(进度条)功能示例
- [转]理解ThreadLocal
- 第四章:react ajax
- 红帽企业linux7 u盘安装,RedHat企业版7 “yum”重装 CentOS7 “yum”
- 2013年大数据行业应用展望报告
- android 跳转京东app,第三方应用跳转到京东app
- Q1:如何用 C# 计算相对时间 ?
- python 0 100被7整除_python: 输出 1~100 之间不能被 7 整除的数,每行输出 10 个数字,要求应用字符串格式化方法美化输出格式。...
- 基于matlab的2psk功率,基于matlab的相移键控系统仿真.doc
- keras实现注意力机制
- 嵌入式数据库系统Berkeley DB
- 知识图谱构建之二:从结构化数据到知识图谱
- 可视化学习笔记4:使用颜色
- 题解——星际旅行(欧拉路)
热门文章
- nginx实现网站url带参跳转 POST请求GET请求跳转
- Java爬虫 手机号段 归属地 处理后输出sql文件
- linux的网络配置有线线缆被拔出
- c语言输入的成绩由高到低该怎么,c语言编程:输入学生信息(姓名年龄分数)并按照分数由高到低输出...
- 蚂蚁S9矿卡ddr型号确认方法
- python内置数据结构_Python内置数据结构(一)
- 二流学校的计算机博士,“二流大学”的博士,值得读吗?想的尴尬症都犯了
- android markdown 框架,Android Studio MarkDown风格README的正确打开姿势
- Linux环境中的帮助命令有,Linux下的帮助命令
- 过渡效果_(新)61种数字胶动态过渡延时摄影效果转场 WIPE amp; LIGHT TRANSITIONS(3462)...