python日语识别-编写简单的Python程序来判断文本的语种
1.问题的描述
用Python进行文本处理时,有时候处理的文本中包含中文、英文、日文等多个语系的文本,有时候不能同时进行处理,这个时候就需要判别当前文本是属于哪个语系的。Python中有个langid工具包提供了此功能,langid目前支持97种语言的检测,非常好用。
2.程序的代码
以下Python是调用langid工具包来对文本进行语言检测与判别的程序代码:
import langid #引入langid模块
def translate(inputFile, outputFile):
fin = open(inputFile, "r") #以读的方式打开输入文件
fout = open(outputFile, "w") #以写的方式打开输出文件
for eachLine in fin: #依次读入每一行
line = eachLine.strip().decode("utf-8", "ignore") #去除每行的首位空格等,并统一转化成Unicode
lineTuple = langid.classify(line) #调用langid来对该行进行语言检测
if lineTuple[0] == "zh": #如果该行语言大部分为中文,则不进行任何处理
continue
outstr = line #如果该行语言为非中文,则准备输出
fout.write(outstr.strip().encode("utf-8") + " ") #输出非中文的行,从Unicode转化成utf-8输出
fin.close()
fout.close()
if __name__ == "__main__": #相当于main函数
translate("myInputFile.txt", "myOutputFile.txt")
以上代码是用来处理一个文本,将不属于中文的行依次输出到一个新的文件。
3.注意
第9、10行代码,langid.classify(line)的输出结果是一个二元组,二元组的第一项表示该文本所属的语系,如:zh表示中文、en表示英语、等等;二元组的第二项表示该文本中属于第一项中语系的所占比例。
希望对大家有所帮助。
python日语识别-编写简单的Python程序来判断文本的语种相关推荐
- python判断语种_编写简单的Python程序来判断文本的语种
1.问题的描述 用Python进行文本处理时,有时候处理的文本中包含中文.英文.日文等多个语系的文本,有时候不能同时进行处理,这个时候就需要判别当前文本是属于哪个语系的.Python中有个langid ...
- python识别ppt文件格式 ——(专栏:基于python编写简单office阅卷程序③)
● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...
- python识别excel文件格式 ——(专栏:基于python编写简单office阅卷程序②)
● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...
- python识别word文件格式 ——(专栏:基于python编写简单office阅卷程序①)
● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...
- python做好的程序如何变成小程序-使用python编写简单的小程序编译成exe跑在win10上...
每天的工作其实很无聊,早知道应该去IT公司闯荡的.最近的工作内容是每逢一个整点,从早7点到晚11点,去查一次客流数据,整理到表格中,上交给素未蒙面的上线,由他呈交领导查阅. 人的精力毕竟是有限的,所以 ...
- python socket编程 实现简单p2p聊天程序
转载自:https://www.cnblogs.com/wuxie1989/p/7204887.html python socket编程 实现简单p2p聊天程序 目标是写一个python的p2p聊天的 ...
- Python编程学习——运用python编写简单的计算器程序
简单计算器的程序实现 一.功能要求: 实现用户输入算式,其中包含加减乘除,括号以及空格的算式,并且优先计算最里的括号的算式,例如1+ 22*3 2-2 2*(2 3 1+34*33/4+55*(1 2 ...
- python网页服务器_python编写简单网页服务器
这篇文章主要介绍了关于python 编写简单网页服务器,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 IDE:Pycharm sever.py #!/bin/python #-*- c ...
- python输入输出拓展: 制作简单的exe程序(温度转换器)
制作简单的exe程序 为了防止代码被盗,需要对代码进行打包.这里,就需要制作exe程序. 准备工作: 1. 安装第三方模块 pyinstaller 2. . 阿里巴巴矢量图标库(www.iconfon ...
最新文章
- 网页中PNG透明背景图片的完美应用
- python图表之pygal入门篇
- Java yield详解_Java 中的 yield 关键字
- 一部论述修养人生处世出世的集录_读《菜根谭》,人生本是修心的过程
- kafka php 0.8,php5.6 centos7 kafka0.8.1
- 【CodeForces - 1027B 】Numbers on the Chessboard (没有营养的找规律题,无聊题)
- 企业如何采用机器学习
- AvtiveMQ与SpringBoot结合
- [转载] 将整数k转换成实数python表达式_Python程序设计课后习题答案-第一单元
- 员工入职是一连串事件(转)
- 将xml文件由格式化变为压缩字符串
- npm安装项目所有依赖包
- 人工智能属于计算机科学研究方向,《人工智能》课程简介
- C++ sort排序函数用法
- php怎么插入画笔,ps画笔怎么设置
- 网络是如何连接的--读书笔记
- 关于ioctl幻数构造
- 总结了下PHPExcel官方读取的几个例子
- C语言 输入一行字符,分别统计出其中英文字母、空格、数字和其他字符的个数
- 糖基化(glycosylation)