1.问题的描述

用Python进行文本处理时,有时候处理的文本中包含中文、英文、日文等多个语系的文本,有时候不能同时进行处理,这个时候就需要判别当前文本是属于哪个语系的。Python中有个langid工具包提供了此功能,langid目前支持97种语言的检测,非常好用。

2.程序的代码

以下Python是调用langid工具包来对文本进行语言检测与判别的程序代码:

import langid #引入langid模块

def translate(inputFile, outputFile):

fin = open(inputFile, "r") #以读的方式打开输入文件

fout = open(outputFile, "w") #以写的方式打开输出文件

for eachLine in fin: #依次读入每一行

line = eachLine.strip().decode("utf-8", "ignore") #去除每行的首位空格等,并统一转化成Unicode

lineTuple = langid.classify(line) #调用langid来对该行进行语言检测

if lineTuple[0] == "zh": #如果该行语言大部分为中文,则不进行任何处理

continue

outstr = line #如果该行语言为非中文,则准备输出

fout.write(outstr.strip().encode("utf-8") + " ") #输出非中文的行,从Unicode转化成utf-8输出

fin.close()

fout.close()

if __name__ == "__main__": #相当于main函数

translate("myInputFile.txt", "myOutputFile.txt")

以上代码是用来处理一个文本,将不属于中文的行依次输出到一个新的文件。

3.注意

第9、10行代码,langid.classify(line)的输出结果是一个二元组,二元组的第一项表示该文本所属的语系,如:zh表示中文、en表示英语、等等;二元组的第二项表示该文本中属于第一项中语系的所占比例。

希望对大家有所帮助。

python日语识别-编写简单的Python程序来判断文本的语种相关推荐

  1. python判断语种_编写简单的Python程序来判断文本的语种

    1.问题的描述 用Python进行文本处理时,有时候处理的文本中包含中文.英文.日文等多个语系的文本,有时候不能同时进行处理,这个时候就需要判别当前文本是属于哪个语系的.Python中有个langid ...

  2. python识别ppt文件格式 ——(专栏:基于python编写简单office阅卷程序③)

    ● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...

  3. python识别excel文件格式 ——(专栏:基于python编写简单office阅卷程序②)

    ● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...

  4. python识别word文件格式 ——(专栏:基于python编写简单office阅卷程序①)

    ● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...

  5. python做好的程序如何变成小程序-使用python编写简单的小程序编译成exe跑在win10上...

    每天的工作其实很无聊,早知道应该去IT公司闯荡的.最近的工作内容是每逢一个整点,从早7点到晚11点,去查一次客流数据,整理到表格中,上交给素未蒙面的上线,由他呈交领导查阅. 人的精力毕竟是有限的,所以 ...

  6. python socket编程 实现简单p2p聊天程序

    转载自:https://www.cnblogs.com/wuxie1989/p/7204887.html python socket编程 实现简单p2p聊天程序 目标是写一个python的p2p聊天的 ...

  7. Python编程学习——运用python编写简单的计算器程序

    简单计算器的程序实现 一.功能要求: 实现用户输入算式,其中包含加减乘除,括号以及空格的算式,并且优先计算最里的括号的算式,例如1+ 22*3 2-2 2*(2 3 1+34*33/4+55*(1 2 ...

  8. python网页服务器_python编写简单网页服务器

    这篇文章主要介绍了关于python 编写简单网页服务器,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 IDE:Pycharm sever.py #!/bin/python #-*- c ...

  9. python输入输出拓展: 制作简单的exe程序(温度转换器)

    制作简单的exe程序 为了防止代码被盗,需要对代码进行打包.这里,就需要制作exe程序. 准备工作: 1. 安装第三方模块 pyinstaller 2. . 阿里巴巴矢量图标库(www.iconfon ...

最新文章

  1. 网页中PNG透明背景图片的完美应用
  2. python图表之pygal入门篇
  3. Java yield详解_Java 中的 yield 关键字
  4. 一部论述修养人生处世出世的集录_读《菜根谭》,人生本是修心的过程
  5. kafka php 0.8,php5.6 centos7 kafka0.8.1
  6. 【CodeForces - 1027B 】Numbers on the Chessboard (没有营养的找规律题,无聊题)
  7. 企业如何采用机器学习
  8. AvtiveMQ与SpringBoot结合
  9. [转载] 将整数k转换成实数python表达式_Python程序设计课后习题答案-第一单元
  10. 员工入职是一连串事件(转)
  11. 将xml文件由格式化变为压缩字符串
  12. npm安装项目所有依赖包
  13. 人工智能属于计算机科学研究方向,《人工智能》课程简介
  14. C++ sort排序函数用法
  15. php怎么插入画笔,ps画笔怎么设置
  16. 网络是如何连接的--读书笔记
  17. 关于ioctl幻数构造
  18. 总结了下PHPExcel官方读取的几个例子
  19. C语言 输入一行字符,分别统计出其中英文字母、空格、数字和其他字符的个数
  20. 糖基化(glycosylation)

热门文章

  1. Firebird 数据库安装(转载)
  2. 简书APP连个验证短信都发不了?
  3. NVME协议-NVME概述
  4. Java舵机_mBlock Arduino(9)舵机(Servo motor)控制
  5. 跟大家分享橱柜五金中的铰链和滑轨
  6. 计算机院校都看重保研er的哪些能力?
  7. js+jQuery实现智慧党建相关费用纯前端计算公式实现
  8. Java项目实训——学生成绩查询系统
  9. c# 获取config文件的key标签值
  10. 小米技术分享:Mysql数据实时同步实践