最近正好碰到这个需求,总结一下用Python进行语言检测的方法。

1.用unicode编码检测

汉字、韩文、日文等都有对应的unicode字符集范围,只要用正则表达式匹配出来即可。

在判断的时候,往往需要去掉一些特殊字符,例如中英文标点符号。可以用下列方法去除:

# 方法一,自定义需要去掉的标点符号,注意这个字符串的首尾出现的[]不是标点符号'[]',

# 而是正则表达式中的中括号,表示定义匹配的字符范围

remove_nota = u'[’·°–!"#$%&\'()*+,-./:;<=>?@,。?★、…【】()《》?“”‘’![\\]^_`{|}~]+'

sentence = '测试。,[].?'

print(re.sub(remove_nota, '', sentence))

# 方法二,只能去掉英文标点符号

remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)

print(sentence.translate(remove_punctuation_map))

输出:

测试

测试。,

还可以把数字也去掉:

# 方法一

sentence = re.sub('[0-9]', '', sentence).strip()

# 方法二

remove_digits = str.maketrans('', '', string.digits)

sentence = sentence.translate(remove_digits)

然后就可以进行语言检测了。

这里的思路是匹配句子的相应语言字符,然后替换掉,如果替换后字符串为空,表示这个句子是纯正的该语言(即不掺杂其它语言)。

也可以用正则表达式查询出句子中属于该语言的字符

s = "English Test"

re_words = re.compile(u"[a-zA-Z]")

res = re.findall(re_words, s) # 查询出所有的匹配字符串

print(res)

res2 = re.sub('[a-zA-Z]', '', s).strip()

print(res2) # 空字符串

if len(res2) <= 0:

print("This is English")

输出:

['E', 'n', 'g', 'l', 'i', 's', 'h', 'T', 'e', 's', 't']

This is English

匹配英文用u"[a-zA-Z]"

中文用u"[\u4e00-\u9fa5]+"

韩文用u"[\uac00-\ud7ff]+"

日文用u"[\u30a0-\u30ff\u3040-\u309f]+" (包括平假名和片假名)

如果想只保留需要的内容,比如保留中英文及数字:

# 只保留中文、英文、数字(会去掉法语德语韩语日语等)

rule = re.compile(u"[^a-zA-Z0-9\u4e00-\u9fa5]")

sentence = rule.sub('', sentence)

完整代码:

import re

import string

remove_nota = u'[’·°–!"#$%&\'()*+,-./:;<=>?@,。?★、…【】()《》?“”‘’![\\]^_`{|}~]+'

remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)

def filter_str(sentence):

sentence = re.sub(remove_nota, '', sentence)

sentence = sentence.translate(remove_punctuation_map)

return sentence.strip()

# 判断中日韩英

def judge_language(s):

# s = unicode(s) # python2需要将字符串转换为unicode编码,python3不需要

s = filter_str(s)

result = []

s = re.sub('[0-9]', '', s).strip()

# unicode english

re_words = re.compile(u"[a-zA-Z]")

res = re.findall(re_words, s) # 查询出所有的匹配字符串

res2 = re.sub('[a-zA-Z]', '', s).strip()

if len(res) > 0:

result.append('en')

if len(res2) <= 0:

return 'en'

# unicode chinese

re_words = re.compile(u"[\u4e00-\u9fa5]+")

res = re.findall(re_words, s) # 查询出所有的匹配字符串

res2 = re.sub(u"[\u4e00-\u9fa5]+", '', s).strip()

if len(res) > 0:

result.append('zh')

if len(res2) <= 0:

return 'zh'

# unicode korean

re_words = re.compile(u"[\uac00-\ud7ff]+")

res = re.findall(re_words, s) # 查询出所有的匹配字符串

res2 = re.sub(u"[\uac00-\ud7ff]+", '', s).strip()

if len(res) > 0:

result.append('ko')

if len(res2) <= 0:

return 'ko'

# unicode japanese katakana and unicode japanese hiragana

re_words = re.compile(u"[\u30a0-\u30ff\u3040-\u309f]+")

res = re.findall(re_words, s) # 查询出所有的匹配字符串

res2 = re.sub(u"[\u30a0-\u30ff\u3040-\u309f]+", '', s).strip()

if len(res) > 0:

result.append('ja')

if len(res2) <= 0:

return 'ja'

return ','.join(result)

这里的judge_language函数实现的功能是:针对一个字符串,返回其所属语种,如果存在多种语言,则返回多种语种(只能检测出中日英韩)

测试一下效果:

s1 = "汉语是世界上最优美的语言,正则表达式是一个很有用的工具"

s2 = "正規表現は非常に役に立つツールテキストを操作することです"

s3 = "あアいイうウえエおオ"

s4 = "정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다"

s5 = "Regular expression is a powerful tool for manipulating text."

s6 = "Regular expression 正则表达式 あアいイうウえエおオ 정규 표현식은"

print(judge_language(s1))

print(judge_language(s2))

print(judge_language(s3))

print(judge_language(s4))

print(judge_language(s5))

print(judge_language(s6))

输出:

zh

zh,ja

ja

ko

en

en,zh,ko,ja

因为s2中包括了汉字,所以输出结果中有zh。

2.用工具包检测

(1)langdetect

from langdetect import detect

from langdetect import detect_langs

s1 = "汉语是世界上最优美的语言,正则表达式是一个很有用的工具"

s2 = "正規表現は非常に役に立つツールテキストを操作することです"

s3 = "あアいイうウえエおオ"

s4 = "정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다"

s5 = "Regular expression is a powerful tool for manipulating text."

s6 = "Regular expression 正则表达式 あアいイうウえエおオ 정규 표현식은"

print(detect(s1))

print(detect(s2))

print(detect(s3))

print(detect(s4))

print(detect(s5))

print(detect(s6)) # detect()输出探测出的语言类型

print(detect_langs(s6)) # detect_langs()输出探测出的所有语言类型及其所占的比例

输出:

zh-cn

ja

ja

ko

en

ca # 加泰隆语

[ca:0.7142837837746273, ja:0.2857136751343887]

emmm...最后一句话识别的不准

(2)langid

import langid

s1 = "汉语是世界上最优美的语言,正则表达式是一个很有用的工具"

s2 = "正規表現は非常に役に立つツールテキストを操作することです"

s3 = "あアいイうウえエおオ"

s4 = "정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다"

s5 = "Regular expression is a powerful tool for manipulating text."

s6 = "Regular expression 正则表达式 あアいイうウえエおオ 정규 표현식은"

print(langid.classify(s1))

print(langid.classify(s2))

print(langid.classify(s3))

print(langid.classify(s4))

print(langid.classify(s5))

print(langid.classify(s6))

# langid.classify(s6)输出探测出的语言类型及其confidence score,

# 其confidence score计算方式方法见:https://jblevins.org/log/log-sum-exp

输出:

('zh', -370.64875650405884)

('ja', -668.9920794963837)

('ja', -213.35927987098694)

('ko', -494.80780935287476)

('en', -56.482327461242676)

('ja', -502.3459689617157)

两个包都把最后一句话识别成了英文,他们给出的结果都是ISO 639-1标准的语言代码。

再来看几个其他语言的例子:

s = "ру́сский язы́к" # Russian

print(detect(s))

print(langid.classify(s))

s = " " # Arabic

print(detect(s))

print(langid.classify(s))

s = "bonjour" # French

print(detect(s))

print(langid.classify(s))

输出:

ru

('ru', -194.25553131103516)

ar

('ar', -72.63771915435791)

hr # 克罗地亚语

('en', -22.992373943328857)

法语没判断出来。langdetect的判断结果依旧比较离谱...

没事可以多玩玩这两个包,O(∩_∩)O哈哈~

参考资料:

欢迎关注我的微信公众号~

python实现多语言语种识别_用Python进行语言检测相关推荐

  1. python手写答题卡识别_基于 Python OpenCV 的简易答题卡识别

    又有一个多月的时间了呢 = = 刚想起来还欠着一篇文章没写,趁着没忘干净赶紧补上 先上样卡(A4,扫描图片为600dpi) 整体并不是很复杂,但一口气手工切40+张也是够累,所以想办法自己写了个识别程 ...

  2. python带界面的人脸识别_基于Python的人脸识别实现带墨镜效果

    Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发. DEAL WITH IT是这样一个效果,眼镜从屏幕外飞进来,带在用户的脸上.这种效果的最佳实例是以一种独特 ...

  3. python读取视频流做人脸识别_基于 Python + OpenCV 进行人脸识别,视频追踪代码全注释...

    1 #-*- coding: utf-8 -*- 2 from __future__ importunicode_literals3 #操作文件 4 importos5 #科学计算 6 importn ...

  4. 机械优化黄金分割法c语言编程,黄金分割法_机械优化设计_C语言程序.doc

    黄金分割法_机械优化设计_C语言程序黄金分割法_机械优化设计_C语言程序 黄金分割法的优化设计 实验报告 学院:机电工程 机制自动化11-03班 学号:541102010326 姓名:刘点点 1,黄金 ...

  5. r语言平均值显著性检验_最全的R语言统计检验方法_数据挖掘中R语言的运用

    最全的R语言统计检验方法_数据挖掘中R语言的运用 统计检验是将抽样结果和抽样分布相对照而作出判断的工作.主要分5个步骤:建立假设 求抽样分布 选择显著性水平和否定域 计算检验统计量 判定 假设检验(h ...

  6. python人脸深度识别_基于Python的深度学习人脸识别方法

    基于 Python 的深度学习人脸识别方法 薛同来 ; 赵冬晖 ; 张华方 ; 郭玉 ; 刘旭春 [期刊名称] <工业控制计算机> [年 ( 卷 ), 期] 2019(032)002 [摘 ...

  7. 安卓dtmf识别_基于Python的DTMF信号识别

    前言 我这标题起得怎么这么像课程论文呢-- 啊,放心啦,这不是课程论文,这只是一个有趣(且值钱)的程序. 起因是这样的.我加了几个软件兼职群,前几天我发现其中有一个项目,是利用FFT识别信号啥的,报价 ...

  8. python 替换array中的值_利用Python提取视频中的字幕(文字识别)

    我的CSDN博客id:qq_39783601,昵称是糖潮丽子~辣丽 从今天开始我会陆续将数据分析师相关的知识点分享在这里,包括Python.机器学习.数据库等等. 今天来分享一个Python小项目! ...

  9. python语言程序设计项目_《Python语言程序设计》项目报告书Word版

    <<Python语言程序设计>项目报告书Word版>由会员分享,可在线阅读,更多相关<<Python语言程序设计>项目报告书Word版(8页珍藏版)>请 ...

最新文章

  1. mysql和redis的区别
  2. 小米纵向拓展接力赛 接棒新国货“热水器”
  3. 【EventBus】EventBus 源码解析 ( 注册订阅者 | 注册订阅方法详细过程 )
  4. 数据结构常见算法原理讲解100篇(一)-递归和分治算法原理及案例应用
  5. 一文带你领略JS中原型链的精妙设计!
  6. 开天辟地 —— Go scheduler 初始化(二)
  7. Matlab三位曲线之plot3函数
  8. Yoshua Bengio:深度学习的未来需要“探索高级认知的归纳偏置”
  9. UTF-8字符「EF BF BD」-备胎
  10. sql同比环比 简单示例
  11. kaldi 的安装和thchs30语音识别测试
  12. Execution failed for task ':app:processDebugGoogleServices'. No matching client found for package
  13. 苹果id登录_英雄联盟手游用苹果id登录显示账号异常的解决方法_英雄联盟手游...
  14. FII-PRA006/010开发板硬件实验一
  15. “我的代码正在被千百万人使用”,MySQL 之父等六大国际数据库掌门人谈如何做数据库!...
  16. 移动IM开源框架对比
  17. Task 5 Cypher 介绍及Neo4j 图数据库查询
  18. 值得收藏!国外最佳互联网安全博客TOP 30
  19. 每个程序猿都应该知道的网站,数量有点多,请点收藏慢慢查看
  20. HTML-从零开始的学习过程(2)

热门文章

  1. TCP的拥塞控制机制
  2. 大数据的应用-UserCF和ItemCF推荐算法
  3. android传感器博客,Android实现接近传感器
  4. 怎么把php的时区配置为本地,PHP本地时区设置
  5. matlab实现脑电信号的相位同步分析,视听刺激脑电信号的相位同步分析
  6. 算子基本思想_2.2 量子力学基本假设 Part 2
  7. Android之ViewDragHelper
  8. 【包邮送书活动】20210924期-开奖通知
  9. 大数据常见问题:数据倾斜
  10. wpf 点击按钮弹出选择框_WPF-PopupWindow wpf右下角弹出框,通过按钮调用,类似QQ CSharp C#编程 238万源代码下载- www.pudn.com...