11款开放中文分词引擎大比拼

在逐渐步入DT（Data Technology）时代的今天，自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说，并没有类似英文空格的边界标志。而理解句子所包含的词语，则是理解汉语语句的第一步。汉语自动分词的任务，通俗地说，就是要由机器在文本中的词与词之间自动加上空格。
一提到自动分词，通常会遇到两种比较典型的质疑。一种质疑是来自外行人的：这件事看上去平凡之极，好像一点儿也不“fancy”，会有什么用呢？另一种质疑则是来自业内：自动分词研究已经进行了数年，而网上也存在各种不同的开放分词系统，但对于实际商用似乎也未见一个“即插即用”的系统。
那么，目前常见的开放分词引擎，到底性能如何呢？为了进行测试，我们调研了11款网上常见的并且公开提供服务的分词系统，包括：

分词的客观量化测试离不开标注数据，即人工所准备的分词“标准答案”。在数据源方面，我们将测试分为:

新闻数据：140篇，共30517词语；
微博数据：200篇，共12962词语；
汽车论坛数据（汽车之家）100篇：共27452词语；
餐饮点评数据（大众点评）：100条，共8295词语。

准确度计算规则：

将所有标点符号去除，不做比较
参与测试的部分系统进行了实体识别，可能造成词语认定的不统一。我们将对应位置替换成了人工标注的结果，得到准确率估算的上界。
经过以上处理，用SIGHAN 分词评分脚本比较得到最终的准确率，召回率和F1值。

以上所有数据采用北大现代汉语基本加工规范对所有数据进行分词作为标准。具体数据下载地址请参见附录。通过这四类数据综合对比不同分词系统的分词准确度。

上图为参与比较的10款分词引擎在不同数据的分词准确度结果。可以看出，在所测试的四个数据集上，BosonNLP和哈工大语言云都取得了较高的分词准确率，尤其在新闻数据上。因为庖丁解牛是将所有可能成词的词语全部扫描出来（例如：“最不满意”分为：“最不不满满意”），与其他系统输出规范不同，因而不参与准确率统计。
为了更直接的比较不同数据源的差别，我们从每个数据源的测试数据中抽取比较典型的示例进行更直观的对比。

【新闻数据】
新闻数据的特点是用词规整，符合语法规则，也是普遍做得比较不错的一个领域。对比其他数据源，有7家系统都在新闻领域达到最高。包括IKAnalyzer、盘古分词、搜狗分词、新浪云、NLPIR、语言云、BosonNLP。并且有三家系统准确率超过90%。

样例：香港中文大学将来合肥一中进行招生宣传今年在皖招 8 人万家热线安徽第一门户

【微博数据】
微博数据用词多样、话题广泛，并常包含错别字及网络流行词。能够比较全面的体现每家分词系统的准确度。

样例：补了 battle 赛峰暴班的两个弟弟妹妹 @杨宝心 @修儿一个是我很挺的好弟弟一个是我推荐进好声音的妹子虽然都在 battle 阶段都下来了但是我依然像之前那样觉得你们非常棒

【汽车论坛】
汽车数据是针对汽车领域的专业评价数据，会出现很多的专业术语。例如示例中的“胎噪”、“风燥”等，如果系统没有足够强大的训练词库或领域优化，会使准确率有较大程度降低。比较有意思的是，对比其他数据源，有3家系统都在汽车论坛领域达到最高：腾讯文智、SCWS中文分词、结巴分词。

样例：舒适性胎噪风噪偏大避震偏硬过坎弹跳明显

【餐饮点评】
餐饮点评数据为顾客评论数据，更偏重口语化。会出现很多类似“闺蜜”、“萌萌哒”口语化词语和很多不规范的表达，使分词更加困难。

样例：跟闺蜜在西单逛街想吃寿司了在西单没搜到其他的日料店就来禾绿了我们俩都觉得没以前好了

各家系统对于多数简单规范的文本的分词已经达到很高的水平。但在仔细对比每一家中文分词后依旧发现切分歧义词和未登陆词（即未在训练数据中出现的词）仍然是影响分词准确度的两大“拦路虎”。
1.切分歧义：根据测试数据的切分结果，一类属于机器形式的歧义，在真实语言环境下，只有唯一可能的正确切分结果，称其为伪歧义。另一类有两种以上可实现的切分结果，称为真歧义。由于真歧义数据无法比较正确或者错误。所有我们着重举例来比较各家系统对伪歧义的处理效果。

正确：在伦敦奥运会 上将 可能有一位沙特阿拉伯的女子

（BosonNLP、新浪云、语言云、NLPIR、腾讯文智）

错误：在伦敦奥运会上将可能有一位沙特阿拉伯的女子

（PHP结巴分词、SCWS中文分词、搜狗分词、庖丁解牛）

示例中原意指伦敦奥运会可能有一位沙特阿拉伯的女子，错误分词的意思是指上将（军衔）中有一位是沙特阿拉伯的女子，句意截然不同。当然，分析的层次越深，机器对知识库质量、规模等的依赖性就越强，所需要的时间、空间代价也就越大。
2.未登录词：未登录词大致包含三大类：
a)新涌现的通用词：类似“神马”、“纳尼”、“甩卖”、“玫瑰金”等新思想、新事物所带来的新词汇，不管是文化的、政治的、还是经济的，在人们的生活中不断涌现。同时很多词语也具有一定的时效性。
b)专业术语：是相对日常用语而言的，一般指的某一行业各种名称用语，大多数情况为该领域的专业人士所熟知。这种未登录词理论上是可预期的。能够人工预先添加到词表中（但这也只是理想状态，在真实环境下并不易做到）。
c)专有名词：如中国人名、外国译名、地名、公司名等。这种词语很多基本上不可通过词典覆盖，考验分词系统的新词识别能力。

【新涌现的通用词或专业术语】
示例中的蓝色字包括专业术语：“肚腩”、“腹肌”、“腹直肌”、“腹外斜肌”、“腹横肌”；新涌现的通用词：“人鱼线”、“马甲线”。大多数的系统对于示例文本的分词结果都不够理想，例如：“大肚腩”（SCWS中文分词） “腹直肌腹外斜肌”（搜狗分词、IKAnalyer、NLPIR、SCWS中文分词）、“人鱼线”（PHP结巴分词）。总的来说这两种类型的数据每家系统都存在一定的缺陷，相对而言哈工大的语言云在这方面表现的较好。

本季最强家庭瘦腰计划彻底告别 大肚腩 没有腹肌的人生是不完整的平面模特 yanontheway 亲身示范的 9 个动作彻底强化 腹直肌 腹外斜肌 腹内斜肌 以及 腹横肌 每个动作认真做足 50 次一定要坚持做完美的 人鱼线 性感的 马甲线 都要我们自己去争取

【专有名词】
示例出现的专有名词包括“蒂莫西伊斯顿”（姓名）、“英国”“意大利”“北欧”（地点）、“金斯敦”（机构名）、“伊丽莎白格林希尔兹”（机构名）。而这种用词典无法穷尽的专有名词也成为各家分词准确率降低的重要原因。其中搜狗分词、IKAnalyer、PHP结巴分词、腾讯文智、SCWS中文分词在新词识别时较为谨慎，常将这类专有名词切分成多个词语。

油画英国画家 蒂莫西伊斯顿 唯美风油画 timothy easton 毕业于英国 金斯敦 艺术学院曾获 伊丽莎白 格林希尔兹 基金会奖得以前往 意大利 和北欧学习一年的机会

当然在分词准确度可以接受的情况下，很多细节问题，包括是否有出错情况、是否支持各种字符、是否标注词性等都可能让我们望而却步。在分词颗粒度选择当中，BosonNLP、SCWS、盘古分词、结巴分词、庖丁解牛都提供了多种选择，可以根据需求来采用不同的分词粒度。与北大的分词标准对比来说，新浪云默认的分词粒度较大，而搜狗分词、腾讯文智分词粒度相对较小。除此之外，BosonNLP、新浪云、NLPIR、腾讯文智同时提供了实体识别、情感分析、新闻分类等其他扩展服务。下表给出了各家系统在应用方面的详细对比。

中文分词是其他中文信息处理的基础，并且在很多领域都有广泛的应用，包括搜索引擎、机器翻译（MT）、语音合成、自动分类、自动摘要、自动校对等等。随着非结构化文本的广泛应用，中文分词等文本处理技术也变得越来越重要。通过评测可以看出，部分开放分词系统在不同领域已经达到较高准确率。对于数据分析处理的从业者，相信在此之上构建数据分析系统、人机交互平台，更能够起到事半功倍的效果。

注意：分词数据准备及评测由BosonNLP完成。

附录
评测数据地址
http://bosonnlp.com/dev/resource

各家分词系统链接地址
BosonNLP：http://bosonnlp.com/dev/center
IKAnalyzer：http://www.oschina.net/p/ikanalyzer
NLPIR：http://ictclas.nlpir.org/docs
SCWS中文分词：http://www.xunsearch.com/scws/docs.php
结巴分词：https://github.com/fxsjy/jieba
盘古分词：http://pangusegment.codeplex.com/
庖丁解牛：https://code.google.com/p/paoding/
搜狗分词：http://www.sogou.com/labs/webservice/
腾讯文智：
http://www.qcloud.com/wiki/API%E8%AF%B4%E6%98%8E%E6%96%87%E6%A1%A3
新浪云：http://www.sinacloud.com/doc/sae/python/segment.html
语言云：http://www.ltp-cloud.com/document

11款开放中文分词引擎大比拼相关推荐

11款开放中文分词引擎大比拼 1
在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺.对于我们每天打交道的中文来说,并没有类似英文空格的边界标志.而理解句子所包含的词语,则是理解汉语语句的第一步. ...
四款python中文分词系统简单测试
四款python中文分词系统简单测试: 注:中科院分词可采用调用C库的方式使用纠正下:中科院分词2012支持关键词提取准确率测试(使用对应项目提供在线测试,未添加用户自定义词典) 结巴中文分词ht ...
jieba:一款为中文分词而生的Python库
中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语.成语.单个文字. 中文分词是很多应用技术的前置技术,如搜索引擎.机器翻译.词性标注.相似度分析等,都是先对文本信息分词处理,再用分 ...
python文本分析的开源工具_共有11款Python 中文分词库开源软件
"哑哈"中文分词,更快或更准确,由你来定义.通过简单定制,让分词模块更适用于你的需求. "Yaha" You can custom your Chinese W ...
一行命令让ElasticSearch支持中文分词搜索
相信大家在开发博客,在线商城的时候会涉及到搜索功能.而近几年火起来的 ElasticSearch(ES)凭借其稳定.可靠.快速的实时搜索普遍受到大家的好评,连 Github.SoundCloud 也都 ...
干货 | 史上最全中文分词工具整理
作者 | fendouai 一．中文分词分词服务接口列表二．准确率评测: THULAC:与代表性分词软件的性能对比我们选择LTP-3.2.0 .ICTCLAS(2015版) .jieba(C++ ...
python 分词工具_「分词工具」干货 | 史上最全中文分词工具整理 - seo实验室
分词工具作者 | fendouai 分词服务接口列表二．准确率评测: THULAC:与代表性分词软件的性能对比我们选择LTP-3.2.0 .ICTCLAS(2015版) .jieba(C++版) ...
几款开源的中文分词系统
以下介绍4款开源中文分词系统 python环境下,jieba也不错,实现词性分词性能据说不错. 1.ICTCLAS – 全球最受欢迎的汉语分词系统中文词法分析是中文信息处理的基础与关键.中国科学院计 ...
常用的开源中文分词工具
转载自: http://www.scholat.com/vpost.html?pid=4477 常用的开源中文分词工具由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及 ...

11款开放中文分词引擎大比拼

11款开放中文分词引擎大比拼相关推荐

最新文章

热门文章